Contextualization and Generalization in Entity and Relation Extraction

Bruno Taillé

Thèse Année : 2022

Contextualization and Generalization in Entity and Relation Extraction

Contextualisation et généralisation en extraction d'entités et de relations

(1)

Bruno Taillé

Fonction : Auteur
PersonId : 1199143
IdRef : 266216080

Institut des Systèmes Intelligents et de Robotique

Résumé

Since 2018, the transfer of entire pretrained Language Models and the preservation of their contextualization capacities enabled to reach unprecedented performance on virtually every Natural Language Processing benchmark. However, as models reach such impressive scores, their comprehension abilities still appear as shallow, which reveals limitations of benchmarks to provide useful insights on their factors of performance and to accurately measure understanding capabilities. In this thesis, we study the behaviour of state-of-the-art models regarding generalization to facts unseen during training in Entity and Relation Extraction. Indeed, traditional benchmarks present important lexical overlap between mentions and relations used for training and evaluating models, whereas the main interest of Information Extraction is to extract previously unknown information. We propose studies to separate performance based on mention and relation overlap with the training set and find that pretrained Language Models are mainly beneficial to detect unseen mentions, in particular out-of-domain. While this makes them suited for real use cases, there is still a gap in performance between seen and unseen mentions that hurts generalization to new facts. In particular, even state-of-the-art ERE models rely on a shallow retention heuristic, basing their prediction more on arguments surface forms than context.

Depuis 2018, le transfert de modèles de langue pré-entraînés et la préservation de leurs capacités de contextualisation ont permis d'atteindre des performances sans précédent sur les benchmarks de Traitement Automatique des Langues. Cependant, alors que ces modèles atteignent des scores impressionnants, leurs capacités de compréhension apparaissent assez peu développées, révélant les limites des jeux de données de référence pour identifier leurs facteurs de performance et pour mesurer précisément leur capacité de compréhension. Dans cette thèse, nous étudions la généralisation à des faits inconnus par des modèles état de l'art en Extraction d'Entités Nommées et de Relations. En effet, les benchmarks traditionnels présentent un recoupement lexical important entre les mentions et les relations utilisées pour l'entraînement et l'évaluation des modèles. Au contraire, l'intérêt principal de l'Extraction d'Information est d'extraire des informations inconnues jusqu'alors. Nous proposons plusieurs études pour séparer les performances selon le recoupement des mentions et des relations avec le jeu d'entraînement. Nous constatons que les modèles de langage pré-entraînés sont principalement bénéfiques pour détecter les mentions non connues, en particulier dans des genres de textes nouveaux. Bien que cela les rende adaptés à des cas d'utilisation concrets, il existe toujours un écart de performance important entre les mentions connues et inconnues. En particulier, même les modèles d'Extraction d'Entités et de Relations les plus récents reposent sur une heuristique de rétention superficielle, basant plus leur prédiction sur les arguments des relations que sur leur contexte.

Mots clés

Information extraction Natural language processing Deep learning

Extraction d'information Reconnaissance d'entités nommées Extraction de relations Traitement automatique des langues Apprentissage profond Généralisation

Domaines

Intelligence artificielle [cs.AI]

Fichier principal

TAILLE_Bruno_these_2022.pdf (4.51 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-03888787

Soumis le : mercredi 7 décembre 2022-15:51:16

Dernière modification le : samedi 7 octobre 2023-21:36:23

Archivage à long terme le : mercredi 8 mars 2023-19:25:16

Dates et versions

tel-03888787 , version 1 (07-12-2022)

Identifiants

HAL Id : tel-03888787 , version 1

Citer

Bruno Taillé. Contextualization and Generalization in Entity and Relation Extraction. Artificial Intelligence [cs.AI]. Sorbonne Université, 2022. English. ⟨NNT : 2022SORUS266⟩. ⟨tel-03888787⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS STAR ISIR SORBONNE-UNIVERSITE THESES-SU SU-SCIENCES

73 Consultations

105 Téléchargements

Contextualization and Generalization in Entity and Relation Extraction

Contextualisation et généralisation en extraction d'entités et de relations

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager