Contextualization and Generalization in Entity and Relation Extraction - Sorbonne Université Accéder directement au contenu
Thèse Année : 2022

Contextualization and Generalization in Entity and Relation Extraction

Contextualisation et généralisation en extraction d'entités et de relations

Bruno Taillé
  • Fonction : Auteur
  • PersonId : 1199143
  • IdRef : 266216080

Résumé

Since 2018, the transfer of entire pretrained Language Models and the preservation of their contextualization capacities enabled to reach unprecedented performance on virtually every Natural Language Processing benchmark. However, as models reach such impressive scores, their comprehension abilities still appear as shallow, which reveals limitations of benchmarks to provide useful insights on their factors of performance and to accurately measure understanding capabilities. In this thesis, we study the behaviour of state-of-the-art models regarding generalization to facts unseen during training in Entity and Relation Extraction. Indeed, traditional benchmarks present important lexical overlap between mentions and relations used for training and evaluating models, whereas the main interest of Information Extraction is to extract previously unknown information. We propose studies to separate performance based on mention and relation overlap with the training set and find that pretrained Language Models are mainly beneficial to detect unseen mentions, in particular out-of-domain. While this makes them suited for real use cases, there is still a gap in performance between seen and unseen mentions that hurts generalization to new facts. In particular, even state-of-the-art ERE models rely on a shallow retention heuristic, basing their prediction more on arguments surface forms than context.
Depuis 2018, le transfert de modèles de langue pré-entraînés et la préservation de leurs capacités de contextualisation ont permis d'atteindre des performances sans précédent sur les benchmarks de Traitement Automatique des Langues. Cependant, alors que ces modèles atteignent des scores impressionnants, leurs capacités de compréhension apparaissent assez peu développées, révélant les limites des jeux de données de référence pour identifier leurs facteurs de performance et pour mesurer précisément leur capacité de compréhension. Dans cette thèse, nous étudions la généralisation à des faits inconnus par des modèles état de l'art en Extraction d'Entités Nommées et de Relations. En effet, les benchmarks traditionnels présentent un recoupement lexical important entre les mentions et les relations utilisées pour l'entraînement et l'évaluation des modèles. Au contraire, l'intérêt principal de l'Extraction d'Information est d'extraire des informations inconnues jusqu'alors. Nous proposons plusieurs études pour séparer les performances selon le recoupement des mentions et des relations avec le jeu d'entraînement. Nous constatons que les modèles de langage pré-entraînés sont principalement bénéfiques pour détecter les mentions non connues, en particulier dans des genres de textes nouveaux. Bien que cela les rende adaptés à des cas d'utilisation concrets, il existe toujours un écart de performance important entre les mentions connues et inconnues. En particulier, même les modèles d'Extraction d'Entités et de Relations les plus récents reposent sur une heuristique de rétention superficielle, basant plus leur prédiction sur les arguments des relations que sur leur contexte.
Fichier principal
Vignette du fichier
TAILLE_Bruno_these_2022.pdf (4.51 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03888787 , version 1 (07-12-2022)

Identifiants

  • HAL Id : tel-03888787 , version 1

Citer

Bruno Taillé. Contextualization and Generalization in Entity and Relation Extraction. Artificial Intelligence [cs.AI]. Sorbonne Université, 2022. English. ⟨NNT : 2022SORUS266⟩. ⟨tel-03888787⟩
73 Consultations
105 Téléchargements

Partager

Gmail Facebook X LinkedIn More