Towards Controllable and Factual Data-to-Text Generation Models

Clément Rebuffel

Thèse Année : 2022

Towards Controllable and Factual Data-to-Text Generation Models

Vers des modèles contrôlables et factuels pour la génération de texte à partir de données structurées

(1, 2)

1
2

Clément Rebuffel

Fonction : Auteur

BNP-Paribas

Machine Learning and Information Access

Résumé

Data-to-Text Generation (DTG) consists in describing complex data using Natural Language such that humans can better understand it. Automated systems for DTG traditionally consist in a collection of complex rules, crafted using domain expertise. Recently, approaches based on Neural Networks (NNs) have been proposed. NNs alleviate the need for costly domain expertise and are able to produce fluent and in-domain descriptions. Unfortunately, descriptions written by NNs tend to include incorrect statements, a behaviour called hallucination. This is mostly due to noisy data, where training descriptions do not completely align with their associated inputs, causing NNs to learn spurious alignments and including fasle information in their outputs. This PhD tackles this issue along three axes. We've proposed 1) hierarchical models that better handle complex data; 2) training frameworks, so models can learn from noisy examples; 3) an automated metric for semantic evaluation in DTG.

La génération de données en texte (DTG) consiste à décrire des données complexes à l'aide d'un langage naturel afin que les humains puissent mieux les comprendre. Les systèmes automatisés de DTG consistent traditionnellement en une collection de règles complexes, élaborées à partir d'une expertise du domaine. Récemment, des approches basées sur les réseaux de neurones (RNs) ont été proposées. Les réseaux neuronaux évitent le recours à une expertise coûteuse du domaine et sont capables de produire des descriptions fluides et adaptées au domaine. Malheureusement, les descriptions écrites par les réseaux neuronaux ont tendance à inclure des déclarations incorrectes, un comportement appelé hallucination. Ceci est principalement dû à des données bruyantes, où les descriptions d'entraînement ne sont pas complètement alignées sur leurs entrées associées, ce qui amène les RNs à apprendre des alignements erronés et donc à inclure des informations erronées dans leurs sorties. Cette thèse aborde ce problème selon trois axes. Nous avons proposé 1) des modèles hiérarchiques qui gèrent mieux les données complexes ; 2) des frameworks d'entrainement afin que les modèles puissent apprendre à partir d'exemples bruités ; 3) une métrique automatisée pour l'évaluation sémantique de la DTG.

Mots clés

data-to-text generation

machine learning

Domaines

Traitement du texte et du document Intelligence artificielle [cs.AI] Réseau de neurones [cs.NE]

Laure Soulier : Connectez-vous pour contacter le contributeur

https://hal.sorbonne-universite.fr/tel-03764316

Soumis le : mardi 30 août 2022-10:52:58

Dernière modification le : jeudi 28 novembre 2024-03:29:39

Dates et versions

tel-03764316 , version 1 (30-08-2022)

Identifiants

HAL Id : tel-03764316 , version 1

Citer

Clément Rebuffel. Towards Controllable and Factual Data-to-Text Generation Models. Document and Text Processing. Sorbonne University, 2022. English. ⟨NNT : ⟩. ⟨tel-03764316⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS ISIR SORBONNE-UNIVERSITE SU-SCIENCES THESES-UNC ISIR_MLIA

72 Consultations

0 Téléchargements

Towards Controllable and Factual Data-to-Text Generation Models

Vers des modèles contrôlables et factuels pour la génération de texte à partir de données structurées

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager