Architecture basée sur les mécanismes d'attention: le cas de la génération de questions neuronales

Thomas Scialom; Benjamin Piwowarski; Jacopo Staiano

doi:10.24348/coria.2019.CORIA_2019_paper_11

Communication Dans Un Congrès Année : 2019

Architecture basée sur les mécanismes d'attention: le cas de la génération de questions neuronales

(1) , (2) ,

1
2

Thomas Scialom

Fonction : Auteur

Machine Learning and Information Access

Benjamin Piwowarski

Fonction : Auteur
PersonId : 9362
IdHAL : benjamin-piwowarski
ORCID : 0000-0001-6792-3262
IdRef : 226846601

Bases de Données

Jacopo Staiano

Fonction : Auteur

Résumé

Neural architectures based on self-attention, such as Transformers, recently attracted interest from the research community, and obtained significant improvements over the state of the art in several tasks. Adapting Transformers to Neural Question Generation is not straight- forward as data is relatively scarce in this task. We hence explore how Transformers can be adapted, and, in particular, study the effect of copy mechanisms, placeholders, and contex- tual word embeddings. Those mechanisms are particularly useful for the treatment of out-of- vocabulary words, which are more likely to affect performance in tasks with relatively smaller data available. The experiments reported show encouraging results in the answer-aware scenario (for which the target answer is known), while improvements over the state-of-the-art systems are obtained in the answer-agnostic setup.

Les architectures neuronales basées sur l'attention, telles que le Transformer, ont ré- cemment suscité l'intérêt de la communauté scientifique et ont permis d'obtenir des progrès im- portants par rapport à l'état de l'art dans plusieurs domaines. L'adaptation des Transformers à la tâche de la génération de questions n'est pas simple car les données sont ici relativement peu volumineuses. Nous explorons, par conséquent, comment un Transformer peut être adapté et, en particulier, étudions l'effet des mécanismes de copie, de remplacement d'entité nommée ainsi que l'intégration de représentations de mots contextualisées. Ces mécanismes sont parti- culièrement utiles pour le traitement des mots hors vocabulaire, qui sont les plus susceptibles d'affecter les performances dans le cadre de tâches pour lesquelles les données sont relative- ment moins disponibles. Les expériences rapportées montrent des résultats encourageants dans le scénario où la réponse n'est pas connue (mode non guidé). On obtient, par ailleurs, une amélioration par rapport à l'état de l'art quand elle ne l'est pas (mode guidé).

Domaines

Recherche d'information [cs.IR] Intelligence artificielle [cs.AI] Apprentissage [cs.LG] Traitement du texte et du document

Benjamin Piwowarski : Connectez-vous pour contacter le contributeur

https://hal.sorbonne-universite.fr/hal-02351017

Soumis le : mercredi 6 novembre 2019-11:26:52

Dernière modification le : samedi 7 octobre 2023-21:36:22

Dates et versions

hal-02351017 , version 1 (06-11-2019)

Identifiants

HAL Id : hal-02351017 , version 1
DOI : 10.24348/coria.2019.CORIA_2019_paper_11

Citer

Thomas Scialom, Benjamin Piwowarski, Jacopo Staiano. Architecture basée sur les mécanismes d'attention: le cas de la génération de questions neuronales. COnférence en Recherche d'Informations et Applications - CORIA 2019, 16th French Information Retrieval Conference, May 2019, Lyon, France. ⟨10.24348/coria.2019.CORIA_2019_paper_11⟩. ⟨hal-02351017⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS LIP6 SORBONNE-UNIVERSITE SU-SCIENCES

89 Consultations

0 Téléchargements

Architecture basée sur les mécanismes d'attention: le cas de la génération de questions neuronales

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Altmetric

Partager