Architecture basée sur les mécanismes d'attention: le cas de la génération de questions neuronales - Sorbonne Université Accéder directement au contenu
Communication Dans Un Congrès Année : 2019

Architecture basée sur les mécanismes d'attention: le cas de la génération de questions neuronales

Benjamin Piwowarski
Jacopo Staiano
  • Fonction : Auteur

Résumé

Neural architectures based on self-attention, such as Transformers, recently attracted interest from the research community, and obtained significant improvements over the state of the art in several tasks. Adapting Transformers to Neural Question Generation is not straight- forward as data is relatively scarce in this task. We hence explore how Transformers can be adapted, and, in particular, study the effect of copy mechanisms, placeholders, and contex- tual word embeddings. Those mechanisms are particularly useful for the treatment of out-of- vocabulary words, which are more likely to affect performance in tasks with relatively smaller data available. The experiments reported show encouraging results in the answer-aware scenario (for which the target answer is known), while improvements over the state-of-the-art systems are obtained in the answer-agnostic setup.
Les architectures neuronales basées sur l'attention, telles que le Transformer, ont ré- cemment suscité l'intérêt de la communauté scientifique et ont permis d'obtenir des progrès im- portants par rapport à l'état de l'art dans plusieurs domaines. L'adaptation des Transformers à la tâche de la génération de questions n'est pas simple car les données sont ici relativement peu volumineuses. Nous explorons, par conséquent, comment un Transformer peut être adapté et, en particulier, étudions l'effet des mécanismes de copie, de remplacement d'entité nommée ainsi que l'intégration de représentations de mots contextualisées. Ces mécanismes sont parti- culièrement utiles pour le traitement des mots hors vocabulaire, qui sont les plus susceptibles d'affecter les performances dans le cadre de tâches pour lesquelles les données sont relative- ment moins disponibles. Les expériences rapportées montrent des résultats encourageants dans le scénario où la réponse n'est pas connue (mode non guidé). On obtient, par ailleurs, une amélioration par rapport à l'état de l'art quand elle ne l'est pas (mode guidé).
Fichier non déposé

Dates et versions

hal-02351017 , version 1 (06-11-2019)

Identifiants

Citer

Thomas Scialom, Benjamin Piwowarski, Jacopo Staiano. Architecture basée sur les mécanismes d'attention: le cas de la génération de questions neuronales. COnférence en Recherche d'Informations et Applications - CORIA 2019, 16th French Information Retrieval Conference, May 2019, Lyon, France. ⟨10.24348/coria.2019.CORIA_2019_paper_11⟩. ⟨hal-02351017⟩
83 Consultations
0 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More