LOCOST: Modèles Espace-État pour le Résumé Abstractif de Documents Longs

Les modèles espace-état constituent une alternative peu coûteuse en termes de complexité de calcul aux transformeurs pour le codage de longues séquences et la capture de longues dépendances. Nous proposons LOCOST: une architecture encodeur-décodeur basée sur des modèles espace-état pour la génération de textes conditionnels avec de longues entrées contextuelles. Avec une complexité de calcul de O(L log L), cette architecture peut traiter des séquences beaucoup plus longues que les modèles de référence qui sont basés sur des modèles d'attention parcimonieux. Nous évaluons notre modèle sur une série de tâches de résumé abstractif de longs documents. Le modèle atteint un niveau de performance qui est 93-96% comparable aux transformeurs parcimonieux les plus performants de la même taille tout en économisant jusqu'à 50% de mémoire pendant l'apprentissage et jusqu'à 87% pendant l'inférence. En outre, LOCOST traite efficacement les entrées dépassant 600K tokens au moment de l'inférence, établissant de nouveaux résultats de référence sur le résumé de livre complet et ouvrant de nouvelles perspectives pour le traitement des entrées longues.

Mots clés

modèles espace-état résumé abstractif de documents longs traitement du langage naturel

Domaines

Informatique et langage [cs.CL]

Fichier principal

7014.pdf (84.82 Ko)

Origine	Fichiers éditeurs autorisés sur une archive ouverte

Matthieu Labeau : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-04622998

Soumis le : vendredi 28 juin 2024-11:12:43

Dernière modification le : lundi 16 décembre 2024-12:02:08

Dates et versions

hal-04622998 , version 1 (28-06-2024)

Licence

Paternité

Identifiants

HAL Id : hal-04622998 , version 1

Citer

Florian Le Bronnec, Song Duong, Alexandre Allauzen, Vincent Guigue, Alberto Lumbreras, et al.. LOCOST: Modèles Espace-État pour le Résumé Abstractif de Documents Longs. 35èmes Journées d'Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.11-11. ⟨hal-04622998⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

AGROPARISTECH CNRS UNIV-DAUPHINE ISIR LAMSADE-DAUPHINE MIA-PARIS PSL UNIV-PARIS-SACLAY SORBONNE-UNIVERSITE SU-SCIENCES INRAE TALN-RECITAL GS-MATHEMATIQUES GS-COMPUTER-SCIENCE ISIR_MLIA MATHNUM RESEAU-EAU JEP-TALN-RECITAL2024

218 Consultations

152 Téléchargements