LOCOST: Modèles Espace-État pour le Résumé Abstractif de Documents Longs - Machine Learning and Information Access
Conference Papers Year : 2024

LOCOST: Modèles Espace-État pour le Résumé Abstractif de Documents Longs

Abstract

Les modèles espace-état constituent une alternative peu coûteuse en termes de complexité de calcul aux transformeurs pour le codage de longues séquences et la capture de longues dépendances. Nous proposons LOCOST: une architecture encodeur-décodeur basée sur des modèles espace-état pour la génération de textes conditionnels avec de longues entrées contextuelles. Avec une complexité de calcul de O(L log L), cette architecture peut traiter des séquences beaucoup plus longues que les modèles de référence qui sont basés sur des modèles d'attention parcimonieux. Nous évaluons notre modèle sur une série de tâches de résumé abstractif de longs documents. Le modèle atteint un niveau de performance qui est 93-96% comparable aux transformeurs parcimonieux les plus performants de la même taille tout en économisant jusqu'à 50% de mémoire pendant l'apprentissage et jusqu'à 87% pendant l'inférence. En outre, LOCOST traite efficacement les entrées dépassant 600K tokens au moment de l'inférence, établissant de nouveaux résultats de référence sur le résumé de livre complet et ouvrant de nouvelles perspectives pour le traitement des entrées longues.
Fichier principal
Vignette du fichier
7014.pdf (84.82 Ko) Télécharger le fichier
Origin Publisher files allowed on an open archive

Dates and versions

hal-04622998 , version 1 (28-06-2024)

Licence

Identifiers

  • HAL Id : hal-04622998 , version 1

Cite

Florian Le Bronnec, Song Duong, Alexandre Allauzen, Vincent Guigue, Alberto Lumbreras, et al.. LOCOST: Modèles Espace-État pour le Résumé Abstractif de Documents Longs. 35èmes Journées d'Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.11-11. ⟨hal-04622998⟩
171 View
74 Download

Share

More