À propos des difficultés de traduire automatiquement de longs documents

Ziqian Peng; Rachel Bawden; François Yvon

Communication Dans Un Congrès Année : 2024

À propos des difficultés de traduire automatiquement de longs documents

(1) , (2) , (3)

1
2
3

Ziqian Peng

Fonction : Auteur
PersonId : 1298309
IdHAL : ziqian-peng

Institut des Systèmes Intelligents et de Robotique

Rachel Bawden

Fonction : Auteur
PersonId : 9441
IdHAL : rachel-bawden
ORCID : 0000-0001-9553-1768
IdRef : 233174591

Automatic Language Modelling and ANAlysis & Computational Humanities

François Yvon

Fonction : Auteur
PersonId : 5347
IdHAL : francois-yvon
ORCID : 0000-0002-7972-7442
IdRef : 057593531

Machine Learning and Information Access

Résumé

Les nouvelles architectures de traduction automatique sont capables de traiter des segments longs et de surpasser la traduction de phrases isolées, laissant entrevoir la possibilité de traduire des documents complets. Pour y parvenir, il est nécessaire de surmonter un certain nombre de difficultés liées à la longueur des documents à traduire. Dans cette étude, nous discutons de la traduction des documents sous l'angle de l'évaluation, en essayant de répondre à une question simple: comment mesurer s'il existe une dégradation des performances de traduction avec la longueur des documents ? Nos analyses, qui évaluent des systèmes encodeur-décodeur et un grand modèle de langue à l'aune de plusieurs métriques sur une tâche de traduction de documents scientifiques suggèrent que traduire les documents longs d'un bloc reste un problème difficile.

Mots clés

Traduction Automatique Évaluation de la traduction Traitement de documents

Domaines

Informatique et langage [cs.CL]

Fichier principal

0157.pdf (387.27 Ko)

Origine	Fichiers éditeurs autorisés sur une archive ouverte

Matthieu Labeau : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-04623006

Soumis le : lundi 1 juillet 2024-09:12:37

Dernière modification le : vendredi 22 novembre 2024-10:12:12

Dates et versions

hal-04623006 , version 1 (01-07-2024)

Licence

Paternité

Identifiants

HAL Id : hal-04623006 , version 1

Citer

Ziqian Peng, Rachel Bawden, François Yvon. À propos des difficultés de traduire automatiquement de longs documents. 35èmes Journées d'Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.2-21. ⟨hal-04623006⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA ISIR INRIA2 SORBONNE-UNIVERSITE SU-SCIENCES TALN-RECITAL ANR PRAIRIE-IA ISIR_MLIA JEP-TALN-RECITAL2024

1416 Consultations

86 Téléchargements

À propos des difficultés de traduire automatiquement de longs documents

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Relations

Exporter

Collections

Partager