Evaluer BLOOM en français

The development of very large language models, capable of performing multipes tasks, implies to develop the necessary infrastructures to evaluate these models, ideally covering as many facets as possible. Numerous benchmarks have already been compiled for English, making it possible to precisely gauge their ability to process this language. In this paper, we present our own efforts to assemble a multi-task evaluation set for French, which is then used to evaluate models from the Bloom family. Our results complement the main evaluation results for Bloom in English ; they suggest that the performance obtained in French and English are very similar, and even better when the amorces used for contextual inference are in the same language as the texts to analyze

Le développement de très grands modèles de langue, capables de traiter de multiples tâches, implique de développer les infrastructures requises pour évaluer ces modèles sous toutes leurs facettes. De nombreux ensembles de données de référence ont ainsi été rassemblés pour l’anglais, permettant d’apprécier en détail leur capacité à traiter cette langue. Dans cet article, nous présentons nos efforts pour assembler un ensemble d’évaluation multi-tâche pour le français, qui est utilisé pour évaluer le modèle Bloom. Nos résultats complètent les évaluations de Bloom en anglais ; ils suggèrent que les performances pour le français et l’anglais sont très voisines, et encore meilleures lorsque les amorces utilisées pour l’inférence en contexte sont dans la même langue que les textes soumis à l’analyse.

Mots clés

Large Language Models automatic evaluations

Giga modèles de langues Evaluations automatiques

Domaines

Informatique [cs]

Fichier principal

Bloume_v3.pdf (286.47 Ko)

Origine	Fichiers produits par l'(les) auteur(s)

CCSD Sciencesconf.org : Connectez-vous pour contacter le contributeur

https://hal.science/hal-04678039

Soumis le : lundi 26 août 2024-16:16:51

Dernière modification le : mercredi 30 octobre 2024-13:29:01

Dates et versions

hal-04678039 , version 1 (26-08-2024)

Identifiants

HAL Id : hal-04678039 , version 1

Citer

Rachel Bawden, Hatim Bourfoune, Bertrand Cabot, Nathan Cassereau, Pierre Cornette, et al.. Evaluer BLOOM en français. Atelier sur l'évaluation des modèles génératifs (LLM) et challenge d'extraction d'information few-shot, Institut des sciences informatiques et de leurs interactions - CNRS Sciences informatiques [INS2I-CNRS], Jul 2024, Toulouse, France. ⟨hal-04678039⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA ISIR CENTRALESUPELEC INRIA2 GENCI UNIV-PARIS-SACLAY SORBONNE-UNIVERSITE SU-SCIENCES ANR PRAIRIE-IA LISN GS-COMPUTER-SCIENCE ISIR_MLIA EVALLLM2024

76 Consultations

41 Téléchargements