Evaluer BLOOM en français
Abstract
The development of very large language models, capable of performing multipes tasks, implies to develop the necessary infrastructures to evaluate these models, ideally covering as many facets as possible. Numerous benchmarks have already been compiled for English, making it possible to precisely gauge their ability to process this language. In this paper, we present our own efforts to assemble a multi-task evaluation set for French, which is then used to evaluate models from the Bloom family. Our results complement the main evaluation results for Bloom in English ; they suggest that the performance obtained in French and English are very similar, and even better when the amorces used for contextual inference are in the same language as the texts to analyze
Le développement de très grands modèles de langue, capables de traiter de multiples tâches, implique de développer les infrastructures requises pour évaluer ces modèles sous toutes leurs facettes. De nombreux ensembles de données de référence ont ainsi été rassemblés pour l’anglais, permettant d’apprécier en détail leur capacité à traiter cette langue. Dans cet article, nous présentons nos efforts pour assembler un ensemble d’évaluation multi-tâche pour le français, qui est utilisé pour évaluer le modèle Bloom. Nos résultats complètent les évaluations de Bloom en anglais ; ils suggèrent que les
performances pour le français et l’anglais sont très voisines, et encore meilleures lorsque les amorces utilisées pour l’inférence en contexte sont dans la même langue que les textes soumis à l’analyse.
Origin | Files produced by the author(s) |
---|