Apprentissage non-supervisé de la morphologie des langues à l’aide de modèles bayésiens non-paramétriques

Kevin Löser

Thèse Année : 2019

Unsupervised learning of natural language morphology using non-parametric bayesian models

Apprentissage non-supervisé de la morphologie des langues à l’aide de modèles bayésiens non-paramétriques

(1)

Kevin Löser

Fonction : Auteur

Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur

Résumé

A crucial issue in statistical natural language processing is the issue of sparsity, namely the fact that in a given learning corpus, most linguistic events have low occurrence frequencies, and that an infinite number of structures allowed by a language will not be observed in the corpus. Neural models have already contributed to solving this issue by inferring continuous word representations. These continuous representations allow to structure the lexicon by inducing semantic or syntactic similarity between words. However, current neural models only partially solve the sparsity issue, due to the fact that they require a vectorial representation for every word in the lexicon, but are unable to infer sensible representations for unseen words. This issue is especially present in morphologically rich languages, where word formation processes yield a proliferation of possible word forms, and little overlap between the lexicon observed during model training, and the lexicon encountered during its use. Today, several languages are used on the Web besides English, and engineering translation systems that can handle morphologies that are very different from western European languages has become a major stake. The goal of this thesis is to develop new statistical models that are able to infer in an unsupervised fashion the word formation processes underlying an observed lexicon, in order to produce morphological analyses of new unseen word forms.

Un problème central contribuant à la grande difficulté du traitement du langage naturel par des méthodes statistiques est celui de la parcimonie des données, à savoir le fait que dans un corpus d'apprentissage donné, la plupart des évènements linguistiques n'ont qu'un nombre d'occurrences assez faible, et que par ailleurs un nombre infini d'évènements permis par une langue n'apparaitront nulle part dans le corpus. Les modèles neuronaux ont déjà contribué à partiellement résoudre le problème de la parcimonie en inférant des représentations continues de mots. Ces représentations continues permettent de structurer le lexique en induisant une notion de similarité sémantique ou syntaxique entre les mots. Toutefois, les modèles neuronaux actuellement les plus répandus n'offrent qu'une solution partielle au problème de la parcimonie, notamment par le fait que ceux-ci nécessitent une représentation distribuée pour chaque mot du vocabulaire, mais sont incapables d'attribuer une représentation à des mots hors vocabulaire. Ce problème est particulièrement marqué dans des langues morphologiquement riches, ou des processus de formation de mots complexes mènent à une prolifération des formes de mots possibles, et à une faible coïncidence entre le lexique observé lors de l’entrainement d’un modèle, et le lexique observé lors de son déploiement. Aujourd'hui, l'anglais n'est plus la langue majoritairement utilisée sur le Web, et concevoir des systèmes de traduction automatique pouvant appréhender des langues dont la morphologie est très éloignée des langues ouest-européennes est un enjeu important. L’objectif de cette thèse est de développer de nouveaux modèles capables d’inférer de manière non-supervisée les processus de formation de mots sous-jacents au lexique observé, afin de pouvoir de pouvoir produire des analyses morphologiques de nouvelles formes de mots non observées lors de l’entraînement.

Mots clés

Machine learning Natural language processing Bayesian statistics Morphology

Traitement des langues Morphologie Statistiques bayésiennes Apprentissage machine

Domaines

Informatique et langage [cs.CL] Traitement du texte et du document Machine Learning [stat.ML]

Fichier principal

76238_LOSER_2019_archivage.pdf (2.23 Mo)

Origine	Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-02354184

Soumis le : jeudi 7 novembre 2019-15:59:17

Dernière modification le : samedi 7 octobre 2023-21:36:20

Archivage à long terme le : dimanche 9 février 2020-00:25:41

Dates et versions

tel-02354184 , version 1 (07-11-2019)

Identifiants

HAL Id : tel-02354184 , version 1

Citer

Kevin Löser. Apprentissage non-supervisé de la morphologie des langues à l’aide de modèles bayésiens non-paramétriques. Informatique et langage [cs.CL]. Université Paris Saclay (COmUE), 2019. Français. ⟨NNT : 2019SACLS203⟩. ⟨tel-02354184⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS STAR LIMSI UNIV-PARIS-SACLAY SORBONNE-UNIVERSITE LISN GS-ENGINEERING GS-COMPUTER-SCIENCE

300 Consultations

204 Téléchargements

Unsupervised learning of natural language morphology using non-parametric bayesian models

Apprentissage non-supervisé de la morphologie des langues à l’aide de modèles bayésiens non-paramétriques

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager