Contributions to corpus creation and deep learning models for multilingual textual data
Contributions à la création de corpus et de modèles d’apprentissage profond pour les données textuelles multilingues
Résumé
This HDR synthesizes nearly a decade of research work in Natural Language Processing (NLP). It places a particular emphasis on the creation of multilingual and thematic corpora, specifically designed for sentiment and aspect analysis. The methodologies and tools developed for generating noiseless, multilingual datasets, sourced from user reviews, serve as a solid foundation for subsequent experiments. The use of hierarchical
Convolutional Neural Networks CNN and Recurrent Neural Networks (RNN) addresses the challenge of polarity prediction and thematic classification. This performance is further enhanced by the Bi-CNN-LSTM architecture, which combines convolutions with long-term memory, achieving an accuracy ranging from 90% to 100% depending on the experiments, and this on non-annotated multilingual corpora. Integrated deep learning techniques, such as transfer learning and active learning within a combined Bi-LSTM-CNN-CRF architecture, are employed for aspect annotation, thus improving the model’s performance, especially in contexts where data or languages are underrepresented. In summary, this habilitation contributes to the methods and practices in NLP, relying on tailor-made datasets and sophisticated model architectures to overcome complex challenges in semantic annotation and multilingual analysis.
Cette Habilitation à Diriger des Recherches (HDR) synthétise près d’une décennie de travaux en TALN. Elle met un accent particulier sur la création de corpus multilingues et thématiques, spécialement conçus pour l’analyse des sentiments et des aspects. Les méthodologies et outils développés pour créer ces datasets multilingues, sans bruit et issus d’avis d’utilisateurs, servent de base solide pour les expérimentations subséquentes. L’utilisation de réseaux neuronaux convolutifs hiérarchiques (ConvNet) et de réseaux neuronaux récurrents (RNN) permet de relever les défis de la prédiction de la polarité et de la classification thématique. La performance est améliorée grâce à l’architecture Bi-CNN-LSTM, qui combine des convolutions et une mémoire à long terme, atteignant une précision allant de 90% à 100% selon les expérimentations, et ce, sur des corpus multilingues non annotés. Des techniques d’apprentissage profond intégrées, telles que l’apprentissage par transfert et l’apprentissage actif au sein d’une architecture combinée Bidirectional Long Short-Term Memory - Convolutional Neural Network - Conditional Random Field (Bi-LSTM-CNN-CRF), sont utilisées pour l’annotation d’aspects, améliorant ainsi les performances des modèles, notamment dans des contextes où les données ou les langues sont sous-représentées. Les travaux présentés dans cette habilitation contribuent aux méthodes et aux pratiques en TALN, en s’appuyant sur des jeux de données sur mesure et des architectures de modèles sophistiquées pour surmonter des défis complexes en annotation sémantique et en analyse multilingue.
Origine | Fichiers produits par l'(les) auteur(s) |
---|