Natural Language Generation with Reinforcement Learning

Thomas Scialom

Résumé

Natural Language Generation (NLG) is the subfield of Natural Language Processing, where the task is to produce natural language outputs. Despite the important progress fostered by the application of Deep Learning, generated texts are still inconsistent and contain factual inconsistencies. At the root cause, we argue in this thesis that deep learning models in NLG suffers from inherent flaws in algorithms, which limits their efficiency. At training time, the standard training strategy, Teacher Forcing, induces the so called exposure bias, a mismatch with inference time, where the errors accumulate. Moreover, NLG suffers from a second flaw: its the automatic evaluation does not reflect well human judgement. In this thesis, we explore how to improve both evaluation and training in NLG toward more reliable systems. In particular, we propose a Question Answering based metric. We show how this metric can be used as a reward in a Reinforcement Learning setup to improve NLG models. Toward this objective, we also explore learned rewards that are the discriminators, and introduce several new algorithms that benefit NLG during training and decoding times. In particular, we propose to combine Monte Carlo Tree Search with Generative Adversarial Networks, resulting in state-of-the-art models.

La génération de langage naturel (NLG) est le sous-domaine du traitement du langage naturel, où la tâche consiste à produire des sorties en langage naturel. Malgré les progrès importants favorisés par l'application du Deep Learning, les textes générés sont toujours incohérents et contiennent des incohérences factuelles. À l'origine de cette situation, nous soutenons dans cette thèse que les modèles d'apprentissage profond en NLG souffrent de défauts inhérents aux algorithmes, ce qui limite leur efficacité. Au moment de la formation, la stratégie de formation standard, le Teacher Forcing, induit le fameux biais d'exposition, un décalage avec le temps d'inférence, où les erreurs s'accumulent. De plus, les NLG souffrent d'un second défaut : leur évaluation automatique ne reflète pas bien le jugement humain. Dans cette thèse, nous explorons comment améliorer à la fois l'évaluation et la formation dans les NLG vers des systèmes plus fiables. En particulier, nous proposons une métrique basée sur la réponse aux questions. Nous montrons comment cette métrique peut être utilisée comme récompense dans une configuration d'apprentissage par renforcement pour améliorer les modèles de NLG. Pour atteindre cet objectif, nous explorons également les récompenses apprises qui sont les discriminateurs, et nous introduisons plusieurs nouveaux algorithmes qui profitent aux NLG pendant les temps de formation et de décodage. En particulier, nous proposons de combiner la recherche arborescente de Monte Carlo avec les réseaux adversariaux génératifs, ce qui permet d'obtenir des modèles de pointe.

Natural Language Generation with Reinforcement Learning

Génération de Langage Naturel par Apprentissage par Renforcement

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Exporter

Collections

Partager