Un modèle multimodal d’apprentissage de représentations de phrases qui préserve la sémantique visuelle - Sorbonne Université
Communication Dans Un Congrès Année : 2019

Un modèle multimodal d’apprentissage de représentations de phrases qui préserve la sémantique visuelle

Résumé

In this paper, we tackle visual grounding, an active field aiming to enrich textual representations with visual information, at the sentence level. Our model transfers the structure of a visual representation space to the textual space without using inter-modal projections, which are inherently problematic since modalities do not have a one-to-one correspondence. Our new multimodal approach can build upon any sentence representation model and can be implemented in a simple fashion by using objectives ensuring that (1) sentences associated with the same visual content should be close in the textual space and (2) similarities between related elements should be preserved across modalities. We demonstrate the quality of the learned representations on semantic relatedness, classification and cross-modal retrieval tasks.
L'ancrage visuel est un domaine de recherche actif dont le but est d'enrichir les repré- sentations vectorielles textuelles à l'aide d'informations visuelles. La plupart des travaux du domaine s'appuient sur des projections inter-modales qui alignent les éléments de deux moda- lités différentes. Cette technique s'avère problématique car elle impose que tous les objets aient une correspondance directe. Dans ce papier, nous proposons un modèle d'apprentissage de re- présentation de phrases qui transfère la structure d'un espace de représentation visuel à un espace textuel tout en préservant les deux espaces. Notre approche multimodale est générique dans la mesure où l'ancrage visuel est modélisé via une fonction objectif qui assure que (1) des phrases associées à un contenu visuel similaire doivent être proches dans l'espace textuel et que (2) les similarités entre éléments doivent être préservées entre les modalités. Nous démontrons la qualité de nos représentations de phrases sur des tâches de similarité de phrases et recherche inter-modale.
Fichier non déposé

Dates et versions

hal-02351045 , version 1 (06-11-2019)

Identifiants

Citer

Patrick Bordes, Éloi Zablocki, Laure Soulier, Benjamin Piwowarski. Un modèle multimodal d’apprentissage de représentations de phrases qui préserve la sémantique visuelle. COnférence en Recherche d'Informations et Applications, May 2019, Lyon, France. ⟨10.24348/coria.2019.CORIA_2019_paper_9⟩. ⟨hal-02351045⟩
142 Consultations
0 Téléchargements

Altmetric

Partager

More