Un modèle multimodal d’apprentissage de représentations de phrases qui préserve la sémantique visuelle

Patrick Bordes; Éloi Zablocki; Laure Soulier; Benjamin Piwowarski

doi:10.24348/coria.2019.CORIA_2019_paper_9

Communication Dans Un Congrès Année : 2019

Un modèle multimodal d’apprentissage de représentations de phrases qui préserve la sémantique visuelle

(1) , (1) , (1) , (2)

1
2

Patrick Bordes

Fonction : Auteur

Machine Learning and Information Access

Éloi Zablocki

Fonction : Auteur

Machine Learning and Information Access

Laure Soulier

Fonction : Auteur
PersonId : 8070
IdHAL : soulierl
ORCID : 0000-0001-9827-7400
IdRef : 189293683

Machine Learning and Information Access

Benjamin Piwowarski

Fonction : Auteur
PersonId : 9362
IdHAL : benjamin-piwowarski
ORCID : 0000-0001-6792-3262
IdRef : 226846601

Bases de Données

Résumé

In this paper, we tackle visual grounding, an active field aiming to enrich textual representations with visual information, at the sentence level. Our model transfers the structure of a visual representation space to the textual space without using inter-modal projections, which are inherently problematic since modalities do not have a one-to-one correspondence. Our new multimodal approach can build upon any sentence representation model and can be implemented in a simple fashion by using objectives ensuring that (1) sentences associated with the same visual content should be close in the textual space and (2) similarities between related elements should be preserved across modalities. We demonstrate the quality of the learned representations on semantic relatedness, classification and cross-modal retrieval tasks.

L'ancrage visuel est un domaine de recherche actif dont le but est d'enrichir les repré- sentations vectorielles textuelles à l'aide d'informations visuelles. La plupart des travaux du domaine s'appuient sur des projections inter-modales qui alignent les éléments de deux moda- lités différentes. Cette technique s'avère problématique car elle impose que tous les objets aient une correspondance directe. Dans ce papier, nous proposons un modèle d'apprentissage de re- présentation de phrases qui transfère la structure d'un espace de représentation visuel à un espace textuel tout en préservant les deux espaces. Notre approche multimodale est générique dans la mesure où l'ancrage visuel est modélisé via une fonction objectif qui assure que (1) des phrases associées à un contenu visuel similaire doivent être proches dans l'espace textuel et que (2) les similarités entre éléments doivent être préservées entre les modalités. Nous démontrons la qualité de nos représentations de phrases sur des tâches de similarité de phrases et recherche inter-modale.

Domaines

Recherche d'information [cs.IR] Intelligence artificielle [cs.AI] Apprentissage [cs.LG] Traitement du texte et du document

Benjamin Piwowarski : Connectez-vous pour contacter le contributeur

https://hal.sorbonne-universite.fr/hal-02351045

Soumis le : mercredi 6 novembre 2019-11:39:18

Dernière modification le : mercredi 30 octobre 2024-13:32:46

Dates et versions

hal-02351045 , version 1 (06-11-2019)

Identifiants

HAL Id : hal-02351045 , version 1
DOI : 10.24348/coria.2019.CORIA_2019_paper_9

Citer

Patrick Bordes, Éloi Zablocki, Laure Soulier, Benjamin Piwowarski. Un modèle multimodal d’apprentissage de représentations de phrases qui préserve la sémantique visuelle. COnférence en Recherche d'Informations et Applications, May 2019, Lyon, France. ⟨10.24348/coria.2019.CORIA_2019_paper_9⟩. ⟨hal-02351045⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS LIP6 SORBONNE-UNIVERSITE SU-SCIENCES

153 Consultations

0 Téléchargements

Un modèle multimodal d’apprentissage de représentations de phrases qui préserve la sémantique visuelle

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Altmetric

Partager