Sliced-Wasserstein distance for large-scale machine learning : theory, methodology and extensions - Equipe Signal, Statistique et Apprentissage Accéder directement au contenu
Thèse Année : 2021

Sliced-Wasserstein distance for large-scale machine learning : theory, methodology and extensions

La distance de Sliced-Wasserstein pour l’apprentissage automatique à grande échelle : théorie, méthodologie et extensions

Résumé

Many methods for statistical inference and generative modeling rely on a probability divergence to effectively compare two probability distributions. The Wasserstein distance, which emerges from optimal transport, has been an interesting choice, but suffers from computational and statistical limitations on large-scale settings. Several alternatives have then been proposed, including the Sliced-Wasserstein distance (SW), a metric that has been increasingly used in practice due to its computational benefits. However, there is little work regarding its theoretical properties. This thesis further explores the use of SW in modern statistical and machine learning problems, with a twofold objective: 1) provide new theoretical insights to understand in depth SW-based algorithms, and 2) design novel tools inspired by SW to improve its applicability and scalability. We first prove a set of asymptotic properties on the estimators obtained by minimizing SW, as well as a central limit theorem whose convergence rate is dimension-free. We also design a novel likelihood-free approximate inference method based on SW, which is theoretically grounded and scales well with the data size and dimension. Given that SW is commonly estimated with a simple Monte Carlo scheme, we then propose two approaches to alleviate the inefficiencies caused by the induced approximation error: on the one hand, we extend the definition of SW to introduce the Generalized Sliced-Wasserstein distances, and illustrate their advantages on generative modeling applications; on the other hand, we leverage concentration of measure results to formulate a new deterministic approximation for SW, which is computationally more efficient than the usual Monte Carlo technique and has nonasymptotical guarantees under a weak dependence condition. Finally, we define the general class of sliced probability divergences and investigate their topological and statistical properties; in particular, we establish that the sample complexity of any sliced divergence does not depend on the problem dimension.
De nombreuses méthodes d'inférence statistique et de modélisation générative ont recours à une divergence pour pouvoir comparer de façon pertinente deux distributions de probabilité. La distance de Wasserstein, qui découle du transport optimal, est un choix intéressant, mais souffre de limites computationnelle et statistique à grande échelle. Plusieurs alternatives ont alors été proposées, notamment la distance de Sliced-Wasserstein (SW), une métrique de plus en plus utilisée en pratique en raison de ses avantages computationnels. Cependant, peu de travaux ont analysé ses propriétés théoriques. Cette thèse examine plus en profondeur l'utilisation de SW pour des problèmes modernes de statistique et d'apprentissage automatique, avec un double objectif : 1) apporter de nouvelles connaissances théoriques permettant une compréhension approfondie des algorithmes basés sur SW, et 2) concevoir de nouveaux outils inspirés de SW afin d'améliorer son application et sa scalabilité. Nous prouvons d'abord un ensemble de propriétés asymptotiques sur les estimateurs obtenus en minimisant SW, ainsi qu'un théorème central limite dont le taux de convergence est indépendant de la dimension. Nous développons également une nouvelle technique d'inférence basée sur SW qui n'utilise pas la vraisemblance, offre des garanties théoriques et s'adapte bien à la taille et à la dimension des données. Etant donné que SW est couramment estimée par une simple méthode de Monte Carlo, nous proposons ensuite deux approches pour atténuer les inefficacités dues à l'erreur d'approximation : d'une part, nous étendons la définition de SW pour introduire les distances de Sliced-Wasserstein généralisées, et illustrons leurs avantages sur des applications de modélisation générative ; d'autre part, nous tirons parti des résultats de concentration de la mesure pour formuler une nouvelle approximation déterministe de SW, qui est plus efficace à calculer que la technique de Monte Carlo et présente des garanties non asymptotiques sous une condition de dépendance faible. Enfin, nous définissons la classe générale de divergences "sliced" et étudions leurs propriétés topologiques et statistiques; en particulier, nous prouvons que l'erreur d'approximation de toute divergence sliced par des échantillons ne dépend pas de la dimension du problème.
Fichier principal
Vignette du fichier
106842_NADJAHI_2021_archivage.pdf (12.68 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03533097 , version 1 (18-01-2022)

Identifiants

  • HAL Id : tel-03533097 , version 1

Citer

Kimia Nadjahi. Sliced-Wasserstein distance for large-scale machine learning : theory, methodology and extensions. Signal and Image processing. Institut Polytechnique de Paris, 2021. English. ⟨NNT : 2021IPPAT050⟩. ⟨tel-03533097⟩
624 Consultations
885 Téléchargements

Partager

Gmail Facebook X LinkedIn More