Architectures multi-échelles de type encοdeur-décοdeur pοur la stéréοphοtοmétrie - GREYC image
Thèse Année : 2024

Multi-scale encoder-decoder architectures for photometric stereo

Architectures multi-échelles de type encοdeur-décοdeur pοur la stéréοphοtοmétrie

Résumé

Photometric stereo is a technique for 3D surface reconstruction of objects. This field has seen a surge in research interest due to its potential applications in industry. Specifically, photometric stereo can be employed for tasks such as detecting machining defects in mechanical components or facial recognition. This thesis delves into deep learning methods for photometry stero, with a particular focus on training data and network architectures.While neural network over-parameterization is often adequate, the training dataset plays a pivotal role in task adaptation. To generate a highly diverse and extensible training set, we propose a new synthetic dataset. This dataset incorporates a broad spectrum of geometric, textural, lighting, and environmental variations, allowing for the creation of nearly infinite training instances.The second decisive point of a good reconstruction concerns the choice of architecture. The architecture of a network must ensure a good generalization capacity on new data to generate very good results on unseen data. And this, regardless of the application. In particular, for the photometric stereo problem, the challenge is to be able to reconstruct very high-resolution images in order not to lose any details. We therefore propose a multi-scale encoder-decoder architecture to address this problem.We first introduce a convolutional neural network architecture for calibrated photometric stereo, where the lighting direction is known. To handle unconstrained environments, we propose a Transformers-based approach for universal photometric stereo. Lastly, for challenging materials shiny like translucent or shiny surfaces, we introduce a ``weakly calibrated'' approach that assumes only approximate knowledge of the lighting direction.The approaches we have investigated have consistently demonstrated strong performance on standard benchmarks, as evidenced by both quantitative metrics and visual assessments. Our results, particularly the improved accuracy of reconstructed normal maps, represent a significant advancement in photometric stereo.
La stéréophotométrie est une technique de reconstruction 3D de la surface d'un objet. De plus en plus de recherches s'intéressent à ce problème qui se veut prometteur dans le monde industriel. En effet, la stéréophotométrie peut être utilisée pour détecter les défauts d'usinage de pièces mécaniques ou pour de la reconnaissance faciale par exemple. Cette thèse explore les méthodes d'apprentissage profond pour la stéréophotométrie, notamment les différents aspects liés aux bases de données d'entraînement et aux architectures considérées.De manière générale, la sur-paramétrisation d'un réseau de neurones est souvent suffisante pour supporter la diversité des problèmes rencontrés. La base de données d'entraînement est alors considérée comme le point clé permettant de conditionner le réseau au problème traité. Par conséquent, pour répondre à ce besoin, nous proposons une nouvelle base de données d'entraînement synthétique. Cette base de données considère une très grande variété de géométries, de textures, de directions ou conditions lumineuses mais également d'environnements, permettant donc de générer un nombre de situation quasiment infini.Le second point décisif d'une bonne reconstruction concerne le choix de l'architecture. L'architecture d'un réseau doit assurer une bonne capacité de généralisation sur de nouvelles données pour générer de très bons résultats sur des données inédites. Et ce, quelle que soit l'application. En particulier, pour la stéréophotométrie, l'enjeu est d'être capable de reconstruire des images très haute résolution afin de ne pas perdre de détails. Nous proposons alors une architecture multi-échelles de type encodeur-décodeur afin de répondre à ce problème.Dans un premier temps, nous proposons une architecture fondée sur les réseaux convolutionnels pour répondre au problème de stéréophotométrie calibrée, i.e. quand la direction lumineuse est connue. Dans un second temps, nous proposons une version fondé sur les Transformers afin de répondre au problème de stéréophotométrie universelle. C'est-à-dire que nous sommes en capacité de gérer n'importe quel environnement, direction lumineuse, etc., sans aucune information préalable. Finalement, pour améliorer les reconstructions sur des matériaux difficiles (translucides ou brillants par exemple), nous proposons une nouvelle approche que nous appelons ``faiblement calibrée'' pour la stéréophotométrie. Dans ce contexte, nous n'avons qu'une connaissance approximative de la direction d'éclairage.L'ensemble des pistes que nous avons explorées ont conduit à des résultats convaincants, à la fois quantitatifs et visuels sur l'ensemble des bases de données de l'état-de-l'art. En effet, nous avons pu observer une amélioration notable de la précision de reconstruction des cartes de normales, contribuant ainsi à avancer l'état de l'art dans ce domaine.
Fichier principal
Vignette du fichier
sygal_fusion_50634_hardy_clement_6749b80e9eb05.pdf (36.08 Mo) Télécharger le fichier
Origine Version validée par le jury (STAR)

Dates et versions

tel-04813696 , version 1 (02-12-2024)

Identifiants

  • HAL Id : tel-04813696 , version 1

Citer

Clément Hardy. Architectures multi-échelles de type encοdeur-décοdeur pοur la stéréοphοtοmétrie. Intelligence artificielle [cs.AI]. Normandie Université, 2024. Français. ⟨NNT : 2024NORMC222⟩. ⟨tel-04813696⟩
0 Consultations
0 Téléchargements

Partager

More