Image Editing with Deep Neural Networks

Asya Grechka

Résumé

Real image editing has a rich history, dating back about two centuries. Traditional digital image editing requires strong artistic skills and significant time (several hours for each image which we wish to edit). Recently, important progress has been made in generative modeling which allowed the creation of realistic and high-quality images. However, the task of image editing has been less studied. Image editing consists in simultaneously synthesizing new characteristics while preserving original image attributes intact. This inherent tradeoff between synthesis and preservation renders the task particularly difficult. In this thesis, we approach the task through different angles, exploiting three different families of generative models: VAE, GAN, and DDPM. We first study how to use a pre-trained GAN to modify a real image. While latent-space manipulation methods are well-studied to modify a GAN-generated image, they extend poorly to real images. We study the reasons for this and propose to enforce editability directly into the GAN inversion loss term, which results in high-quality edits. Then, we leverage a vector-quantized variational autoencoder (VQ-GAN) to obtain a compact representation of an image. The goal is to optimize this latent vector to match a user-given target text prompt. We use CLIP text and image encoders to represent images and text in a joint representation space. We thoroughly study the use of regularizers to encourage strong fidelity to the original image as well as coherent editing to the text prompt. We propose a robust and standardized evaluation protocol for text-guided editing. Finally, we leverage DDPMs, where we study the particular task of inpainting. We base our method on the standard DDPM inpainting procedure, which, at each step of the denoising process, replaces the region which should stay intact by the real image noised at this level. While DDPMs naturally blend these two regions due to their iterative denoising nature, the blending is not "fast enough" which results in disharmonized images. We define our custom harmonization loss and use its gradient to update the intermediate latent noise maps in each step of the denoising process, resulting in high-quality results for various models.

L'édition des images a une histoire riche, datant d'environ deux siècles. L'édition digitale "classique" des images nécessite une forte maitrise artistique et beaucoup de temps (plusieurs heures pour chaque image que l'on souhaite modifier). Récemment, d'importants progrès en modélisation générative ont permis de créer des images réalistes de haute qualité. Cependant, la tâche d'édition d'une image réelle est moins étudiée. Elle consiste à la fois à synthésiser une nouvelle charactéristique de l'image et à garder une autre partie fidèle à l'originale, ce qui rend la tâche particulièrement ardue. Dans cette thèse, nous abordons cette tâche d'édition sous différents angles, en exploitant trois familles de modèles génératifs: les VAE, les GAN et les DDPM. Nous étudions dans un premier temps comment utiliser un GAN pré-entrainé pour éditer une image réelle. En effet, les méthodes pour éditer les images générées pour un GAN sont bien connues, mais se transposent mal au cas des images réelles. Nous en étudions les raisons et proposons une solution pour mieux projeter une image réelle dans l'espace latent du GAN afin d'assurer une édition de qualité. Ensuite, nous utilisons des autoencodeurs variationnels avec quantification vectorielle (VQ-GAN) pour avoir une répresentation compacte de l'image. L'objectif est d'optimiser le vecteur latent de celle-ci pour se rapprocher d'un texte exprimé comme une requête pour l'édition. Nous utilisons des encodeurs CLIP pour représenter l'image et le texte dans un espace commun. Nous proposons une façon pour optimiser les hyperparamètres assurant une grande fidelité à l'image originale et une édition cohérente à la requête textuelle. Nous proposons un protocole d'évaluation robuste et montrons l'intérêt de notre méthode. Enfin, dans un troisième temps, nous traitons l'édition d'image comme un problème particulier d'inpainting. Nous exploitons un DDPM pré-entrainé et nous nous basons sur la méthode d'inpainting classique, en remplacant à chaque étape du processus de débruitage la région qu'on ne souhaite pas modifier par l'image réelle bruitée. Cependant, cette méthode est susceptible d'introduire une distorsion entre la région générée et la région réelle. Nous proposons une méthode basée sur le gradient d'une fonction assurant la cohérence entre les deux régions. Nous guidons le processus de débruitage avec ce gradient. Nous produisons des images de grande qualité pour différents modèles.

Image Editing with Deep Neural Networks

Edition d'images avec des réseaux de neurones profonds

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager