DragGAN- Des chercheurs développent une IA qui vous permet de manipuler des images en quelques secondes

Abraham

19/05/2023

Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

Nous sommes encore loin d’atteindre les limites de l’intelligence artificielle. En effet, depuis de le lancement de ChatGPT, chaque jour, ce sont de nouveaux outils d’IA avec des performances inimaginable qui sont mis en ligne.

Des chercheurs ont mis en place un outils qui ressemble à celui de Warp de Photoshop, mais qui est beaucoup plus puissant. Il permet non seulement d’écraser des pixels, mais d’utiliser l’IA pour recréer l’objet sous-jacent. Vous pouvez même faire pivoter les images comme si elles étaient en 3D.

Non, ce n’est pas fini : la capacité des outils d’intelligence artificielle à manipuler les images ne cesse de croître. Le dernier exemple en date n’est pour l’instant qu’un document de recherche, mais il est très impressionnant : il permet aux utilisateurs de faire simplement glisser des éléments d’une image pour en modifier l’apparence.

Cela ne semble pas très excitant à première vue, mais les exemples ci-dessous vous donneront une idée de ce que ce système peut faire.

Non seulement vous pouvez modifier les dimensions d’une voiture ou transformer un sourire en un froncement de sourcils d’un simple clic, mais vous pouvez aussi faire pivoter le sujet d’une photo comme s’il s’agissait d’un modèle en 3D – en changeant la direction à laquelle une personne fait face, par exemple. Une démo montre même l’utilisateur en train d’ajuster les reflets d’un lac et la hauteur d’une chaîne de montagnes en quelques clics.

Dans leur article publié, les chercheurs notent:

Les modèles génératifs profonds tels que les réseaux adversaires génératifs (GAN) [Goodfellow et al. 2014] ont obtenu un succès sans précédent dans la synthèse d’images photoréalistes aléatoires. Dans les applications Dans les applications réelles, l’une des fonctionnalités essentielles de ces méthodes de synthèse d’images basées sur l’apprentissage est la possibilité de contrôler le contenu visuel synthétisé.

Par exemple, les utilisateurs de médias sociaux peuvent vouloir ajuster la position, la forme, l’expression et la pose d’un être humain ou d’un animal sur une photo prise au hasard ; la prévisualisation d’un film professionnel et l’édition d’un média peuvent également être nécessaires pour contrôler le contenu visuel synthétisé;
la prévisualisation et l’édition de médias peut nécessiter de créer efficacement des esquisses de scènes avec certaines dispositions, de scènes avec certains agencements ; les concepteurs de voitures peuvent vouloir modifier de manière interactive la forme de leurs créations.

Pour répondre à ces diverses exigences des utilisateurs, une approche idéale de synthèse d’image contrôlable devrait posséder les propriétés suivantes contrôlable devrait posséder les propriétés suivantes:

1) Flexibilité : elle devrait être capable de contrôler différents attributs spatiaux.
doit pouvoir contrôler différents attributs spatiaux, notamment la position, la pose, la forme, l’expression et la disposition des objets ou des animaux générés.
2) Précision : elle doit pouvoir contrôler les attributs spatiaux avec une grande précision ;

3) Généralité : elle doit pouvoir s’appliquer à différentes catégories d’objets, sans se limiter aux animaux.

Comme le note l’équipe responsable d’après theverge, ce qui est vraiment intéressant dans ce travail n’est pas nécessairement la manipulation d’images en soi, mais l’interface utilisateur. Depuis un certain temps, nous pouvons utiliser des outils d’IA tels que les GAN pour générer des images réalistes, mais la plupart des méthodes manquent de flexibilité et de précision. Vous pouvez dire à un générateur d’images d’IA de « faire une image d’un lion traquant dans la savane », et vous en obtiendrez une, mais ce ne sera peut-être pas la pose exacte que vous voulez ou dont vous avez besoin.

Voici un examen plus approfondi de la manipulation des paysages

Ce modèle, appelé DragGAN, offre une solution claire à ce problème. L’interface est exactement la même que celle de la déformation d’image traditionnelle, mais au lieu de se contenter d’effacer et de modifier les pixels existants, le modèle génère un nouveau sujet. Comme l’écrivent les chercheurs : « Notre approche peut halluciner un contenu occlus, comme les dents à l’intérieur de la gueule d’un lion, et peut se déformer en suivant la rigidité de l’objet, comme la flexion d’une jambe de cheval ».

Et pour le plaisir, la manipulation de lions

Il est évident qu’il ne s’agit pour l’instant que d’une démo et qu’il est impossible d’évaluer complètement la technologie. (Quel est le degré de réalisme des images finales, par exemple ? Il est difficile de le dire sur la base des vidéos à faible résolution disponibles). Mais il s’agit là d’un autre exemple de manipulation d’images plus accessible.

Abraham

Stagiaire

Votre recherche ici

Socialnetlink Avr 7, 2025

Promotion de la culture scientifique au Sénégal – Le président Basssirou Diomaye Faye lance la Caravane de l’espace Bus 2025

Socialnetlink Avr 7, 2025

ATIDI sécurise un prêt de 507,5 M€ pour renforcer la résilience budgétaire du Bénin

Révolte contre l’Intelligence Artificielle (Par Samba GUISSE)

Aissatou Philomene MBOUP Avr 4, 2025

Le Rwanda accueille le premier sommet mondial sur l’intelligence artificielle de l’Afrique

Aissatou Philomene MBOUP Avr 4, 2025

Sénégal : un appel à projets pour soutenir les industries culturelles et créatives

Aissatou Philomene MBOUP Avr 4, 2025

La prochaine révolution financière en Afrique ne se fera pas dans une application, mais dans les rues et les boutiques de Dakar et de Casablanca

La Redaction Avr 3, 2025

La Fintech ivoirienne, Djamo, réalise une levée de fonds de 17 millions de dollars

Socialnetlink Avr 3, 2025

Tabax Sénégal : des experts en cybersécurité pointent des failles dans la nouvelle plateforme gouvernementale

Une plateforme qui traite de l’actualité des startups, innovations et de l’économie numérique. Nous produisons chaque année, des centaines d’articles, des études de cas, interviews afin de décrypter les écosystèmes innovants d’Afrique.