mardi, décembre 17, 2024

DragGAN- Des chercheurs développent une IA qui vous permet de manipuler des images en quelques secondes

0 commentaire

Nous sommes encore loin d’atteindre les limites de l’intelligence artificielle. En effet, depuis de le lancement de ChatGPT, chaque jour, ce sont de nouveaux outils d’IA avec des performances inimaginable qui sont mis en ligne.

Des chercheurs ont mis en place un outils qui ressemble à celui de Warp de Photoshop, mais qui est beaucoup plus puissant. Il permet non seulement d’écraser des pixels, mais d’utiliser l’IA pour recréer l’objet sous-jacent. Vous pouvez même faire pivoter les images comme si elles étaient en 3D.

Non, ce n’est pas fini : la capacité des outils d’intelligence artificielle à manipuler les images ne cesse de croître. Le dernier exemple en date n’est pour l’instant qu’un document de recherche, mais il est très impressionnant : il permet aux utilisateurs de faire simplement glisser des éléments d’une image pour en modifier l’apparence.

Cela ne semble pas très excitant à première vue, mais les exemples ci-dessous vous donneront une idée de ce que ce système peut faire.

Non seulement vous pouvez modifier les dimensions d’une voiture ou transformer un sourire en un froncement de sourcils d’un simple clic, mais vous pouvez aussi faire pivoter le sujet d’une photo comme s’il s’agissait d’un modèle en 3D – en changeant la direction à laquelle une personne fait face, par exemple. Une démo montre même l’utilisateur en train d’ajuster les reflets d’un lac et la hauteur d’une chaîne de montagnes en quelques clics.

Dans leur article publié, les chercheurs notent:

Les modèles génératifs profonds tels que les réseaux adversaires génératifs (GAN) [Goodfellow et al. 2014] ont obtenu un succès sans précédent dans la synthèse d’images photoréalistes aléatoires. Dans les applications Dans les applications réelles, l’une des fonctionnalités essentielles de ces méthodes de synthèse d’images basées sur l’apprentissage est la possibilité de contrôler le contenu visuel synthétisé.

Par exemple, les utilisateurs de médias sociaux peuvent vouloir ajuster la position, la forme, l’expression et la pose d’un être humain ou d’un animal sur une photo prise au hasard ;  la prévisualisation d’un film professionnel et l’édition d’un média peuvent également être nécessaires pour contrôler le contenu visuel synthétisé;
la prévisualisation et l’édition de médias peut nécessiter de créer efficacement des esquisses de scènes avec certaines dispositions, de scènes avec certains agencements ; les concepteurs de voitures peuvent vouloir modifier de manière interactive la forme de leurs créations.

Pour répondre à ces diverses exigences des utilisateurs, une approche idéale de synthèse d’image contrôlable devrait posséder les propriétés suivantes contrôlable devrait posséder les propriétés suivantes:

1) Flexibilité : elle devrait être capable de contrôler différents attributs spatiaux.
doit pouvoir contrôler différents attributs spatiaux, notamment la position, la pose, la forme, l’expression et la disposition des objets ou des animaux générés.
2) Précision : elle doit pouvoir contrôler les attributs spatiaux avec une grande précision ;

3) Généralité : elle doit pouvoir s’appliquer à différentes catégories d’objets, sans se limiter aux animaux.

Comme le note l’équipe responsable d’après theverge, ce qui est vraiment intéressant dans ce travail n’est pas nécessairement la manipulation d’images en soi, mais l’interface utilisateur. Depuis un certain temps, nous pouvons utiliser des outils d’IA tels que les GAN pour générer des images réalistes, mais la plupart des méthodes manquent de flexibilité et de précision. Vous pouvez dire à un générateur d’images d’IA de « faire une image d’un lion traquant dans la savane », et vous en obtiendrez une, mais ce ne sera peut-être pas la pose exacte que vous voulez ou dont vous avez besoin.

Voici un examen plus approfondi de la manipulation des paysages

Ce modèle, appelé DragGAN, offre une solution claire à ce problème. L’interface est exactement la même que celle de la déformation d’image traditionnelle, mais au lieu de se contenter d’effacer et de modifier les pixels existants, le modèle génère un nouveau sujet. Comme l’écrivent les chercheurs : « Notre approche peut halluciner un contenu occlus, comme les dents à l’intérieur de la gueule d’un lion, et peut se déformer en suivant la rigidité de l’objet, comme la flexion d’une jambe de cheval ».

Et pour le plaisir, la manipulation de lions

 

Il est évident qu’il ne s’agit pour l’instant que d’une démo et qu’il est impossible d’évaluer complètement la technologie. (Quel est le degré de réalisme des images finales, par exemple ? Il est difficile de le dire sur la base des vidéos à faible résolution disponibles). Mais il s’agit là d’un autre exemple de manipulation d’images plus accessible.