Accueil Tech today L’outil d’IA expérimental vous permet de transformer des images avec un simple...

L’outil d’IA expérimental vous permet de transformer des images avec un simple flux de travail cliquer-glisser

Par

mai 20, 2023

En bref: Que vous les aimiez ou que vous les détestiez, les outils d’IA générative comme ChatGPT et Stable Diffusion sont là pour rester et évoluer à un rythme rapide. Les chercheurs ont travaillé sur de nouvelles implémentations qui se concentrent lentement, comme un nouvel outil appelé DragGAN qui ressemble à l’outil Warp de Photoshop sur les stéroïdes.

Désormais, même les adeptes les plus occasionnels de l’actualité technologique connaissent les outils d’IA génératifs tels que ChatGPT, Stable Diffusion, Midjourney et DALL-E. Big Tech se précipite pour développer les meilleurs grands modèles de langage et les intégrer dans chaque logiciel ou service Web que nous utilisons, et un vague de startups travaillent sur des outils d’IA spécialisés pour une grande variété de cas d’utilisation de niche.

Beaucoup de ces outils peuvent générer des images ou du texte utiles à l’aide d’invites simples qui décrivent ce que l’utilisateur veut découvrir ou le type de travail qu’il essaie de réaliser. Quand cela fonctionne, cela rend les services comme ChatGPT et DALL-E semblent magiques. Quand ce n’est pas le cas, on nous rappelle à quel point nous sommes loin de l’IA remplaçant la créativité humaine, si jamais. En fait, bon nombre de ces outils sont « formés » sur des œuvres rédigées par des personnes et nécessitent une supervision humaine pour améliorer leur sortie à un niveau significatif.

Cela dit, de nouvelles recherches sur l’IA (repérées par un utilisateur de Twitter @_akhaliq) montre que des progrès continuent d’être réalisés à un rythme rapide, notamment dans le domaine de la manipulation d’images. Un groupe de scientifiques de Google, du MIT, de l’Université de Pennsylvanie et de l’Institut Max Planck d’informatique en Allemagne ont publié un papier détaillant un outil expérimental qui pourrait rendre l’édition d’images plus facile et plus accessible pour les gens ordinaires.

Avez-vous pensé à « glisser » interactivement des objets dans l’image ? Notre #SIGGRAPH2023 travail #DragGAN fait que cela devient réalité ! ðÂ¥³

Papier: https://t.co/B3qC0kl1IT
Page du projet : https://t.co/ZqAEPHNMNF https://t.co/UQXarwl481 pic.twitter.com/LrWjEsIVHs

– Xingang Pan (@XingangP) 19 mai 2023

Pour avoir une idée de ce qui est possible avec le nouvel outil, vous pouvez modifier considérablement l’apparence d’une personne ou d’un objet en cliquant simplement et en faisant glisser sur une caractéristique particulière. Vous pouvez également modifier l’expression du visage de quelqu’un, modifier les vêtements d’un mannequin ou faire pivoter le sujet sur une photo comme s’il s’agissait d’un modèle 3D. Les démos vidéo sont certainement impressionnantes, bien que l’outil ne soit pas disponible au public au moment d’écrire ces lignes.

Cela ressemble peut-être à Photoshop sous stéroïdes, mais il a suscité suffisamment d’intérêt pour envoyer l’équipe de recherche site Internet s’écraser. Après tout, les invites de texte peuvent sembler simples en théorie, mais elles nécessitent beaucoup de réglages lorsque vous avez besoin de quelque chose de très spécifique ou nécessitent plusieurs étapes pour générer la sortie souhaitée. Ce problème a donné naissance à un nouveau métier, celui de « Ingénieur prompt IA » Selon l’entreprise et les spécificités du projet en question, ce type d’emploi peut rapporter jusqu’à 335 000 $ par an, et cela ne nécessite pas de diplôme.

En revanche, l’interface utilisateur présentée dans les vidéos de démonstration suggère qu’il sera bientôt possible pour la personne moyenne de faire une partie de ce qu’un ingénieur d’IA peut faire en cliquant et en faisant glisser la première sortie de n’importe quel outil de génération d’image. Les chercheurs expliquent que DragGAN « hallucinera » du contenu occulté, déformera un objet ou modifiera un paysage.

Les chercheurs notent que DragGAN peut transformer le contenu d’une image en quelques secondes seulement lors de l’utilisation de la carte graphique GeForce RTX 3090 de Nvidia, car leur mise en œuvre n’a pas besoin d’utiliser plusieurs réseaux de neurones pour obtenir les résultats souhaités. La prochaine étape consistera à développer un modèle similaire pour l’édition basée sur des points de modèles 3D. Ceux d’entre vous qui veulent en savoir plus sur DragGAN peuvent lire le papier ici. La recherche sera également présentée au SIGGRAPH en août.

Crédit d’en-tête : Google DeepMind