Accueil Tech today Le nouveau modèle de Stability AI est légèrement meilleur pour générer des...

Le nouveau modèle de Stability AI est légèrement meilleur pour générer des mains

Par

mars 1, 2024

Stability AI, la startup qui finance une gamme d'expériences d'IA générative, a publié une nouvelle version de Stable Diffusion, le système d'IA de synthèse texte-image qui a été parmi les premiers à rivaliser avec le DALL-E 2 d'OpenAI.

Appelé Diffusion stable XL, ou SDXL, le nouveau système – disponible en version bêta via DreamStudio, l'outil d'art génératif de Stability AI – améliore l'original de manière clé. Tom Mason, CTO de Stability AI, affirme qu'il apporte une « richesse » à la génération d'images qui manquait à l'ancien modèle (Stable Diffusion 2.1), avec des améliorations plus notables dans des applications telles que la conception graphique et l'architecture.

« Nous sommes ravis d'annoncer la dernière itération de notre série de solutions d'images à diffusion stable », a-t-il déclaré dans un communiqué. « [It’s] transformateur dans plusieurs secteurs… avec les résultats se déroulant sous nos yeux.

Mise à part l'hyperbole, SDXL semble en effet comparable – et peut-être même meilleur – à la dernière version du modèle de Midjourney, le modèle responsable de «Balenciaga Pape» (entre autres mèmes).

Alors que la version précédente de Stable Diffusion et de nombreux autres systèmes de conversion texte-image ont du mal à recréer certaines anatomies, comme les mains, SDXL n'a pas ce problème. Les mains ne sont pas toujours… enfin, réalistes. Mais ils ont des kilomètres d’avance sur le carburant cauchemardesque que le prédécesseur du SDXL produisait souvent.

SDXL gère mieux les mains, mais évidemment pas parfaitement. Crédits images : IA de stabilité

Stable Diffusion 2.1 est clairement pire, haut la main. (Je vais me voir.) Crédits images : IA de stabilité

SDXL est censé être également meilleur pour générer du texte, une tâche qui a historiquement lancé les modèles artistiques d'IA générative en boucle. Mais il y a encore du chemin à parcourir si mes brefs tests sont une indication.

En haut, les résultats de Stable Diffusion 2.1. En bas, les sorties de SDXL. Crédits images : IA de stabilité

Dans un communiqué de presse, Stability AI affirme également que SDXL propose « une composition d'image et une génération de visage améliorées » et ne nécessite pas d'invites longues et détaillées pour créer des « images descriptives », contrairement à son prédécesseur. De plus, SDXL possède des fonctionnalités qui vont au-delà de la simple invite texte-image, notamment l'invite image-image (saisie d'une image pour obtenir des variations de cette image), l'inpainting (reconstruction des parties manquantes d'une image) et l'outpainting (construction d'une image transparente). extension d'une image existante).

En guise de caractère générique, j'ai essayé de recréer le mème Balenciaga Pope avec une invite aussi courte que possible : « Balenciaga Pope ». La différence dans les résultats était plus frappante que ce à quoi je m'attendais, je dois dire, avec SDXL posant des modèles de défilé dans ce qui pourrait passer pour des vêtements de marque par rapport aux vêtements d'apparence carrément religieuse qu'évoquait l'ancienne Stable Diffusion.

Une fois sorti de la version bêta, SDXL sera open source, dit Stability AI, tout comme les itérations précédentes de Stable Diffusion. En plus de DreamStudio, SDXL est actuellement disponible via l'API de Stability, également en accès anticipé.

Alors que la technologie artistique de l’IA générative progresse, des outils comme SDXL ont mis les entreprises dans une situation délicate en raison de la manière dont elles ont été construites et commercialisées. L’IA de stabilité est dans la ligne de mire d’un cas légal qui allègue que l'entreprise a violé les droits de millions d'artistes en développant ses outils à partir d'images protégées par le droit d'auteur et récupérées sur le Web. Action Le fournisseur d'images Getty Images a également poursuivi Stability AI en justice pour aurait en utilisant des images de son site sans autorisation pour créer la diffusion stable originale.

La version open source de Stable Diffusion est également devenue un sujet de controverse, en raison de ses restrictions d'utilisation relativement légères. Certaines communautés sur le Web l’ont exploité pour générer des deepfakes pornographiques de célébrités et des représentations graphiques de violence. À ce jour, au moins un législateur américain a demandé une réglementation pour lutter contre la publication de modèles comme Stable Diffusion qui « ne modèrent pas suffisamment le contenu ».

En réponse aux poursuites, Stability AI s'est récemment engagé à respecter les demandes des artistes visant à supprimer leur art de l'ensemble de données de formation de Stable Diffusion, mais cela ne s'appliquait pas à SDXL – uniquement aux modèles de diffusion stable de nouvelle génération, nommés « Stable Diffusion 3.0 ». .» À ce jour, les artistes ont supprimé plus de 78 millions d’œuvres d’art de l’ensemble de données de formation, selon Spawning, l’organisation à la tête de l’effort de désinscription.

Au diable les défis juridiques, Stability AI est sous pression pour monétiser ses efforts tentaculaires en matière d’IA, qui couvrent toute la gamme allant de l’art et de l’animation à l’audio biomédical et génératif. Le PDG de Stability AI, Emad Mostaque, a fait allusion à des projets d'introduction en bourse, mais Semafor a récemment signalé que Stability AI – qui a levé plus de 100 millions de dollars en capital-risque en octobre dernier pour une valorisation déclarée de plus d'un milliard de dollars – « brûle des liquidités et a mis du temps à générer des revenus ».