Chercheurs de L’équipe Brain de Google ont annoncé Imagen, un modèle d’IA de texte en image qui peut générer des images photoréalistes d’une scène avec une description textuelle. Imagen surperforme DALL-E 2 sur l’ Benchmark COCO, et contrairement à de nombreux modèles similaires, est pré-formé uniquement sur des données textuelles.
Le modèle et plusieurs expériences ont été décrits dans un article publié sur arXiv. Imagen utilise un modèle de langage Transformer pour convertir le texte d’entrée en une séquence de vecteurs d’incorporation. Une série de trois modèles de diffusion convertit ensuite les intégrations en une image de 1024×1024 pixels. Dans le cadre de leurs travaux, l’équipe a développé un modèle de diffusion amélioré appelé Efficient U-Net, ainsi qu’une nouvelle suite de référence pour les modèles de synthèse texte en image appelée DrawBench. Sur le benchmark COCO, Imagen a réalisé un zéro-shot FID score de 7,27, surpassant DALL-E 2, le modèle précédent le plus performant. Les chercheurs ont également discuté de l’impact sociétal potentiel de leur travail, notant:
Notre objectif principal avec Imagen est de faire progresser la recherche sur les méthodes génératives, en utilisant la synthèse texte-image comme banc d’essai. Bien que les applications des méthodes génératives par les utilisateurs finaux restent largement hors de portée, nous reconnaissons que les applications potentielles en aval de cette recherche sont variées et peuvent avoir un impact complexe sur la société… Dans les travaux futurs, nous explorerons un cadre d’externalisation responsable qui équilibre la valeur de l’audit externe avec les risques d’un accès ouvert sans restriction.
Au cours des dernières années, plusieurs chercheurs ont étudié la formation de modèles d’IA multimodaux : des systèmes qui fonctionnent sur différents types de données, telles que du texte et des images. En 2021, OpenAI a annoncé CAPTURE, un modèle d’apprentissage en profondeur qui peut mapper à la fois du texte et des images dans le même espace d’intégration, permettant aux utilisateurs de savoir si une description textuelle correspond bien à une image donnée. Ce modèle s’est avéré efficace pour de nombreuses tâches de vision par ordinateur, et OpenAI l’a également utilisé pour créer DALL-E, un modèle capable de générer des images réalistes à partir de descriptions textuelles. CLIP et des modèles similaires ont été formés sur un ensemble de données de paires image-texte qui sont extraites d’Internet, similaires à l’ LAION-5B ensemble de données dont InfoQ a fait état plus tôt cette année.
Au lieu d’utiliser un jeu de données image-texte pour la formation d’Imagen, l’équipe Google a simplement utilisé un encodeur de texte « prêt à l’emploi », T5, pour convertir le texte d’entrée en incorpores. Pour convertir l’incorporation en image, Imagen utilise une séquence de modèles de diffusion. Ces modèles d’IA générative utilisent un processus de débruitage itératif pour convertir le bruit gaussien en échantillons à partir d’une distribution de données—dans ce cas, des images. Le débruitage conditionné à un certain apport. Pour le premier modèle de diffusion, la condition est l’incorporation du texte d’entrée ; ce modèle produit une image de 64×64 pixels. Cette image est suréchantillonnée en passant par deux modèles de diffusion « super-résolution », pour augmenter la résolution à 1024×1024. Pour ces modèles, Google a développé une nouvelle architecture d’apprentissage en profondeur appelée Efficient U-Net, qui est « plus simple, converge plus rapidement et plus efficace en mémoire » que les implémentations U-Net précédentes.
« Un mignon corgi vit dans une maison faite de sushis » – source de l’image: https://imagen.research.google
En plus d’évaluer Imagen sur l’ensemble de validation COCO, les chercheurs ont développé un nouveau benchmark de génération d’images, DrawBench. L’indice de référence consiste en un collection d’invites de texte qui sont « conçus pour sonder différentes propriétés sémantiques des modèles », y compris la composition, la cardinalité et les relations spatiales. DrawBench utilise des évaluateurs humains pour comparer deux modèles différents. Tout d’abord, chaque modèle génère des images à partir des invites. Ensuite, les évaluateurs comparent les résultats des deux, en indiquant quel modèle a produit la meilleure image. À l’aide de DrawBench, l’équipe Brain a évalué Imagen par rapport à DALL-E 2 et à trois autres modèles similaires; l’équipe a constaté que les juges préféraient « excessivement » les images générées par Imagen aux autres modèles.
Sur Twitter, Sharon Zhou, chef de produit Google discuté du travail, notant que :
Comme toujours, [the] La conclusion est que nous devons continuer à passer à l’échelle supérieure [large language models]
Dans un autre fil de discussion, douglas Eck, chef de l’équipe Google Brain, a publié un série d’images généré par Imagen, le tout à partir de variations sur une seule invite; Mod Eckaifié l’invite en ajoutant des mots pour ajuster le style, l’éclairage et d’autres aspects de l’image. Plusieurs autres exemples d’images générées par Imagen peuvent être trouvés sur le Site du projet Imagen.