Pour ne pas être en reste avec le Make-A-Video de Meta, Google détaille aujourd’hui son travail sur Vidéo Imagen, un système d’IA qui peut générer des clips vidéo à l’aide d’une invite textuelle (par exemple, « un ours en peluche qui lave la vaisselle »). Bien que les résultats ne soient pas parfaits – les clips en boucle générés par le système ont tendance à avoir des artefacts et du bruit – Google affirme qu’Imagen Video est une étape vers un système avec un « haut degré de contrôlabilité » et une connaissance du monde, y compris la capacité de générer des séquences dans une gamme de styles artistiques.
Comme mon collègue Devin Coldewey l’a noté dans son morceau à propos de Make-A-Video, les systèmes de synthèse vidéo ne sont pas nouveaux. Plus tôt cette année, un groupe de chercheurs de l’Université Tsinghua et de l’Académie d’intelligence artificielle de Beijing a publié CogVideo, qui peut traduire du texte en clips courts raisonnablement haute fidélité. Mais Imagen Video semble être un bond significatif par rapport à l’état de l’art précédent, montrant une aptitude à animer des sous-titres que les systèmes existants auraient du mal à comprendre.
« C’est certainement une amélioration », a déclaré Matthew Guzdial, professeur adjoint à l’Université de l’Alberta qui étudie l’IA et l’apprentissage automatique, à TechCrunch par courrier électronique. « Comme vous pouvez le voir dans les exemples vidéo, même si l’équipe de communication sélectionne les meilleurs résultats, il y a toujours un flou et un artificing étranges. Donc, cela ne va certainement pas être utilisé directement dans l’animation ou la télévision de sitôt. Mais cela, ou quelque chose comme ça, pourrait certainement être intégré dans des outils pour aider à accélérer certaines choses.
Imagen Video s’appuie sur Google Imagen, un système de génération d’images comparable à celui d’OpenAI DALL-E 2 et Stable Diffusion. Imagen est ce qu’on appelle un modèle de « diffusion », générant de nouvelles données (par exemple, des vidéos) en apprenant à « détruire » et à « récupérer » de nombreux échantillons de données existants. Au fur et à mesure qu’il alimente les échantillons existants, le modèle récupère mieux les données qu’il avait précédemment détruites pour créer de nouvelles œuvres.
Comme l’explique l’équipe de recherche de Google derrière Imagen Video dans un papier, le système prend une description textuelle et génère une vidéo de 16 images, trois images par seconde à une résolution de 24 x 48 pixels. Ensuite, le système met à l’échelle et « prédit » des images supplémentaires, produisant une vidéo finale de 128 images, 24 images par seconde à 720p (1280×768).
Google affirme qu’Imagen Video a été formé sur 14 millions de paires vidéo-texte et 60 millions de paires image-texte ainsi que sur l’ensemble de données image-texte LAION-400M accessible au public, ce qui lui a permis de généraliser à une gamme d’esthétiques. Dans des expériences, ils ont découvert qu’Imagen Video pouvait créer des vidéos dans le style des peintures et de l’aquarelle de Van Gogh. Peut-être plus impressionnant encore, ils affirment qu’Imagen Video a démontré une compréhension de la profondeur et de la tridimensionnalité, ce qui lui a permis de créer des vidéos comme des survols de drones qui tournent autour et capturent des objets sous différents angles sans les déformer.
Dans une amélioration majeure par rapport aux systèmes de génération d’images disponibles aujourd’hui, Imagen Video peut également rendre le texte correctement. Alors que Stable Diffusion et DALL-E 2 ont du mal à traduire des invites telles que « un logo pour ‘Diffusion’ » en caractères lisibles, Imagen Video le rend sans problème – du moins à en juger par l’article.
Cela ne veut pas dire qu’Imagen Video est sans limitations. Comme c’est le cas avec Make-A-Video, même les clips choisis dans Imagen Video sont nerveux et déformés en partie, comme Guzdial y a fait allusion, avec des objets qui se fondent les uns dans les autres de manière physiquement non naturelle – et impossible. Pour améliorer cela, l’équipe d’Imagen Video prévoit de s’associer aux chercheurs derrière Phénaki, un autre système de synthèse texte-vidéo de Google qui peut transformer de longues invites détaillées en vidéos de plus de deux minutes, bien qu’à une qualité inférieure.
Il vaut la peine de lever un peu les rideaux sur Phenaki pour voir où une collaboration entre les équipes pourrait mener. Alors qu’Imagen Video se concentre sur la qualité, Phenaki privilégie la cohérence et la longueur. Le système peut transformer des invites de long paragraphe en films d’une longueur arbitraire, d’une scène d’une personne conduisant une moto à un vaisseau spatial extraterrestre survolant une ville futuriste. Les clips générant des phénakis souffrent des mêmes problèmes que ceux d’Imagen Video, buIl est remarquable pour moi de voir à quel point ils suivent de près les descriptions textuelles longues et nuancées qui les ont incités.
Par exemple, voici une invite transmise à Phenaki :
Beaucoup de trafic dans la ville futuriste. Un vaisseau spatial extraterrestre arrive dans la ville futuriste. La caméra pénètre à l’intérieur du vaisseau spatial extraterrestre. La caméra avance jusqu’à ce qu’elle montre un astronaute dans la pièce bleue. L’astronaute tape dans le clavier. La caméra s’éloigne de l’astronaute. L’astronaute quitte le clavier et marche vers la gauche. L’astronaute quitte le clavier et s’éloigne. La caméra se déplace au-delà de l’astronaute et regarde l’écran. L’écran derrière l’astronaute montre des poissons nageant dans la mer. Crash zoom sur le poisson bleu. Nous suivons le poisson bleu alors qu’il nage dans l’océan sombre. La caméra pointe vers le ciel à travers l’eau. L’océan et le littoral d’une ville futuriste. Crash zoom vers un gratte-ciel futuriste. La caméra zoome sur l’une des nombreuses fenêtres. Nous sommes dans un bureau avec des bureaux vides. Un lion court sur les bureaux. La caméra zoome sur le visage du lion, à l’intérieur du bureau. Zoom arrière sur le lion vêtu d’un costume sombre dans une pièce de bureau. Le lion qui porte regarde la caméra et sourit. La caméra effectue un zoom arrière lentement sur l’extérieur du gratte-ciel. Timelapse du coucher du soleil dans la ville moderne.
Et voici la vidéo générée:
Pour en revenir à Imagen Video, les chercheurs notent également que les données utilisées pour entraîner le système contenaient un contenu problématique, ce qui pourrait amener Imagen Video à produire des clips graphiquement violents ou sexuellement explicites. Google dit qu’il ne publiera pas le modèle Imagen Video ou le code source « jusqu’à ce que ces préoccupations soient atténuées ».
Pourtant, avec la technologie texte-vidéo progressant rapidement, il ne faudra peut-être pas longtemps avant qu’un modèle open source n’émerge – à la fois suralimentant la créativité et présentant un défi insoluble lorsqu’il s’agit de deepfakes et de désinformation.