Pourquoi est-ce important: Les chercheurs continuent de trouver de nouvelles façons de tirer parti de l’intelligence artificielle et des capacités d’apprentissage automatique à mesure que les technologies évoluent. Plus tôt cette semaine, les scientifiques de Google ont annoncé la création de Transframer, un nouveau cadre avec la capacité de générer de courtes vidéos basées sur des entrées d’image singulières. La nouvelle technologie pourrait un jour augmenter les solutions de rendu traditionnelles, permettant aux développeurs de créer des environnements virtuels basés sur des capacités d’apprentissage automatique.
Le nom du nouveau cadre (et, à certains égards, le concept) sont un clin d’œil à un autre modèle basé sur l’IA connu sous le nom de Transformateur. Introduit à l’origine en 2017, Transformer est une nouvelle architecture de réseau neuronal capable de générer du texte en modélisant et en comparant d’autres mots dans une phrase. Le modèle a depuis été inclus dans des cadres d’apprentissage en profondeur standard tels que TensorFlow et TorchePy.
Tout comme Transformer utilise le langage pour prédire les sorties potentielles, Transframeur utilise des images de contexte avec des attributs similaires en conjonction avec une annotation de requête pour créer de courtes vidéos. Les vidéos résultantes se déplacent autour de l’image cible et visualisent des perspectives précises malgré l’absence de données géométriques dans les entrées d’image d’origine.
Transframer est un framework génératif à usage général qui peut gérer de nombreuses tâches d’image et de vidéo dans un cadre probabiliste. De nouveaux travaux montrent qu’il excelle dans la prédiction vidéo et la synthèse de vues, et peut générer des vidéos de 30 secondes à partir d’une seule image : https://t.co/wX3nrrYEEa 1/ pic.twitter.com/gQk6f9nZyg
– DeepMind (@DeepMind) 15 août 2022
La nouvelle technologie, démontrée à l’aide de Google DeepMind La plate-forme AI fonctionne en analysant une seule image de contexte de photo pour obtenir des éléments clés de données d’image et générer des images supplémentaires. Au cours de cette analyse, le système identifie le cadrage de l’image, qui à son tour aide le système à prédire l’environnement de l’image.
Les images contextuelles sont ensuite utilisées pour prédire comment une image apparaîtrait sous différents angles. La prédiction modélise la probabilité de trames d’image supplémentaires en fonction des données, des annotations et de toute autre information disponible à partir des trames de contexte.
Le cadre marque une étape importante dans la technologie vidéo en offrant la possibilité de générer une vidéo raisonnablement précise basée sur un ensemble très limité de données. Les tâches Transframer ont également montré des résultats extrêmement prometteurs sur d’autres tâches et benchmarks liés à la vidéo tels que segmentation sémantique, classement des imageset flux optique prédictions.
Les implications pour les industries basées sur la vidéo, telles que le développement de jeux, pourraient être potentiellement énormes. Les environnements de développement de jeux actuels reposent sur le noyau techniques de rendu tels que l’ombrage, le mappage de texture, la profondeur de champ et le lancer de rayons. Des technologies telles que Transframer ont le potentiel d’offrir aux développeurs une toute nouvelle voie de développement en utilisant l’IA et l’apprentissage automatique pour créer leurs environnements tout en réduisant le temps, les ressources et les efforts nécessaires pour les créer.
Crédit image : DeepMind