DeepMind, l’organisation de recherche sur l’IA de google, a dévoilé un modèle qui peuvent générer une variété « infinie » de mondes 3D jouables.
Appelé Genie 2, le modèle – le successeur du Genie de DeepMind, sorti plus tôt cette année – peut générer une scène interactive en temps réel à partir d’une seule image et d’une description textuelle (par exemple, « Un mignon robot humanoïde dans les bois »). De cette façon, il est similaire aux modèles en cours de développement par la société de Fei-Fei Li, World Labs, et la startup israélienne Decart.
DeepMind affirme que Genie 2 peut générer une « grande diversité de mondes 3D riches », y compris des mondes dans lesquels les utilisateurs peuvent effectuer des actions comme sauter et nager à l’aide d’une souris ou d’un clavier. Entraîné sur des vidéos, le modèle est capable de simuler les interactions avec les objets, les animations, l’éclairage, la physique, les réflexions et le comportement des « PNJ ».
De nombreuses simulations de Genie 2 ressemblent à des jeux vidéo AAA – et la raison pourrait bien être que les données d’entraînement du modèle contiennent des parties de titres populaires. Mais DeepMind, comme de nombreux laboratoires d’IA, n’a pas voulu révéler beaucoup de détails sur ses méthodes d’approvisionnement en données, pour des raisons concurrentielles ou autres.
On peut s’interroger sur les implications de la propriété intellectuelle. DeepMind – étant une filiale de Google – a un accès illimité à youtube, et Google a précédemment laissé entendre que ses conditions d’utilisation lui donnaient la permission d’utiliser des vidéos YouTube pour l’entraînement des modèles. Mais Genie 2 crée-t-il essentiellement des copies non autorisées des jeux vidéo qu’il a « regardés » ? C’est aux tribunaux d’en décider.
DeepMind affirme que Genie 2 peut générer des mondes cohérents avec différentes perspectives, comme des vues à la première personne et isométriques, pendant une minute maximum, la majorité durant 10 à 20 secondes.
« Genie 2 réagit intelligemment aux actions entreprises en appuyant sur les touches d’un clavier, en identifiant le caractère et en le déplaçant correctement », a écrit DeepMind dans un billet de blog. [can] Comprenez que les touches fléchées doivent déplacer un robot et non des arbres ou des nuages.
La plupart des modèles comme Genie 2 – des modèles de monde, si vous voulez – peuvent simuler des jeux et des environnements 3D, mais avec des problèmes liés aux artefacts, à la cohérence et aux hallucinations. Par exemple, le simulateur Minecraft de Decart, Oasis, a une faible résolution, et « oublie » rapidement la disposition des niveaux.
Genie 2, cependant, peut se souvenir des parties d’une scène simulée qui ne sont pas visibles et les restituer avec précision lorsqu’elles redeviennent visibles. (Les modèles de World Labs peuvent également le faire.)
Maintenant, les jeux créés avec Genie 2 ne seraient pas si amusants, vraiment, étant donné qu’ils effaceraient votre progression toutes les minutes environ. C’est pourquoi DeepMind positionne le modèle comme un outil de recherche et de création – un outil de prototypage d’« expériences interactives » et d’évaluation des agents d’IA.
« Grâce aux capacités de généralisation hors distribution de Genie 2, l’art conceptuel et les dessins peuvent être transformés en environnements entièrement interactifs », a écrit DeepMind. « Et en utilisant Genie 2 pour créer rapidement des environnements riches et diversifiés pour les agents d’IA, nos chercheurs peuvent générer des tâches d’évaluation que les agents n’ont pas vues pendant la formation. »
DeepMind affirme que même si Genie 2 n’en est qu’à ses débuts, le laboratoire pense qu’il sera un élément clé dans le développement des agents d’IA du futur.
Les créatifs peuvent avoir des sentiments mitigés, en particulier ceux de l’industrie du jeu vidéo. Un récent L’enquête de Wired a révélé que des acteurs majeurs comme Activision Blizzard, qui a licencié des dizaines de travailleurs, utilisent l’IA pour faire des économies, augmenter la productivité et compenser l’attrition.
Google a consacré de plus en plus de ressources à la recherche de modèles mondiaux, qui promet d’être la prochaine grande nouveauté en matière d’IA générative. En octobre, DeepMind a embauché Tim Brooks, qui dirigeait le développement du générateur de vidéos Sora d’OpenAI, pour travailler sur les technologies de génération de vidéos et les simulateurs de monde. Et il y a deux ans, le laboratoire a débauché Tim Rocktäschel, surtout connu pour son « ouverture » Expériences avec des jeux vidéo comme Nethack, de Meta.