Rejoignez nos newsletters quotidiennes et hebdomadaires pour les dernières mises à jour et du contenu exclusif sur la couverture de l’IA de pointe. Apprendre encore plus
Une nouvelle IA d’apprentissage a été laissée à elle-même dans une instance de Minecraft alors que l’intelligence artificielle apprend à jouer au jeu en faisant, déclarent la société de développement d’IA SingularityNET et l’Artificial Superintelligence Alliance (ASI Alliance). L’IA, nommée AIRIS (Autonomous Intelligent Reinforcement Inferred Symbolism), part essentiellement de rien dans Minecraft pour apprendre à jouer au jeu en utilisant uniquement la boucle de rétroaction du jeu pour l’enseigner.
L’IA a déjà été lancée pour apprendre un jeu, mais souvent dans des espaces 2D plus linéaires. Avec Minecraft, AIRIS peut entrer dans un monde 3D plus complexe et commencer lentement à naviguer et à explorer pour voir ce qu’il peut faire et, plus important encore, si l’IA peut comprendre les objectifs de conception de jeux sans nécessairement qu’on leur le dise. comment réagit-il aux changements de l’environnement ? Peut-il trouver différents chemins vers le même endroit ? Peut-il jouer au jeu avec quelque chose qui ressemble à la créativité que les joueurs humains emploient dans Minecraft ?
VentureBeat a contacté SingularityNET et ASI Alliance pour leur demander pourquoi ils ont spécifiquement choisi Minecraft.
« Les premières versions d’AIRIS ont été testées dans des environnements simples de jeux de réflexion en grille 2D », a répondu un représentant de la société. « Nous devions tester le système dans un environnement 3D plus complexe et plus ouvert. Minecraft correspond bien à cette description, est un jeu très populaire et possède toutes les exigences techniques nécessaires pour y connecter une IA. Minecraft est également déjà utilisé comme référence en matière d’apprentissage par renforcement. Cela nous permettra de comparer directement les résultats d’AIRIS aux algorithmes existants.
Ils ont également fourni une explication plus approfondie de son fonctionnement.
« L’agent reçoit deux types d’entrées provenant de l’environnement et une liste d’actions qu’il peut effectuer. Le premier type d’entrée est une grille 3D 5 x 5 x 5 des noms de blocs qui entourent l’agent. C’est ainsi que l’agent « voit » le monde. Le deuxième type d’entrée concerne les coordonnées actuelles de l’agent dans le monde. Cela nous donne la possibilité de donner à l’agent un emplacement que nous souhaitons qu’il atteigne. La liste des actions de cette première version consiste à se déplacer ou à sauter dans l’une des 8 directions (les quatre directions cardinales et en diagonale) pour un total de 16 actions. Les versions futures auront beaucoup plus d’actions à mesure que nous élargirons les capacités de l’agent pour inclure l’exploitation minière, le placement de blocs, la collecte de ressources, la lutte contre les foules et l’artisanat.
« L’agent commence en mode ‘Free Roam’ » et cherche à explorer le monde qui l’entoure. Construire une carte interne de l’endroit où il se trouve, qui peut être visualisée avec l’outil de visualisation inclus. Il apprend à naviguer dans le monde et lorsqu’il rencontre des obstacles comme des arbres, des montagnes, des grottes, etc., il les apprend et s’y adapte. Par exemple, s’il tombe dans une grotte profonde, il explorera son chemin pour en sortir. Son objectif est de remplir n’importe quel espace vide de sa carte interne. Il cherche donc des moyens de se rendre dans des endroits qu’il n’a pas encore vus.
« Si nous donnons à l’agent un ensemble de coordonnées, il cessera d’explorer librement et se dirigera vers l’endroit où nous voulons qu’il aille. Explorer des zones qu’il n’a jamais vues. Cela pourrait être au sommet d’une montagne, au fond d’une grotte ou au milieu d’un océan. Une fois qu’il atteint sa destination, nous pouvons lui donner un autre ensemble de coordonnées ou le remettre en itinérance libre pour explorer à partir de là.
« L’exploration gratuite et la capacité de naviguer dans des zones inconnues sont ce qui distingue AIRIS de l’apprentissage par renforcement traditionnel. Ce sont des tâches que RL n’est pas capable d’effectuer, quel que soit le nombre de millions d’épisodes d’entraînement ou la quantité de calcul que vous lui donnez.
Pour le développement de jeux, un cas d’utilisation réussi d’AIRIS peut inclure des tests automatiques de bogues et de stress pour les logiciels. Un hypothétique AIRIS pouvant fonctionner sur l’intégralité de Fallout 4 pourrait créer des rapports de bugs lors de l’interaction avec des PNJ ou des ennemis, par exemple. Même si les testeurs d’assurance qualité devraient toujours vérifier ce que l’IA a documenté, cela accélérerait un processus de développement laborieux et par ailleurs frustrant.
De plus, il s’agit de la première étape vers un monde virtuel d’apprentissage autodirigé de l’IA dans des mondes complexes et omnidirectionnels. Cela devrait être passionnant pour l’ensemble des passionnés d’IA.