Une comparaison du Voyager de Nvidia avec d’autres agents automatisés progresse dans le soi-disant arbre technologique des réalisations du jeu. Le programme est sensiblement plus rapide pour accomplir de nouvelles tâches, et c’est jusqu’à présent la seule automatisation de Minecraft qui peut débloquer le niveau de diamant très prisé des outils. Les nombres au bas du graphique représentent le nombre d’itérations d’invite pour les programmes.
Guanzhi Wang et al
Comme l’échec et le mat aux échecs, la possibilité de façonner un outil en diamant dans le jeu vidéo Minecraft, l’un des défis de haut niveau du jeu, devient banale pour l’intelligence artificielle.
Et maintenant, quelque chose comme la mémoire arrive à la capacité de l’IA dans le jeu informatique populaire.
Les programmes d’IA ont été largement développés pour jouer à Minecraft sans intervention humaine, avec un investissement énorme dans toutes sortes d’approches. Par exemple, OpenAI, le créateur de ChatGPT, a dépensé d’énormes sommes d’argent embaucher des joueurs humains du jeu afin de capturer des séquences vidéo qui peuvent développer l’IA pour jouer au jeu en imitant les mouvements des gens.
Aussi: Qu’est-ce que le GPT-4 ? Voici tout ce que vous devez savoir
Une équipe dirigée par Zihao Wang de l’Université de Pékin à Pékin en février décrit ce que l’équipe pense est « le premier agent multitâche capable d’accomplir de manière robuste plus de 70 tâches Minecraft ».
Mais l’état de l’art évolue rapidement. Une équipe dirigée par Nvidia la semaine dernière a déclaré avoir mis au point le premier « agent d’apprentissage tout au long de la vie » qui a affiné son approche du jeu en essayant différentes techniques, puis en enregistrant ses réalisations dans une bibliothèque de techniques.
Comparée à d’autres systèmes automatiques, la technologie atteint systématiquement les jalons de Minecraft plus rapidement.
Aussi: OpenAI a dépensé 160 000 $ en Upwork pour que les joueurs de Minecraft forment un réseau neuronal
Le programme, appelé Voyager, est décrit dans un article — publié sur le serveur de prépublication arXiv – écrit par Guanzhi Wang de Nvidia et Caltech, et des collègues de l’UT Austin, de Stanford et de l’Arizona State University. Un conseiller de l’équipe est le directeur principal de la recherche sur l’IA de Nvidia, Anima Anandkumar. (Le papier et le matériel supplémentaire sont également publié par Nvidia sur un site Web compagnon.)
Voyager utilise GPT-4, le dernier « grand modèle de langage » du créateur de ChatGPT, OpenAI. GPT-4 était dévoilé en marsbien qu’OpenAI a refusé de décrire les aspects techniques du programme. Le code GPT-4 est meilleur que les versions précédentes et meilleur que de nombreux autres grands modèles de langage, ou LLM, pour de nombreuses tâches pour lesquelles ChatGPT est utilisé, telles que répondre à des défis en langage naturel et écrire du code, selon OpenAI.
GPT-4 est utilisé de trois manières dans Voyager. L’une consiste à prendre l’inventaire actuel des biens dans Minecraft et à les utiliser pour proposer un nouveau défi au programme Voyager. Donnez à GPT-4 une description de l’inventaire à l’invite en langage naturel, avec un formatage pour une analyse facile, comme,
Inventaire (5/36) : {‘oak_planks’ : 3, ‘stick’ : 4, ‘crafting_table’ : 1, ‘stone’ : 3, ‘wooden_pickaxe’ : 1},
GPT-4 produira une description en langage naturel d’un nouveau défi, comme fabriquer une pioche en pierre, ainsi que l’énoncé expliquant pourquoi il s’agit d’une nouvelle tâche appropriée, comme, par exemple,
Raisonnement : Puisque vous avez une pioche en bois et quelques pierres, il serait avantageux d’améliorer votre pioche en une pioche en pierre pour une meilleure efficacité.
Tâche : Fabriquer 1 pioche en pierre.
Une deuxième fonction de GPT-4 dans Voyager est de saisir ce nouveau défi et de générer du code pour faire le prochain pas dans Minecraft. GPT-4 écrit le code du programme à exécuter dans Minecraft, et chaque bit de code est testé dans Minecraft, et les commentaires sont ensuite renvoyés dans GPT-4, qui affine ensuite le code.
Aussi: comment ChatGPT peut réécrire et améliorer votre code existant
Il est bien connu que GPT-4 peut affiner le code du programme. Les auteurs décrivent ce processus d’essais et d’erreurs de code comme une « incitation itérative », en raison de la boucle de code/rétroaction/recodage via l’invite GPT-4. Une deuxième instance de GPT-4 est utilisée comme critique pour tester chaque invention de code et déterminer si elle réussit. C’est ce qu’on appelle « l’auto-vérification ».
Par exemple, si le code de programme initial est d’envoyer l’instruction à Minecraft pour façonner une « hache d’acacia », une hache faite de la plante d’acacia, cela échouera car il n’y a pas de hache d’acacia dans Minecraft. L’échec de cette instruction est traité par Voyager comme une « erreur d’exécution », et le programme révise son code Minecraft et réessaye.
La partie la plus intéressante vient avec ce qu’on appelle une bibliothèque, où Voyager stocke les morceaux de code qu’il a essayés et testés et trouvés réussis, appelés « compétences ».
Aussi: Les meilleurs chatbots IA : ChatGPT et autres alternatives remarquables
De la même manière que GPT-4 prédit le mot suivant dans une phrase, Voyager peut exploiter cette bibliothèque pour des actions suggérées à l’avenir. GPT-4 commence par une « requête » — quelque chose comme « fabriquer une pioche en fer » — puis il recherche dans la bibliothèque la « clé » — la description stockée d’une compétence — et récupère la compétence requise en sortie, la « valeur » de cette combinaison requête-clé, un peu comme une recherche dans une base de données.
En utilisant ce qu’on appelle des études d’ablation – en supprimant des parties du programme – Wang et son équipe constatent que l’élément le plus critique de toute la construction de Voyager est le critique, l’unité d’auto-vérification.