Accueil Jeux Vidéos Minecraft Comment Nvidia utilise GPT-4 pour améliorer l’IA dans Minecraft

Comment Nvidia utilise GPT-4 pour améliorer l’IA dans Minecraft

Par

novembre 29, 2023

Une comparaison du Voyager de Nvidia avec d’autres agents automatisés remontant à travers ce que l’on appelle l’arbre technologique des réalisations du jeu. Le programme est sensiblement plus rapide pour accomplir de nouvelles tâches, et c’est jusqu’à présent la seule automatisation de Minecraft qui peut débloquer le niveau très prisé d’outils diamant. Les nombres en bas du graphique représentent le nombre d’itérations d’invite pour les programmes.

Guanzhi Wang et coll.

Comme échec et mat aux échecs, la possibilité de façonner un outil en diamant dans le jeu vidéo Minecraft, l’un des défis de haut niveau du jeu, devient banale pour intelligence artificielle.

Et maintenant, quelque chose comme la mémoire arrive aux capacités de l’IA dans le jeu informatique populaire.

Les programmes d’IA ont été largement développés pour jouer à Minecraft sans intervention humaine, avec d’énormes investissements dans toutes sortes d’approches. Par exemple, OpenAI, le créateur de ChatGPTa dépensé d’énormes sommes d’argent embaucher des joueurs humains du jeu afin de capturer des séquences vidéo qui peuvent développer l’IA pour jouer au jeu en imitant les mouvements des gens.

Aussi: Qu’est-ce que GPT-4 ? Voici tout ce que vous devez savoir

Une équipe dirigée par Zihao Wang de l’Université de Pékin à Pékin en février décrit ce que l’équipe considère comme « le premier agent multitâche capable d’accomplir de manière robuste plus de 70 tâches Minecraft ».

Mais l’état de l’art évolue rapidement. Une équipe dirigée par Nvidia a déclaré la semaine dernière avoir mis au point le premier « agent d’apprentissage tout au long de la vie » qui a affiné son approche du jeu en se basant sur l’essai de différentes techniques, puis en enregistrant ses réalisations dans une bibliothèque de techniques.

Comparée à d’autres systèmes automatiques, la technologie atteint systématiquement les étapes plus rapidement dans Minecraft.

Aussi: OpenAI a dépensé 160 000 $ en Upwork pour les joueurs de Minecraft afin de former un réseau neuronal

Le programme, appelé Voyager, est décrit dans un article : publié sur le serveur de pré-impression arXiv – écrit par Guanzhi Wang de Nvidia et Caltech, et des collègues de l’UT Austin, Stanford et de l’Arizona State University. L’un des conseillers de l’équipe est Anima Anandkumar, directrice principale de la recherche sur l’IA chez Nvidia. (Le papier et le matériel supplémentaire sont également publié par Nvidia sur un site Web compagnon.)

Voyager utilise GPT-4, le dernier « grand modèle de langage » du créateur de ChatGPT, OpenAI. GPT-4 était dévoilé en marsbien qu’OpenAI a refusé de décrire les aspects techniques du programme. Le code GPT-4 est meilleur que les versions précédentes et meilleur que de nombreux autres grands modèles de langage, ou LLM, pour de nombreuses tâches pour lesquelles ChatGPT est utilisé, telles que répondre à des défis en langage naturel et écrire du code, selon OpenAI.

GPT-4 est utilisé de trois manières dans Voyager. La première consiste à prendre l’inventaire actuel des biens dans Minecraft et à les utiliser pour proposer un nouveau défi pour le programme Voyager. Donnez à GPT-4 une description de l’inventaire à l’invite en langage naturel, avec un formatage pour une analyse facile, tel que :

Inventaire (5/36) : {‘oak_planks’ : 3, ‘stick’ : 4, ‘crafting_table’ : 1, ‘stone’ : 3, ‘wooden_pickaxe’ : 1},

GPT-4 produira une description en langage naturel d’un nouveau défi, comme fabriquer une pioche en pierre, ainsi qu’une déclaration expliquant pourquoi il s’agit d’une nouvelle tâche appropriée, comme, par exemple,

Raisonnement : Puisque vous disposez d’une pioche en bois et de quelques pierres, il serait avantageux d’améliorer votre pioche en pioche en pierre pour une meilleure efficacité.

Tâche : Fabriquer 1 pioche en pierre.

Une deuxième fonction de GPT-4 dans Voyager est de saisir ce nouveau défi et de générer du code pour effectuer la prochaine étape dans Minecraft. GPT-4 écrit le code du programme à exécuter dans Minecraft, et chaque bit de code est testé dans Minecraft, et les commentaires sont ensuite renvoyés dans GPT-4, qui affine ensuite le code.

Aussi: comment ChatGPT peut réécrire et améliorer votre code existant

Il est bien connu que GPT-4 peut affiner le code du programme. Les auteurs décrivent ce processus d’essais et d’erreurs de code comme une « invite itérative », en raison de la boucle code/retour/recodage via l’invite GPT-4. Une deuxième instance de GPT-4 est utilisée comme critique pour tester chaque invention de code et déterminer si elle réussit. C’est ce qu’on appelle « l’auto-vérification ».

Par exemple, si le code initial du programme consiste à envoyer l’instruction à Minecraft pour façonner une « hache d’acacia », une hache faite de plante d’acacia, il échouera car il n’existe pas de hache d’acacia dans Minecraft. L’échec de cette instruction est traité par Voyager comme une « erreur d’exécution », et le programme révise son code Minecraft et réessaye.

La partie la plus intéressante vient de ce qu’on appelle une bibliothèque, dans laquelle Voyager stocke les morceaux de code qu’il a essayés et testés et qui ont réussi, appelés « compétences ».

Aussi: Les meilleurs chatbots IA : ChatGPT et autres alternatives remarquables

De la même manière que GPT-4 prédit le mot suivant dans une phrase, Voyager peut exploiter cette bibliothèque pour suggérer des actions futures. GPT-4 commence par une « requête » — quelque chose comme « fabriquer une pioche en fer » — puis il recherche dans la bibliothèque la « clé » — la description stockée d’une compétence — et récupère la compétence requise comme résultat, la « valeur » de cette combinaison requête-clé, un peu comme une recherche dans une base de données.

En utilisant ce qu’on appelle des études d’ablation – en supprimant des parties du programme – Wang et son équipe découvrent que l’élément le plus critique dans toute la construction du Voyager est le critique, l’unité d’auto-vérification.

Exemples de la façon dont Voyager peut produire des résultats plus sophistiqués lorsqu’il reçoit des commentaires humains pendant son jeu.

Guanzhi Wang et coll.

« L’auto-vérification est le plus important parmi tous les types de commentaires » que Voyager reçoit, écrivent-ils.

« La suppression du module entraîne une baisse significative (-73%) du nombre d’éléments découverts », d’où ils déduisent que « l’auto-vérification sert de mécanisme critique pour décider quand passer à une nouvelle tâche ou réessayer une tâche précédemment infructueuse ». tâche. »

Pour tester Voyager par rapport à l’état de l’art de Minecraft automatisé, les auteurs ont concocté d’autres programmes d’IA car, comme ils le disent, « il n’y a pas de LLM qui permette de jouer à Minecraft directement ».

Aussi: Affrontement des consoles de jeux : PS5, Xbox, Nintendo Switch et plus

Les programmes contre lesquels ils testent, ce qui constitue leur référence, comprennent MineDojo, un programme développé par certains des mêmes contributeurs l’année dernière qui a remporté un « prix d’article exceptionnel » lors de la conférence NeurIPS AI ; ReAct, une invention de google introduite cette année qui incite un grand modèle de langage à « effectuer un raisonnement dynamique » lors de la résolution de problèmes, en l’occurrence Minecraft ; et AutoGPT, une adaptation de GPT-4 qui automatise la prochaine action du modèle de langage, publié sur GitHubdéveloppé par une maison de développement sous contrat Gravitas significative.

Comparé à ces autres approches, écrivent les auteurs, Voyager atteint ses objectifs beaucoup plus rapidement. « La supériorité de Voyager est évidente dans sa capacité à faire constamment de nouveaux progrès, en découvrant 63 éléments uniques en 160 itérations incitatives, soit 3,3 fois de nouveaux éléments par rapport à ses homologues », écrivent-ils. « Voyager déverrouille le niveau en bois 15,3 fois plus vite (en termes d’itérations d’incitation), le niveau en pierre 8,5 fois plus vite, le niveau en fer 6,4 fois plus vite. »

Aussi: GPT-4 dévoilé : la prochaine grande mise à jour de ChatGPT est là

Et « Voyager est le seul à débloquer le niveau diamant de l’arbre technologique. » (L’obtention d’une pioche en diamant est l’une des tâches les plus difficiles dans Minecraft. Les outils à base de diamant durent plus longtemps et peuvent faire plus de dégâts, et leur puissance par d’autres moyens devient importante pour les activités de fin de jeu telles que l’enchantement de tables et la fabrication d’équipement en Netherite.)

Ils ont également constaté qu’il existe une capacité résiduelle du programme à progresser dans le jeu même lorsque sa bibliothèque de compétences est vidée.

Pour tester ce qu’on appelle la « généralisation sans tir », écrivent-ils, « nous effaçons l’inventaire de l’agent, le réinitialisons dans un monde nouvellement instancié et le testons avec des tâches invisibles », contre un GPT-4 simple. « Voyager peut résoudre toutes les tâches de manière cohérente, alors que les lignes de base ne peuvent résoudre aucune tâche en 50 itérations. »

Il y a beaucoup à faire dans les orientations futures, écrivent Wang et son équipe. D’une part, GPT-4 ne peut pas encore traiter les images. Si cela était possible, Voyager pourrait obtenir un retour visuel des graphismes du jeu, émettent-ils.

Aussi: Avec GPT-4, OpenAI opte pour le secret plutôt que la divulgation

Une autre direction consiste à utiliser les commentaires humains en temps réel comme « critique » ou comme « programme d’études », ou les deux, pour faire avancer les choix faits par Voyager. En fait, dans les expériences qu’ils effectuent, « nous démontrons que, grâce aux commentaires humains, Voyager est capable de construire des structures 3D complexes dans Minecraft, comme un portail du Nether et une maison. »

Voyager coûte cher du point de vue informatique, observent-ils. « L’API GPT-4 entraîne des coûts importants. Elle est 15 fois plus chère que GPT-3.5. Néanmoins, Voyager nécessite un bond en avant dans la qualité de génération de code par rapport à GPT-4, que GPT-3.5 et les LLM open source ne peuvent pas fournir. »

Aussi: Les 5 plus gros risques de l’IA générative, selon un expert

Et oui, Voyager est sujet aux hallucinations dans cette tâche, tout comme dans tout ce que font les modèles linguistiques. La hache d’acacia en est un exemple, et le Voyager propose d’autres « tâches irréalisables », notent-ils, comme la fabrication d’une « épée en cuivre » ou d’une « plaque de poitrine en cuivre », qui, notent-ils, « sont des objets qui n’existent pas dans le monde ». jeu. »

En outre, notent-ils, « des hallucinations surviennent également pendant le processus de génération de code », comme « utiliser des pavés comme carburant, bien qu’il s’agisse d’une source de carburant invalide dans le jeu ».