Minecraft-cropped.jpg?auto=webp&width=768″ alt= »nvidia-voyager-navigates-the-tech-tree-in-minecraft-cropped »>Nvidia-Voyager-Navigue-Dans-L'Arbre-Technologique-De-Minecraft-Recadré

Une comparaison du Voyager de Nvidia avec d’autres agents automatisés progresse dans le soi-disant arbre technologique des réalisations du jeu. Le programme est sensiblement plus rapide pour accomplir de nouvelles tâches, et c’est jusqu’à présent la seule automatisation de Minecraft qui peut débloquer le niveau de diamant très prisé des outils. Les nombres au bas du graphique représentent le nombre d’itérations d’invite pour les programmes.

Guanzhi Wang et al

Comme l’échec et le mat aux échecs, la possibilité de façonner un outil en diamant dans le jeu vidéo Minecraft, l’un des défis de haut niveau du jeu, devient banale pour l’intelligence artificielle.

Et maintenant, quelque chose comme la mémoire arrive à la capacité de l’IA dans le jeu informatique populaire.

Publicité

Les programmes d’IA ont été largement développés pour jouer à Minecraft sans intervention humaine, avec un investissement énorme dans toutes sortes d’approches. Par exemple, OpenAI, le créateur de ChatGPT, a dépensé d’énormes sommes d’argent embaucher des joueurs humains du jeu afin de capturer des séquences vidéo qui peuvent développer l’IA pour jouer au jeu en imitant les mouvements des gens.

Aussi: Qu’est-ce que le GPT-4 ? Voici tout ce que vous devez savoir

Une équipe dirigée par Zihao Wang de l’Université de Pékin à Pékin en février décrit ce que l’équipe pense est « le premier agent multitâche capable d’accomplir de manière robuste plus de 70 tâches Minecraft ».

Mais l’état de l’art évolue rapidement. Une équipe dirigée par Nvidia la semaine dernière a déclaré avoir mis au point le premier « agent d’apprentissage tout au long de la vie » qui a affiné son approche du jeu en essayant différentes techniques, puis en enregistrant ses réalisations dans une bibliothèque de techniques.

Comparée à d’autres systèmes automatiques, la technologie atteint systématiquement les jalons de Minecraft plus rapidement.

Aussi: OpenAI a dépensé 160 000 $ en Upwork pour que les joueurs de Minecraft forment un réseau neuronal

Le programme, appelé Voyager, est décrit dans un article — publié sur le serveur de prépublication arXiv – écrit par Guanzhi Wang de Nvidia et Caltech, et des collègues de l’UT Austin, de Stanford et de l’Arizona State University. Un conseiller de l’équipe est le directeur principal de la recherche sur l’IA de Nvidia, Anima Anandkumar. (Le papier et le matériel supplémentaire sont également publié par Nvidia sur un site Web compagnon.)

Voyager utilise GPT-4, le dernier « grand modèle de langage » du créateur de ChatGPT, OpenAI. GPT-4 était dévoilé en marsbien qu’OpenAI a refusé de décrire les aspects techniques du programme. Le code GPT-4 est meilleur que les versions précédentes et meilleur que de nombreux autres grands modèles de langage, ou LLM, pour de nombreuses tâches pour lesquelles ChatGPT est utilisé, telles que répondre à des défis en langage naturel et écrire du code, selon OpenAI.

GPT-4 est utilisé de trois manières dans Voyager. L’une consiste à prendre l’inventaire actuel des biens dans Minecraft et à les utiliser pour proposer un nouveau défi au programme Voyager. Donnez à GPT-4 une description de l’inventaire à l’invite en langage naturel, avec un formatage pour une analyse facile, comme,

Inventaire (5/36) : {‘oak_planks’ : 3, ‘stick’ : 4, ‘crafting_table’ : 1, ‘stone’ : 3, ‘wooden_pickaxe’ : 1},

GPT-4 produira une description en langage naturel d’un nouveau défi, comme fabriquer une pioche en pierre, ainsi que l’énoncé expliquant pourquoi il s’agit d’une nouvelle tâche appropriée, comme, par exemple,

Raisonnement : Puisque vous avez une pioche en bois et quelques pierres, il serait avantageux d’améliorer votre pioche en une pioche en pierre pour une meilleure efficacité.

Tâche : Fabriquer 1 pioche en pierre.

Une deuxième fonction de GPT-4 dans Voyager est de saisir ce nouveau défi et de générer du code pour faire le prochain pas dans Minecraft. GPT-4 écrit le code du programme à exécuter dans Minecraft, et chaque bit de code est testé dans Minecraft, et les commentaires sont ensuite renvoyés dans GPT-4, qui affine ensuite le code.

Aussi: comment ChatGPT peut réécrire et améliorer votre code existant

Il est bien connu que GPT-4 peut affiner le code du programme. Les auteurs décrivent ce processus d’essais et d’erreurs de code comme une « incitation itérative », en raison de la boucle de code/rétroaction/recodage via l’invite GPT-4. Une deuxième instance de GPT-4 est utilisée comme critique pour tester chaque invention de code et déterminer si elle réussit. C’est ce qu’on appelle « l’auto-vérification ».

Par exemple, si le code de programme initial est d’envoyer l’instruction à Minecraft pour façonner une « hache d’acacia », une hache faite de la plante d’acacia, cela échouera car il n’y a pas de hache d’acacia dans Minecraft. L’échec de cette instruction est traité par Voyager comme une « erreur d’exécution », et le programme révise son code Minecraft et réessaye.

La partie la plus intéressante vient avec ce qu’on appelle une bibliothèque, où Voyager stocke les morceaux de code qu’il a essayés et testés et trouvés réussis, appelés « compétences ».

Aussi: Les meilleurs chatbots IA : ChatGPT et autres alternatives remarquables

De la même manière que GPT-4 prédit le mot suivant dans une phrase, Voyager peut exploiter cette bibliothèque pour des actions suggérées à l’avenir. GPT-4 commence par une « requête » — quelque chose comme « fabriquer une pioche en fer » — puis il recherche dans la bibliothèque la « clé » — la description stockée d’une compétence — et récupère la compétence requise en sortie, la « valeur » de cette combinaison requête-clé, un peu comme une recherche dans une base de données.

En utilisant ce qu’on appelle des études d’ablation – en supprimant des parties du programme – Wang et son équipe constatent que l’élément le plus critique de toute la construction de Voyager est le critique, l’unité d’auto-vérification.

Nvidia-Voyager-Avec-Human-Feedback-Juin-2023

Exemples de la façon dont Voyager peut produire des résultats plus sophistiqués lorsqu’il reçoit des commentaires humains pendant son gameplay.

Guanzhi Wang et al

« L’auto-vérification est la plus importante parmi tous les types de commentaires » que Voyager reçoit, écrivent-ils.

« La suppression du module entraîne une baisse significative (−73 %) du nombre d’éléments découverts », d’où ils déduisent que « l’auto-vérification sert de mécanisme critique pour décider quand passer à une nouvelle tâche ou réessayer une tâche précédemment infructueuse ». tâche. »

Pour tester Voyager par rapport à l’état de l’art dans Minecraft automatisé, les auteurs ont concocté d’autres programmes d’IA car, comme ils le disent, « il n’y a pas de LLM qui jouent à Minecraft prêt à l’emploi ».

Aussi: Affrontement de la console de jeu : PS5, Xbox, Nintendo Switch, et plus

Les programmes qu’ils testent, qui constituent leur base de référence, incluent MineDojo, un programme développé par certains des mêmes contributeurs l’année dernière qui a remporté un « prix d’article exceptionnel » lors de la conférence NeurIPS AI ; ReAct, une invention de google introduite cette année qui incite un grand modèle de langage à « effectuer un raisonnement dynamique » dans la résolution de problèmes, dans ce cas, Minecraft ; et AutoGPT, une adaptation de GPT-4 qui automatise l’action suivante du modèle de langage, publié sur GitHubdéveloppé par contract development house Gravitas significative.

Comparé à ces autres approches, écrivent les auteurs, Voyager atteint ses objectifs beaucoup plus rapidement. « La supériorité de Voyager est évidente dans sa capacité à faire constamment de nouveaux progrès, en découvrant 63 éléments uniques en 160 itérations incitant, 3,3 × de nombreux éléments nouveaux par rapport à ses homologues », écrivent-ils. « Voyager déverrouille le niveau en bois 15,3 × plus rapidement (en termes d’itérations), le niveau en pierre 8,5 × plus rapidement, le niveau en fer 6,4 × plus rapidement. »

Aussi: GPT-4 dévoilé : la prochaine grande mise à jour de ChatGPT est arrivée

Et, « Voyager est le seul à débloquer le niveau diamant de l’arbre technologique. » (L’obtention d’une pioche en diamant est l’une des tâches les plus difficiles de Minecraft. Les outils à base de diamant durent plus longtemps et peuvent faire plus de dégâts, et leur puissance devient importante pour les activités de fin de jeu telles que l’enchantement des tables et la fabrication d’équipements en netherite.)

Ils ont également constaté qu’il existe une capacité résiduelle du programme à progresser dans le jeu même lorsque sa bibliothèque de compétences est vidée.

Pour tester ce qu’on appelle la « généralisation à zéro coup », écrivent-ils, « nous effaçons l’inventaire de l’agent, le réinitialisons dans un monde nouvellement instancié et le testons avec des tâches invisibles », par rapport à un GPT-4 ordinaire. « Voyager peut résoudre toutes les tâches de manière cohérente, tandis que les lignes de base ne peuvent résoudre aucune tâche dans les 50 itérations d’incitation. »

Il y a beaucoup à faire dans les directions futures, écrivent Wang et son équipe. D’une part, GPT-4 ne peut pas encore traiter les images. Si c’était le cas, Voyager pourrait obtenir un retour visuel des graphismes du jeu, supposent-ils.

Aussi: Avec GPT-4, OpenAI opte pour le secret contre la divulgation

Une autre direction consiste à utiliser les commentaires humains en temps réel comme « critique » ou « programme » ou les deux, pour faire avancer les choix faits par Voyager. En fait, dans les expériences qu’ils effectuent, « Nous démontrons qu’avec la rétroaction humaine, Voyager est capable de construire des structures 3D complexes dans Minecraft, comme un portail du Nether et une maison. »

Voyager coûte cher du point de vue du calcul, observent-ils. « L’API GPT-4 entraîne des coûts importants. Elle est 15 fois plus chère que GPT-3.5. Néanmoins, Voyager nécessite le saut quantique dans la qualité de génération de code de GPT-4, que GPT-3.5 et les LLM open source ne peuvent pas fournir. »

Et, oui, Voyager est sujet aux hallucinations dans cette tâche, comme dans tout ce que font les modèles linguistiques. La hache d’acacia en est un exemple, et Voyager propose d’autres « tâches irréalisables », notent-ils, telles que la fabrication d’une « épée en cuivre » ou d’une « plaque de poitrine en cuivre », qui, notent-ils, « sont des objets qui n’existent pas dans le jeu. »

De plus, notent-ils, « des hallucinations se produisent aussi pendant le processus de génération de code », comme « l’utilisation de pavés comme source de carburant, bien qu’il s’agisse d’une source de carburant invalide dans le jeu ».

Aussi: Les 5 plus grands risques de l’IA générative, selon un expert

4.9/5 - (17 votes)
Publicité
Article précédentSamsung Galaxy S21 FE voit une remise de 100 $ à 500 $, plus
Article suivantHyperPlay lève 12 millions de dollars pour un lanceur de jeux Web3 inter-chaînes

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici