Le grand problème auquel sont confrontés les chercheurs en intelligence artificielle aujourd’hui est de créer des entités incarnées entièrement autonomes capables de planifier, d’explorer et d’apprendre dans des environnements ouverts. Les méthodes traditionnelles reposent sur des actions fondamentales pour former des modèles par l’apprentissage par renforcement (RL) et l’apprentissage par imitation, ce qui rend difficile l’investigation méthodique, l’interprétabilité et la généralisabilité. Les progrès récents des agents basés sur un modèle de langage étendu (LLM) utilisent les informations mondiales encodées dans des LLM pré-formés pour développer des plans d’action cohérents ou des politiques exécutables. Ils sont utilisés dans des activités PNL non incarnées en plus d’activités incarnées comme les jeux et la robotique.
Voyager est le premier agent d’apprentissage tout au long de la vie incarné alimenté par LLM dans Minecraft, et il explore toujours de nouveaux mondes, acquiert de nouvelles compétences et fait des découvertes sans aucune aide humaine. Les trois composants principaux de Voyager sont :
- Un cursus automatique, un cadre pédagogique qui privilégie la découverte
- Un référentiel/bibliothèque de compétences en constante expansion de code exécutable qui peut stocker et rappeler des activités complexes.
- L’invention concerne un mécanisme d’invite pour l’amélioration du programme qui inclut de manière itérative les commentaires de l’environnement environnant, les défauts d’exécution et l’auto-vérification.
Voyager utilise des requêtes de boîte noire pour communiquer avec GPT-4, éliminant ainsi le besoin d’affiner les paramètres du modèle. Les talents acquis de Voyager aggravent et atténuent rapidement l’oubli catastrophique car ils sont prolongés dans le temps, interprétables et compositionnels. Empiriquement, Voyager démontre des performances extraordinaires dans le jeu vidéo Minecraft et un solide potentiel d’apprentissage contextuel à vie. Il peut trouver 3,3 fois plus de biens rares, voyager 2,3 fois plus loin et atteindre des jalons cruciaux dans l’arbre technologique jusqu’à 15,3 fois plus rapidement que le SOTA précédent. Alors que d’autres méthodes ne parviennent pas à se généraliser, Voyager peut appliquer la bibliothèque de compétences apprises dans un nouvel environnement Minecraft pour relever de nouveaux défis à partir de zéro.
Les talents de Voyager se développent rapidement grâce à la synthèse compositionnelle de compétences complexes, qui empêche l’oubli catastrophique qui afflige d’autres formes d’apprentissage continu. Les progrès d’exploration de Voyager et l’état actuel de l’agent sont pris en compte dans le programme automatique, qui propose des tâches de plus en plus difficiles à résoudre pour Voyager. Avec « découvrir autant de choses différentes que possible » comme objectif primordial, GPT-4 crée le plan du cours. Cette stratégie peut être interprétée comme une recherche de nouveauté qui opère dans un certain contexte. La bibliothèque de compétences de Voyager est construite au fil du temps à partir des programmes actifs qui contribuent à une résolution de tâche réussie. La description intégrée de chaque programme sert d’index qui peut être récupéré dans de futures instances analogues.
- Mais les LLM ont besoin d’aide pour développer le bon code d’action sur place et se trompent souvent. La communauté des chercheurs a proposé un système d’incitation itératif pour résoudre ce problème.
- Exécute le code créé pour collecter les données de la simulation Minecraft et une trace de pile des erreurs de compilation.
- GPT-4 intègre désormais les commentaires dans sa demande d’amélioration de la programmation.
- Itère jusqu’à ce qu’un vérificateur intégré certifie que la tâche est terminée lorsque le code est ajouté à la bibliothèque de compétences.
Le code et les étapes d’installation peuvent être trouvés sur GitHub ici https://github.com/MineDojo/Voyager
Limites et travaux futurs
- Restriction et prix du travail futur. Il y a des dépenses importantes liées à l’API GPT-4. Il en coûte 15 cents de plus que GPT-3.5. Cependant, l’amélioration quantique de GPT-4 dans la qualité de la génération de code est ce dont Voyager a besoin, et GPT-3.5 et les LLM open source ne peuvent pas le donner.
- Inexactitudes. Parfois, malgré les coups de coude itératifs de l’agent, l’agent reste bloqué et a besoin d’aide pour développer le bon talent. Il est possible que le module d’auto-vérification fonctionne mal, par exemple en n’interprétant pas une chaîne d’araignées comme la preuve d’une tentative réussie de destruction d’araignées. Le curriculum automatique peut réessayer ultérieurement en cas d’échec.
- Hallucinations. Il y a des moments où le programme automatique suggère des objectifs impossibles à atteindre. Même si le pavé ne peut pas être utilisé comme carburant dans le jeu, le GPT-4 le fait fréquemment. Par exemple, il peut demander à l’agent de créer une « épée en cuivre » ou une « plaque de poitrine en cuivre », qui n’existent pas dans le jeu. La création de code induit également des hallucinations. Cela peut également entraîner des problèmes d’exécution en essayant d’utiliser une fonction non prise en charge par les API pour les primitives de contrôle spécifiées.
Les chercheurs sont optimistes sur le fait que les futures mises à jour des modèles d’API GPT et des méthodes de pointe pour affiner les LLM open source élimineront ces inconvénients. Voyager peut être utilisé comme point de départ pour créer des agents généralistes efficaces sans affiner les paramètres du modèle. La capacité de Voyager à apprendre tout au long de la vie est impressionnante dans cette situation. Le système peut créer une bibliothèque en constante expansion de programmes d’action réutilisables, interprétables et généralisables pour effectuer des tâches individuelles. Voyager excelle dans la recherche de nouvelles ressources, la progression dans l’arbre technologique de Minecraft, l’exploration de nouveaux environnements et l’application de ses connaissances acquises à de nouvelles situations dans un monde fraîchement généré.
Vérifiez Papier, Lien Githubet Page du projet. N’oubliez pas de rejoindre notre sous-reddit 22k+ ML, Chaîne discorde, et Courriel, où nous partageons les Dernières nouvelles sur la recherche en IA, des projets d’IA sympas, et plus encore. Si vous avez des questions concernant l’article ci-dessus ou si nous avons manqué quelque chose, n’hésitez pas à nous envoyer un courriel à Asif@marktechpost.com
🚀 Découvrez les outils d’intelligence artificielle de 100 dans AI Tools Club
Dhanshree Shenwai est ingénieur en informatique et possède une bonne expérience dans les entreprises FinTech couvrant les domaines de la finance, des cartes et des paiements et de la banque avec un vif intérêt pour les applications de l’IA. Elle est enthousiaste à l’idée d’explorer les nouvelles technologies et les avancées dans le monde en évolution d’aujourd’hui, ce qui facilite la vie de chacun.