De puissants modèles d’IA peuvent désormais être utilisés et interagis via des commandes de langage, ce qui les rend largement disponibles et adaptables. Stable Diffusion, qui transforme le langage naturel en image, et ChatGPT, qui peut répondre à des messages écrits en langage naturel et effectuer diverses tâches, sont des exemples de tels modèles. Alors que le coût de la formation de ces modèles peut aller de dizaines de milliers à des millions de dollars, il y a eu un développement tout aussi passionnant dans lequel de solides modèles de base open source, tels que LLaMA, peuvent être améliorés avec étonnamment peu de calculs et de données pour devenir des instructions. -suivant.
Des chercheurs de l’Université de Toronto et du Vector Institute for Artificial Intelligence étudient la viabilité d’une telle stratégie dans des domaines de prise de décision séquentielle dans cette recherche. Les données diverses pour la prise de décision séquentielle sont très coûteuses et n’ont souvent pas d’étiquette «d’instruction» facile à utiliser comme les légendes pour les images, contrairement aux domaines du texte et de l’image. Ils suggèrent de modifier les modèles de comportement génératif pré-entraînés à l’aide de données d’instruction, en s’appuyant sur les développements antérieurs dans les LLM adaptés aux instructions comme Alpaca. Deux modèles de base pour le célèbre jeu vidéo ouvert Minecraft ont été mis à disposition l’année dernière : MineCLIP, un modèle d’alignement de texte et de clips vidéo, et VPT, un modèle de comportement.
Cela a créé une opportunité fascinante d’étudier l’optimisation du suivi des instructions dans le domaine de prise de décision séquentielle de Minecraft. L’agent a une compréhension approfondie du monde Minecraft car VPT a été formé sur 70 000 heures de jeu Minecraft. Le modèle VPT peut cependant avoir le potentiel d’un comportement large et contrôlé s’il est affiné pour suivre les instructions, tout comme l’énorme potentiel des LLM a été débloqué en les alignant pour obéir aux instructions. Ils montrent spécifiquement dans leurs recherches comment affiner VPT pour obéir à des instructions textuelles à court horizon en utilisant seulement 60 $ de calcul et environ 2 000 segments de trajectoire étiquetés.
Leur méthodologie est influencée par unCLIP, qui a été utilisé pour développer le modèle texte-image bien connu DALLe 2. Ils décomposent le défi de concevoir un agent Minecraft qui suit les instructions dans un modèle VPT ajusté pour atteindre les objectifs visuels stockés dans le Espace latent MineCLIP et un modèle précédent qui convertit les instructions textuelles en incorporations visuelles MineCLIP. Ils utilisent des intégrations visuelles MineCLIP plutôt que des étiquettes d’instructions textuelles coûteuses pour affiner le VPT via le clonage comportemental avec des données auto-supervisées produites par un réétiquetage rétrospectif.
Ils combinent unCLIP avec un guidage sans classificateur pour développer leur agent, baptisé STEVE-1, qui dépasse considérablement la référence établie par Baker et al. pour un suivi de commande ouvert dans Minecraft à l’aide de contrôleurs de bas niveau (souris et clavier) et d’entrées de pixels bruts.
Voici leurs principales contributions :
• Ils développent STEVE-1, un agent Minecraft d’une grande précision tout en exécutant des commandes textuelles et visuelles ouvertes. Ils effectuent des analyses approfondies de leur agent, démontrant qu’il peut effectuer diverses tâches à court terme1 dans Minecraft. Ils démontrent qu’un chaînage rapide simple peut considérablement améliorer les performances des opérations à plus long horizon comme la construction et l’artisanat.
• Ils expliquent comment construire STEVE-1 avec seulement 60 $ de calcul, démontrant que le guidage sans CLIP et sans classificateur est crucial pour des performances efficaces dans la prise de décision séquentielle.
• Ils mettent à disposition les pondérations du modèle STEVE-1, les scripts d’évaluation et les scripts de formation pour encourager les futures études sur les agents de prise de décision séquentielle enseignables et ouverts.
Le site Web propose des démos vidéo de l’agent dans le jeu.
Vérifiez Papier, Code, et Page du projet. N’oubliez pas de rejoindre notre sous-reddit 23k+ ML, Chaîne discorde, et Courriel, où nous partageons les Dernières nouvelles sur la recherche en IA, des projets d’IA sympas, et plus encore. Si vous avez des questions concernant l’article ci-dessus ou si nous avons manqué quelque chose, n’hésitez pas à nous envoyer un courriel à Asif@marktechpost.com
🚀 Découvrez les outils d’intelligence artificielle de 100 dans AI Tools Club
Aneesh Tickoo est consultante stagiaire chez MarktechPost. Il poursuit actuellement ses études de premier cycle en science des données et en intelligence artificielle à l’Institut indien de technologie (IIT) de Bhilai. Il passe la plupart de son temps à travailler sur des projets visant à exploiter la puissance de l’apprentissage automatique. Son intérêt de recherche est le traitement d’images et est passionné par la construction de solutions autour de celui-ci. Il aime se connecter avec les gens et collaborer sur des projets intéressants.