Accueil Jeux Vidéos Minecraft L’agent IA multitâche en monde ouvert JARVIS-1 se déchaîne dans Minecraft

L’agent IA multitâche en monde ouvert JARVIS-1 se déchaîne dans Minecraft

Par

novembre 16, 2023

Dernière mise à jour le 16 novembre 2023

JARVIS-1 est un projet d’intelligence artificielle repoussant les limites des LLM. Conçu par des étudiants chercheurs de diverses universités, cet agent multitâche en monde ouvert nous donne à tous un aperçu du libre arbitre, à travers le jeu vidéo préféré au monde, Minecraft. Capable de choisir sa propre voie et d’effectuer ses propres tâches, comment un modèle de langage multimodal interagirait-il avec un monde de règles et de systèmes complexes pas trop différents du nôtre ?

Table des matières hide

1 Qu’est-ce que Jarvis-1 ?

1.1 Qu’est-ce qu’un modèle de langage multimodal ?

1.1.1 Outils d’IA essentiels

2 Comment Minecraft ouvre la voie à un agent IA multitâche en monde ouvert

Qu’est-ce que Jarvis-1 ?

JARVIS-1 est un agent multitâche ouvert, essentiellement ce qui se rapproche le plus du libre arbitre à l’intérieur de votre ordinateur. Laissé à lui-même, il décidera quelles tâches sont nécessaires pour atteindre un objectif fixé et exécutera ces tâches dans les limites d’un ensemble de règles. Dans ce cas, ces règles sont celles de Minecraft.

Il utilise des modèles de langage multimodal à mémoire augmentée, une technologie extrêmement avancée mais fondamentalement similaire au modèle ChatGPT d’OpenAI, GPT-4. C’est passionnant car, semble-t-il, c’est tout ce dont un agent d’IA a besoin pour effectuer plus de 200 tâches variables et complexes avec une précision « parfaite ». L’une de ces tâches consiste à demander à l’agent IA de «youtube.com/watch?v=zmBJUzYFRTQ » target= »_blank » rel= »noreferrer noopener »>faire cuire le poulet», bien qu’ils ne reçoivent pas de poulet cru, ni le four et le combustible nécessaires à sa cuisson.

Qu’est-ce qu’un modèle de langage multimodal ?

Pour expliquer comment nous en sommes arrivés là, technologiquement, nous pouvons suivre les propres progrès d’OpenAI avec sa technologie propriétaire de modèle de langage. GPT-4 était en grande partie le même mais meilleur, itérant sur GPT-3 avec un ensemble de données plus grand, des informations plus récentes, un nombre de paramètres plus élevé, etc. – mais en fin de compte toujours et un LLM, ou un grand modèle de langage.

Alors, GPT-4V sortit de. Ce nouveau réseau de neurones était un VLM, ou Visual Language Model. Désormais, il pourrait répondre aux entrées visuelles et les interpréter avec vision par ordinateur. Il pourrait vous indiquer combien de pommes ou d’oranges se trouvaient sur une photo d’une corbeille de fruits, par exemple.

À peu près au même moment où ChatGPT a vu la fonctionnalité de saisie d’image (pour ainsi dire), il a également reçu une capacité de sortie d’image grâce à l’intégration DALL-E 3. Tout cela montre comment la multimodalité se construit naturellement au fil du temps, évoluant du LLM au MLM (le bon genre ?).

Outils d’IA essentiels

URL personnalisée

Seulement 0,00015 $ par mot !

Winston AI : le détecteur d’IA le plus fiable. Winston AI est l’outil de détection de contenu d’IA leader du secteur pour aider à vérifier le contenu d’IA généré avec ChatGPT, GPT-4, Bard, Bing Chat, Claude et bien d’autres LLM.

URL personnalisée

Seulement 0,01 $ pour 100 mots

Originality.AI est la détection d’IA la plus précise. Sur un ensemble de données de test de 1 200 échantillons de données, elle a atteint une précision de 96 % alors que son concurrent le plus proche atteint seulement 35%. Extension chrome utile. Détecte dans les e-mails, google Docs et les sites Web.

URL personnalisée

AFFAIRE EXCLUSIVE 10 000 crédits bonus gratuits

Du contenu IA sur la marque partout où vous créez. Plus de 100 000 clients créant du vrai contenu avec Jasper. Un outil d’IA, tous les meilleurs modèles.

URL personnalisée

ESSAYER GRATUITEMENT

10x votre production de contenu avec l’IA. Caractéristiques clés – Pas de contenu en double, contrôle total, dans le vérificateur de contenu AI intégré. Essai gratuit disponible.

URL personnalisée

ESSAYER GRATUITEMENT

Découvrez toute la puissance d’un générateur de contenu IA qui fournit des résultats premium en quelques secondes. 8 millions d’utilisateurs aiment écrire des blogs 10 fois plus rapidement, en créant sans effort une conversion plus élevée des publications sur les réseaux sociaux ou la rédaction d’e-mails plus attrayants. Inscrivez-vous pour un essai gratuit.

Comment Minecraft ouvre la voie à un agent IA multitâche en monde ouvert

Dans le document de recherche publié le 10 novembre par le doctorant Zihao Wang et ses pairs, la complexité de cet agent d’IA est quelque peu décomposée. « Parvenir à une planification et à un contrôle de type humain avec des observations multimodales dans un monde ouvert est une étape clé pour des agents généralistes plus fonctionnels. Les approches existantes peuvent gérer certaines tâches à long terme dans un monde ouvert. Cependant, ils ont encore du mal alors que le nombre de tâches en monde ouvert pourrait potentiellement être infini et n’ont pas la capacité d’améliorer progressivement l’achèvement des tâches à mesure que le temps de jeu avance », explique Wang.

L’équipe qui étudie ce projet comprend Wang lui-même, ainsi que Shaofei Cai, Anji Liu, Yonggang Jin, Jinbing Hou, Bowei Zhang, Haowei Lin, Zhaofeng He, Zilong Zheng, Yaodong Yang, Xiaojian Ma et Yitao Liang. Ensemble, ils « présentent JARVIS-1, un agent du monde ouvert capable de percevoir les entrées multimodales (observations visuelles et instructions humaines), de générer des plans sophistiqués et d’effectuer un contrôle incarné, le tout dans l’univers populaire mais stimulant du monde ouvert de Minecraft. Plus précisément, nous développons JARVIS-1 sur des modèles de langage multimodal pré-entraînés, qui mappent les observations visuelles et les instructions textuelles aux plans. Les plans seront finalement envoyés aux contrôleurs conditionnés par les objectifs.

Revenant à la multimodalité expliquée plus haut, cet agent d’IA utilise « une mémoire multimodale, qui facilite la planification en utilisant à la fois les connaissances pré-entraînées et ses expériences réelles de survie en jeu ».

Dans nos expériences, JARVIS-1 présente des performances presque parfaites dans plus de 200 tâches différentes du Minecraft Universe Benchmark, allant du niveau débutant au niveau intermédiaire.

Zihao Wang, « JARVIS-1 : agents multitâches en monde ouvert avec modèles de langage multimodal à mémoire augmentée »

Atteignant un taux d’achèvement de 12,5 % sur une tâche particulière connue sous le nom de « tâche de pioche en diamant à long horizon », Jarvis 1 a en fait réalisé des performances jusqu’à 5 fois supérieures aux records précédents. Cette réalisation démontre la capacité de l’intelligence artificielle à apprendre, à s’auto-améliorer et à améliorer continuellement cet apprentissage, indéfiniment. Malgré le caractère modeste d’un record de jeu vidéo battu, cela représente une étape impressionnante vers l’intelligence artificielle générale et une autonomie améliorée chez les hommes IA.