À ce stade de la progression de l'IA basée sur l'apprentissage automatique, nous sommes habitués à des agents spécialement formés qui peuvent tout dominer, du Jeux Atari à des jeux de société complexes comme Aller. Mais et si un agent IA pouvait être formé non seulement pour jouer à un jeu spécifique, mais également pour interagir avec n’importe quel environnement 3D générique ? Et si cette IA se concentrait non seulement sur la victoire par force brute, mais plutôt sur la réponse aux commandes en langage naturel dans cet environnement de jeu ?
C'est le genre de questions qui animent le groupe de recherche DeepMind de Google dans la création LMSI, un « agent multimonde évolutif, instructable » qui « n'est pas formé pour gagner, il est formé pour faire ce qu'on lui dit », comme l'a dit l'ingénieur de recherche Tim Harley dans une présentation à laquelle assistait Ars Technica. « Et pas seulement dans un seul jeu, mais… dans une variété de jeux différents en même temps. »
Harley souligne que SIMA reste « essentiellement un projet de recherche » et que les résultats obtenus le rapport technique initial du projet montrent qu'il y a un long chemin à parcourir avant que SIMA commence à s'approcher des capacités d'écoute au niveau humain. Néanmoins, Harley a déclaré qu'il espère que SIMA pourra éventuellement fournir la base d'agents d'IA avec lesquels les joueurs pourront instruire et parler dans des situations de jeu coopératif – pensez moins à un « adversaire surhumain » et plus à un « partenaire crédible ».
« Ce travail n'a pas pour but d'atteindre des scores de jeu élevés », comme le dit Google. un article de blog annonçant ses recherches. « Apprendre à jouer ne serait-ce qu'à un seul jeu vidéo est une prouesse technique pour un système d'IA, mais apprendre à suivre des instructions dans divers paramètres de jeu pourrait débloquer des agents d'IA plus utiles pour n'importe quel environnement. »
Apprendre à apprendre
Pour former SIMA, l'équipe DeepMind s'est concentrée sur des jeux en trois dimensions et des environnements de test contrôlés soit à la première personne, soit à la troisième personne. Les neuf jeux de sa suite de tests, fournis par les partenaires développeurs de Google, donnent tous la priorité aux « interactions ouvertes » et évitent la « violence extrême » tout en offrant un large éventail d'environnements et d'interactions différents, de « l'exploration de l'espace extra-atmosphérique » à « l'exploration farfelue ». chaos de chèvres. » Dans le but de rendre SIMA aussi généralisable que possible, l'agent ne bénéficie d'aucun accès privilégié aux données internes d'un jeu ou aux API de contrôle. Le système ne prend rien d'autre que les pixels de l'écran en entrée et ne fournit rien d'autre que les commandes du clavier et de la souris en sortie, imitant « le [model] les humains ont utilisé [to play video games] depuis 50 ans », comme le disent les chercheurs. L'équipe a également conçu l'agent pour qu'il fonctionne avec des jeux exécutés en temps réel (c'est-à-dire à 30 images par seconde) plutôt que de ralentir la simulation pour un temps de traitement supplémentaire. comme certains autres projets interactifs d'apprentissage automatique.
Si ces restrictions augmentent la difficulté des tâches du SIMA, elles signifient également que l'agent peut être intégré dans un nouveau jeu ou un nouvel environnement « prêt à l'emploi » avec une configuration minimale et sans aucune formation spécifique concernant la « vérité terrain » d'un monde de jeu. Cela permet également de tester relativement facilement si les choses que SIMA a apprises lors de la formation sur les jeux précédents peuvent être « transférées » vers des jeux inédits, ce qui pourrait être une étape clé pour accéder à l'intelligence artificielle générale.
Pour les données d'entraînement, SIMA utilise une vidéo de jeu humain (et les entrées codées en temps associées) sur les jeux fournis, annotée avec des descriptions en langage naturel de ce qui se passe dans les images. Ces clips se concentrent sur « des instructions qui peuvent être exécutées en moins de 10 secondes environ » pour éviter la complexité qui peut se développer avec « l'étendue des instructions possibles sur de longues périodes », comme l'expliquent les chercheurs dans leur rapport technique. L'intégration avec des modèles pré-entraînés tels que SPARC et Phenaki permet également au modèle SIMA d'éviter d'avoir à apprendre à interpréter le langage et les données visuelles à partir de zéro.