Accueil Tech today Facebook publie un outil de développement de l'IA basé sur NetHack
Facebook publie un outil de développement de l'IA basé sur NetHack

Facebook publie un outil de développement de l'IA basé sur NetHack

Les chercheurs de Facebook pensent que le jeu NetHack est bien adapté à la formation, au test et à l’évaluation des modèles d’IA. Aujourd’hui, ils ont publié le NetHack Learning Environment, un outil de recherche pour évaluer la robustesse et la généralisation des agents d’apprentissage par renforcement.

Pendant des décennies, les jeux ont servi de référence pour l’IA. Mais les choses ont vraiment commencé en 2013 – l’année où la filiale de Google, DeepMind, a démontré un système d’intelligence artificielle qui pouvait jouer Pong, Breakout, Space Invaders, Seaquest, Beamrider, Enduro et Q bert à des niveaux surhumains. Selon le cofondateur de DeepMind, Demis Hassabis, les avancées ne se limitent pas à améliorer la conception du jeu. Ils informent plutôt le développement de systèmes qui pourraient un jour diagnostiquer des maladies, prédire des structures protéiques compliquées et segment CT scans .

NetHack, qui a été publié pour la première fois en 1987, est plus sophistiqué qu’on ne pourrait le supposer. Il demande aux joueurs de descendre plus de 50 niveaux de donjon pour récupérer une amulette magique, au cours de laquelle ils doivent utiliser des centaines d’objets et combattre des monstres tout en affrontant de riches interactions entre les deux. Les niveaux dans NetHack sont générés de manière procédurale et chaque jeu est différent, ce qui, selon les chercheurs de Facebook, teste les limites de généralisation de l’intelligence artificielle actuelle.

Facebook Nethack Learning Environment

NetHack a un autre avantage dans son architecture légère. Un monde de l’art ASCII au tour par tour et un moteur de jeu écrit principalement en C saisit sa complexité. Il renonce à la physique sauf la plus simple tout en rendant les symboles au lieu des pixels, ce qui est important, permettant aux modèles d’apprendre rapidement sans gaspiller les ressources de calcul pour simuler la dynamique ou rendre les observations.

Publicité

En effet, la formation de modèles sophistiqués d’apprentissage automatique dans le cloud reste d’un coût prohibitif. Selon un récent rapport synchronisé , l’Université de Washington à Grover, qui est conçu pour la génération et la détection de faux nouvelles, a coûté 25 000 $ pour s’entraîner en deux semaines. OpenAI a accumulé 256 $ par heure pour former son modèle de langage GPT-2 , et Google a dépensé environ 6 912 $ en formation BERT , un modèle de transformateur bidirectionnel qui a redéfini l’état de l’art pour 11 tâches de traitement du langage naturel.

En revanche, une seule carte graphique haut de gamme suffit pour former des agents NetHack pilotés par l’IA à des centaines de millions d’étapes par jour à l’aide du cadre TorchBeast, qui prend en charge la mise à l’échelle supplémentaire en ajoutant plus de cartes graphiques ou de machines . Les agents peuvent même subir des milliards d’étapes dans l’environnement dans un délai raisonnable tout en continuant à défier les limites de ce que les techniques d’IA actuelles peuvent réaliser.

Facebook Nethack Learning Environment

«NetHack présente un défi à la frontière des méthodes actuelles, sans les coûts de calcul d’autres environnements de simulation difficiles. Les agents standard profonds [reinforcement learning] fonctionnant actuellement sur NetHack n’explorent qu’une fraction du jeu global de NetHack », ont écrit les chercheurs de Facebook dans un papier préimprimé publié cette semaine . «Pour progresser dans ce nouvel environnement difficile, [reinforcement learning] les agents devront dépasser l’apprentissage de la tabula rasa.»

L’environnement d’apprentissage NetHack se compose de trois composants: une interface Python vers NetHack utilisant l’API OpenAI Gym populaire, une suite de tâches de référence et un agent de base. Au-delà de cela, il comprend sept tâches de référence conçues pour mesurer les progrès des agents, en particulier:

  • Escalier: descendre aux niveaux inférieurs de le donjon
  • Ensemble: Prenez soin de votre animal de compagnie (gardez-le en vie et emmenez-le plus profondément dans le donjon)
  • Manger: trouver des sources de nourriture non toxique et la manger, pour éviter de mourir de faim
  • Or: Collectez de l’or dans tout le donjon
  • Scout: Voir autant de donjon que possible
  • Score: Atteignez un score élevé dans le jeu (par exemple, tuer des monstres, descendre, collecter de l’or)
  • Oracle: Atteignez un point de repère important, l’Oracle (apparaît 4-9 niveaux dans le donjon)

Les co-auteurs notent que NetHack contient un grand corps de ressources externes, dont ils s’attendent à être utilisé pour améliorer les performances des agents. Par exemple, il existe des référentiels de données de rejeu de joueurs humains à partir desquels un modèle pourrait apprendre directement, ainsi que des ressources comme l’officiel NetHack Guidebook , le Wiki NetHack

, et des vidéos en ligne et des discussions de forum.

«Nous pensons que l’environnement d’apprentissage NetHack inspirera de nouvelles recherches sur des stratégies d’exploration robustes en [reinforcement learning], la planification avec des horizons à long terme et le transfert de connaissances de bon sens à partir de ressources en dehors de la simulation», les chercheurs a écrit. «[It] fournit… aux agents une vaste expérience à apprendre afin que nous, en tant que chercheurs, puissions passer plus de temps à tester de nouvelles idées au lieu d’attendre les résultats. En outre, nous pensons que cela démocratise l’accès des chercheurs à davantage de ressources. des laboratoires contraints sans sacrifier la difficulté et la richesse de l’environnement. »

Lire la suite

Rate this post
Publicité
Article précédentCyberpunk 2077 ajoute plus de fonctionnalités de lancer de rayons pour les cartes graphiques RTX
Article suivantLe SlothBot est un robot d'observation écoénergétique à mouvement lent
Avatar
Violette Laurent est une blogueuse tech nantaise diplômée en communication de masse et douée pour l'écriture. Elle est la rédactrice en chef de fr.techtribune.net. Les sujets de prédilection de Violette sont la technologie et la cryptographie. Elle est également une grande fan d'Anime et de Manga.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici