Pourquoi est-ce important: Minecraft peut ne pas sembler être un outil important qui prend en charge la recherche avancée sur l’IA. Après tout, qu’est-ce qui pourrait être si important pour apprendre à une machine à jouer à un jeu bac à sable sorti il y a plus de dix ans ? Sur la base des efforts récents d’OpenAI, un bot Minecraft bien formé est plus pertinent pour l’avancement de l’IA que la plupart des gens ne le pensent.
OpenAI a toujours concentré sur l’intelligence artificielle (IA) et les progrès de l’apprentissage automatique qui profitent à l’humanité. Récemment, la société a formé avec succès un bot pour jouer à Minecraft en utilisant plus de 70 000 heures de vidéos de gameplay. La réalisation est bien plus qu’un simple bot jouant à un jeu. Il marque un pas de géant dans l’apprentissage automatique avancé utilisant l’observation et l’imitation.
Le bot d’OpenAI est un excellent exemple de apprentissage par imitation (aussi appelé « apprentissage supervisé ») en action. Contrairement à l’apprentissage par renforcement, où un agent d’apprentissage est récompensé après avoir atteint un objectif par essais et erreurs, l’apprentissage par imitation entraîne des réseaux de neurones à effectuer des tâches spécifiques en regardant les humains les accomplir. Dans ce cas, OpenAI à effet de levier des vidéos de gameplay et des didacticiels disponibles pour apprendre à leur robot à exécuter des séquences complexes dans le jeu qui demanderaient au joueur typique environ 24 000 actions individuelles à réaliser.
L’apprentissage par imitation nécessite que les entrées vidéo soient étiquetées pour fournir le contexte de l’action et le résultat observé. Malheureusement, cette approche peut être très laborieuse, ce qui se traduit par des ensembles de données disponibles limités. Cette pénurie d’ensembles de données disponibles limite finalement la capacité de l’agent à apprendre par l’observation.
Plutôt que de s’atteler à un vaste exercice de marquage manuel des données, l’équipe de recherche d’OpenAI a utilisé une approche spécifique, connue sous le nom de Pré-formation vidéo (VPT), pour augmenter considérablement le nombre de vidéos labellisées disponibles. Les chercheurs ont initialement capturé 2 000 heures de jeu Minecraft annoté et l’ont utilisé pour former un agent à associer des actions spécifiques à des résultats spécifiques à l’écran. Le modèle résultant a ensuite été utilisé pour générer automatiquement des étiquettes pour 70 000 heures de contenu Minecraft précédemment non étiqueté facilement disponible en ligne, fournissant au bot Minecraft un ensemble de données beaucoup plus important à examiner et à imiter.
L’ensemble de l’exercice prouve la valeur potentielle des référentiels vidéo disponibles, tels que YouTube, en tant que ressource de formation à l’IA. Les scientifiques de l’apprentissage automatique pourraient utiliser des vidéos disponibles et correctement étiquetées pour entraîner l’IA à effectuer des tâches spécifiques, allant de la simple navigation sur le Web à l’aide aux utilisateurs ayant des besoins physiques réels.