La première grande conquête de l’intelligence artificielle a été les échecs. Le jeu a un nombre vertigineux de combinaisons possibles, mais il était relativement traitable car il était structuré par un ensemble de règles claires. Un algorithme pourrait toujours avoir une connaissance parfaite de l’état du jeu et connaître tous les mouvements possibles que lui-même et son adversaire pourraient faire. L’état du jeu pourrait être évalué simplement en regardant le plateau.
Mais de nombreux autres jeux ne sont pas aussi simples. Si vous prenez quelque chose comme Pac-Man, puis déterminer le mouvement idéal impliquerait de considérer la forme du labyrinthe, l’emplacement des fantômes, l’emplacement de toutes les zones supplémentaires à effacer, la disponibilité des power-ups, etc., et le meilleur plan peut se terminer en catastrophe si Blinky ou Clyde fait un geste inattendu. Nous avons développé des IA capables de s’attaquer à ces jeux également, mais elles ont dû adopter une approche très différente de celles qui ont conquis les échecs et le Go.
Du moins jusqu’à maintenant. Aujourd’hui, cependant, la division DeepMind de Google a publié un article décrivant la structure d’une IA capable de s’attaquer à la fois aux échecs et aux classiques d’Atari.
Renforcer les arbres
Les algorithmes qui ont travaillé sur des jeux comme les échecs et le go font leur planification en utilisant une approche arborescente, dans laquelle ils regardent simplement toutes les branches qui découlent de différentes actions dans le présent. Cette approche est coûteuse en calcul, et les algorithmes reposent sur la connaissance des règles du jeu, ce qui leur permet de projeter l’état actuel du jeu dans les futurs états possibles du jeu.
D’autres jeux ont nécessité des algorithmes qui ne se soucient pas vraiment de l’état du jeu. Au lieu de cela, les algorithmes évaluent simplement ce qu’ils «voient» – typiquement, quelque chose comme la position des pixels sur un écran pour un jeu d’arcade – et choisissent une action basée sur cela. Il n’y a pas de modèle interne de l’état du jeu et le processus d’entraînement consiste en grande partie à déterminer quelle réponse est appropriée compte tenu de cette information. Il y a eu quelques tentatives pour modéliser un état de jeu sur la base d’entrées telles que les informations de pixel, mais elles n’ont pas été aussi efficaces que les algorithmes réussis qui répondent simplement à ce qui est à l’écran.
Le nouveau système, que DeepMind appelle MuZero, est basé en partie sur le travail de DeepMind avec le AlphaZero L’IA, qui a appris à maîtriser les jeux basés sur des règles comme les échecs et le go. Mais MuZero ajoute également une nouvelle tournure qui le rend nettement plus flexible.
Cette torsion est appelée «apprentissage par renforcement basé sur un modèle». Dans un système qui utilise cette approche, le logiciel utilise ce qu’il peut voir d’un jeu pour construire un modèle interne de l’état du jeu. De manière critique, cet état n’est pas pré-structuré en fonction d’une quelconque compréhension du jeu – l’IA est capable d’avoir beaucoup de flexibilité concernant les informations qui y sont ou ne sont pas incluses. La partie apprentissage par renforcement des choses fait référence au processus de formation, qui permet à l’IA d’apprendre à reconnaître quand le modèle qu’elle utilise est à la fois précis et contient les informations dont elle a besoin pour prendre des décisions.
Prédictions
Le modèle qu’il crée est utilisé pour faire un certain nombre de prédictions. Ceux-ci incluent le meilleur coup possible compte tenu de l’état actuel et de l’état du jeu à la suite du coup. De manière critique, la prédiction qu’il fait est basée sur son modèle interne des états de jeu – pas sur la représentation visuelle réelle du jeu, comme l’emplacement des pièces d’échecs. La prédiction elle-même est basée sur l’expérience passée, qui est également sujette à une formation.
Enfin, la valeur du coup est évaluée en utilisant les prédictions des algorithmes de toutes les récompenses immédiates obtenues de ce coup (la valeur en points d’une pièce prise aux échecs, par exemple) et de l’état final du jeu, comme le résultat gagnant ou perdant. d’échecs. Celles-ci peuvent impliquer les mêmes recherches d’arbres d’états de jeu potentiels effectuées par des algorithmes d’échecs antérieurs, mais dans ce cas, les arbres sont constitués des propres modèles de jeu internes de l’IA.
Si cela prête à confusion, vous pouvez également y penser de cette façon: MuZero exécute trois évaluations en parallèle. L’un (le processus politique) choisit le coup suivant en fonction du modèle actuel de l’état du jeu. Un second prédit le nouvel état qui en résulte et les récompenses immédiates de la différence. Et un troisième considère l’expérience passée pour éclairer la décision politique. Chacun d’entre eux est le produit d’un entraînement, qui vise à minimiser les erreurs entre ces prédictions et ce qui se passe réellement dans le jeu.
Top ça!
De toute évidence, les gens de DeepMind n’auraient pas d’article dans Nature si cela ne fonctionnait pas. MuZero a pris un peu moins d’un million de parties contre son prédécesseur AlphaZero afin d’atteindre un niveau de performance similaire aux échecs ou au shogi. Pour Go, il a dépassé AlphaZero après seulement un demi-million de jeux. Dans ces trois cas, MuZero peut être considéré comme bien supérieur à n’importe quel joueur humain.
Mais MuZero a également excellé dans un panel de jeux Atari, ce qui nécessitait auparavant une approche d’IA complètement différente. Comparé au meilleur algorithme précédent, qui n’utilise pas du tout de modèle interne, MuZero avait un score moyen et médian plus élevé dans 42 des 57 jeux testés. Ainsi, bien qu’il y ait encore des circonstances dans lesquelles elle est à la traîne, elle rend désormais l’IA basée sur un modèle compétitive dans ces jeux, tout en conservant sa capacité à gérer des jeux basés sur des règles comme les échecs et Go.
Dans l’ensemble, il s’agit d’une réalisation impressionnante et d’une indication de la sophistication croissante des IA. Il y a quelques années, former des IA à une seule tâche, comme reconnaître un chat sur des photos, était un accomplissement. Mais maintenant, nous pouvons entraîner plusieurs aspects d’une IA en même temps – ici, l’algorithme qui a créé le modèle, celui qui a choisi le mouvement et celui qui a prédit les récompenses futures ont tous été entraînés simultanément.
C’est en partie le produit de la disponibilité d’une plus grande puissance de traitement, qui permet de jouer à des millions de parties d’échecs. Mais en partie, c’est une reconnaissance que c’est ce que nous devons faire si une IA veut un jour être suffisamment flexible pour maîtriser plusieurs tâches liées à distance.
Nature, 2020. DOI: 10.1038 / s41586-020-03051-4 (À propos des DOI).
Image de liste par Richard Heaven / Flickr