David Silver, chef du groupe de recherche sur l’apprentissage par renforcement chez DeepMind, se voit décerner un classement professionnel honorifique de « neuvième dan » pour AlphaGo.
JUNG YEON-JE | AFP | Getty Images
Les informaticiens se demandent si DeepMind, le AlphabetUne entreprise britannique appartenant à de nombreuses personnes qui est largement considérée comme l’un des premiers laboratoires d’IA au monde, sera un jour capable de fabriquer des machines avec le type d’intelligence « générale » observée chez les humains et les animaux.
Dans sa quête d’intelligence artificielle générale, parfois appelée IA au niveau humain, DeepMind concentre une partie de ses efforts sur une approche appelée « apprentissage par renforcement ».
Cela implique de programmer une IA pour effectuer certaines actions afin de maximiser ses chances de gagner une récompense dans une certaine situation. En d’autres termes, l’algorithme « apprend » à accomplir une tâche en recherchant ces récompenses préprogrammées. La technique a été utilisée avec succès pour entraîner des modèles d’IA à jouer (et à exceller) à des jeux comme le go et les échecs. Mais ils restent relativement muets, ou « étroits ». Le célèbre AlphaGo AI de DeepMind ne peut pas dessiner un stickman ou faire la différence entre un chat et un lapin, par exemple, alors qu’un enfant de sept ans peut le faire.
Malgré cela, DeepMind, qui a été racheté par Google en 2014 pour environ 600 millions de dollars, estime que les systèmes d’IA reposant sur l’apprentissage par renforcement pourraient théoriquement se développer et apprendre tellement qu’ils brisent la barrière théorique de l’AGI sans aucun nouveau développement technologique.
Les chercheurs de l’entreprise, qui compte aujourd’hui environ 1 000 personnes sous la propriété d’Alphabet, ont soutenu dans un document soumis à la revue à comité de lecture sur l’intelligence artificielle le mois dernier que « La récompense est suffisante » pour atteindre l’IA générale. Le papier était signalé pour la première fois par VentureBeat La semaine dernière.
Dans l’article, les chercheurs affirment que si vous continuez à « récompenser » un algorithme chaque fois qu’il fait quelque chose que vous voulez, ce qui est l’essence de l’apprentissage par renforcement, alors il finira par montrer des signes d’intelligence générale.
« La récompense est suffisante pour conduire un comportement qui présente des capacités étudiées en intelligence naturelle et artificielle, y compris la connaissance, l’apprentissage, la perception, l’intelligence sociale, le langage, la généralisation et l’imitation », écrivent les auteurs.
« Nous suggérons que les agents qui apprennent par l’expérience d’essais et d’erreurs pour maximiser la récompense pourraient apprendre un comportement qui présente la plupart sinon toutes ces capacités, et donc que de puissants agents d’apprentissage par renforcement pourraient constituer une solution à l’intelligence artificielle générale. »
Cependant, tout le monde n’est pas convaincu.
Samim Winiger, un chercheur en IA à Berlin, a déclaré à CNBC que le point de vue de DeepMind « la récompense suffit » est une « position philosophique quelque peu marginale, présentée à tort comme une science dure ».
Il a déclaré que le chemin vers l’IA générale est complexe et que la communauté scientifique est consciente qu’il existe d’innombrables défis et inconnues connues qui « inculquent à juste titre un sentiment d’humilité » à la plupart des chercheurs dans le domaine et les empêchent de faire des « déclarations grandioses et totalitaires ». comme « RL est la réponse finale, tout ce dont vous avez besoin est une récompense. »
DeepMind a déclaré à CNBC que bien que l’apprentissage par renforcement ait été à l’origine de certaines de ses avancées de recherche les plus connues, la technique de l’IA ne représente qu’une fraction de la recherche globale qu’elle effectue. La société a déclaré qu’elle pensait qu’il était important de comprendre les choses à un niveau plus fondamental, c’est pourquoi elle poursuit d’autres domaines tels que « l’IA symbolique » et « la formation basée sur la population ».
« À la manière un peu typique de DeepMind, ils ont choisi de faire des déclarations audacieuses qui attirent l’attention à tout prix, plutôt qu’une approche plus nuancée », a déclaré Winiger. « C’est plus proche de la politique que de la science. »
Stephen Merity, un chercheur indépendant en IA, a déclaré à CNBC qu’il y avait « une différence entre la théorie et la pratique ». Il a également noté qu' »une pile de dynamite est probablement suffisante pour en amener une sur la lune, mais ce n’est pas vraiment pratique ».
En fin de compte, il n’y a aucune preuve pour dire si l’apprentissage par renforcement conduira un jour à l’IAG.
Rodolfo Rosini, un investisseur technologique et entrepreneur spécialisé dans l’IA, a déclaré à CNBC: « La vérité est que personne ne le sait et que le principal produit de DeepMind continue d’être les relations publiques et non l’innovation ou les produits techniques. »
L’entrepreneur William Tunstall-Pedoe, qui a vendu son application de type Siri Evi à Amazone, a déclaré à CNBC que même si les chercheurs ont raison « cela ne signifie pas que nous y arriverons bientôt, ni qu’il n’y a pas de moyen meilleur et plus rapide pour y arriver ».
L’article « La récompense est suffisant » de DeepMind a été co-écrit par les poids lourds de DeepMind Richard Sutton et David Silver, qui ont rencontré le PDG de DeepMind Demis Hassabis à l’Université de Cambridge dans les années 1990.
« Le problème clé de la thèse avancée par ‘La récompense suffit’ n’est pas qu’elle est fausse, mais plutôt qu’elle ne peut pas être fausse, et donc ne satisfait pas Le célèbre critère de Karl Popper que toutes les hypothèses scientifiques soient falsifiables », a déclaré un chercheur senior en IA dans une grande entreprise technologique américaine, qui a souhaité rester anonyme en raison de la nature sensible de la discussion.
« Parce que Silver et al. parlent de généralités et que la notion de récompense est suffisamment sous-spécifiée, vous pouvez toujours choisir des cas où l’hypothèse est satisfaite, ou la notion de récompense peut être déplacée de manière à ce qu’elle soit satisfaite », a déclaré la source. ajoutée.
« En tant que tel, le verdict malheureux ici n’est pas que ces membres éminents de notre communauté de recherche se soient trompés de quelque manière que ce soit, mais plutôt que ce qui est écrit est trivial. conséquences exploitables de la reconnaissance de la vérité inaliénable de cette hypothèse, ce document était-il suffisant ? »
Qu’est-ce que l’AGI ?
Alors qu’AGI est souvent appelé le Saint Graal de la communauté de l’IA, il n’y a pas de consensus sur ce qu’est réellement AGI. Une définition est la capacité d’un agent intelligent à comprendre ou à apprendre n’importe quelle tâche intellectuelle qu’un être humain peut.
Mais tout le monde n’est pas d’accord avec cela et certains se demandent si AGI existera un jour. D’autres sont terrifiés par ses impacts potentiels et si AGI construirait ses propres formes d’IA, encore plus puissantes, ou ce qu’on appelle des superintelligences.
Ian Hogarth, un entrepreneur devenu investisseur providentiel, a déclaré à CNBC qu’il espérait que l’apprentissage par renforcement ne suffirait pas pour atteindre AGI. « Plus les techniques existantes peuvent évoluer pour atteindre l’AGI, moins nous avons de temps pour préparer les efforts de sécurité de l’IA et moins il y a de chances que les choses se passent bien pour notre espèce », a-t-il déclaré.
Winiger soutient que nous ne sommes pas plus proches d’AGI aujourd’hui qu’il y a plusieurs décennies. « La seule chose qui a fondamentalement changé depuis les années 1950/60, c’est que la science-fiction est désormais un outil valable pour les entreprises géantes pour semer la confusion et tromper le public, les journalistes et les actionnaires », a-t-il déclaré.
Alimenté par des centaines de millions de dollars d’Alphabet chaque année, DeepMind est en concurrence avec Facebook et OpenAI pour embaucher les personnes les plus brillantes dans le domaine alors qu’il cherche à développer AGI. « Cette invention pourrait aider la société à trouver des réponses à certains des défis scientifiques les plus urgents et fondamentaux du monde », écrit DeepMind sur son site Web.
La directrice de l’exploitation de DeepMind, Lila Ibrahim, a déclaré lundi qu’essayer de « comprendre comment opérationnaliser la vision » était le plus grand défi depuis qu’elle a rejoint l’entreprise en avril 2018.
.