La plupart des benchmarks en IA ne nous disent pas grand-chose. Ils posent des questions qui peuvent être résolues par mémorisation par cœur ou abordent des sujets qui ne sont pas pertinents pour la majorité des utilisateurs.
Certains passionnés d’IA se tournent donc vers les jeux pour tester les capacités de résolution de problèmes des IA.
Paul Calcraft, un développeur indépendant d’IA, a créé une application dans laquelle deux modèles d’IA peuvent jouer ensemble à un jeu de type Pictionary. Un modèle griffonne, tandis que l’autre modèle essaie de deviner ce que représente le doodle.
« Je pensais que cela semblait super amusant et potentiellement intéressant du point de vue des capacités du modèle », a déclaré Calcraft à TechCrunch dans une interview. « Alors je me suis assis à l’intérieur par un samedi nuageux et j’ai réussi. »
Calcraft s’est inspiré d’un projet similaire du programmeur britannique Simon Willison qui chargeait les modèles de restituer un dessin vectoriel d’un pélican faisant du vélo. Willison, comme Calcraft, a choisi un défi qui, selon lui, obligerait les modèles à « penser » au-delà du contenu de leurs données d’entraînement.
« L’idée est d’avoir un benchmark impossible à jouer », a déclaré Calcraft. « Une référence qui ne peut être battue en mémorisant des réponses spécifiques ou des schémas simples qui ont déjà été observés lors d’un entraînement. »
Minecraft fait également partie de cette catégorie « impossible à jouer », du moins c’est ce que croit Adonis Singh, 16 ans. Il a créé un outilmc-bench, qui donne à un modèle le contrôle d’un personnage Minecraft et teste sa capacité à concevoir des structures, à l’instar de celle de Microsoft. Projet Malmö.
« Je pense que Minecraft teste l’ingéniosité des modèles et leur donne plus de liberté », a-t-il déclaré à TechCrunch. « Ce n’est pas aussi restreint et saturé que [other] des repères. »
Utiliser des jeux pour comparer l’IA n’a rien de nouveau. L’idée remonte à plusieurs décennies : mathématicien Claude Shannon a soutenu en 1949 que les jeux comme les échecs constituaient un défi digne d’intérêt pour les logiciels « intelligents ». Plus récemment, DeepMind d’Alphabet a développé un modèle qui pourrait jouer à Pong et Breakout ; OpenAI a formé une IA pour rivaliser Dota 2 allumettes; et Meta a conçu un algorithme qui pourrait tenir tête aux joueurs professionnels du Texas hold’em.
Mais ce qui est différent maintenant, c’est que les passionnés connectent de grands modèles de langage (LLM) – des modèles capables d’analyser du texte, des images, etc. – à des jeux pour tester leur niveau de logique.
Il existe une abondance de LLM, de google-gemini-ai/ »>Gémeaux et Claude à GPT-4oet ils ont tous des « vibrations » différentes pour ainsi dire. Ils « se sentent » différents d’une interaction à l’autre – un phénomène qui peut être difficile à quantifier.
« Les LLM sont connus pour être sensibles à la manière particulière dont les questions sont posées, et généralement peu fiables et difficiles à prédire », a déclaré Calcraft.
Contrairement aux références textuelles, les jeux offrent un moyen visuel et intuitif de comparer les performances et le comportement d’un modèle, a déclaré Matthew Guzdial, chercheur en IA et professeur à l’Université de l’Alberta.
« Nous pouvons considérer chaque référence comme nous donnant une simplification différente de la réalité, centrée sur des types particuliers de problèmes, comme le raisonnement ou la communication », a-t-il déclaré. « Les jeux ne sont qu’un autre moyen de prendre des décisions avec l’IA, donc les gens les utilisent comme n’importe quelle autre approche. »
Ceux qui connaissent l’histoire de l’IA générative remarqueront à quel point Pictionary est similaire aux réseaux contradictoires génératifs (GAN), dans lesquels un modèle créateur envoie des images à un modèle discriminateur qui les évalue ensuite.
Calcraft estime que Pictionary peut capturer la capacité d’un LLM à comprendre des concepts tels que les formes, les couleurs et les prépositions (par exemple, la signification de « dans » par rapport à « sur »). Il n’irait pas jusqu’à dire que le jeu est un test de raisonnement fiable, mais il a soutenu que gagner nécessite de la stratégie et la capacité de comprendre des indices – deux modèles qui ne sont pas faciles à comprendre.
« J’aime aussi beaucoup la nature presque contradictoire du jeu Pictionary, similaire aux GAN, où vous avez deux rôles différents : l’un dessine et l’autre devine », a-t-il déclaré. « Le meilleur dessin n’est pas le plus artistique, mais celui qui peut transmettre le plus clairement l’idée au public des autres LLM (y compris aux modèles plus rapides et beaucoup moins performants !). »
« Pictionary est un problème de jouet qui n’est pas immédiatement pratique ou réaliste », a prévenu Calcraft. « Cela dit, je pense que la compréhension spatiale et la multimodalité sont des éléments essentiels pour l’avancement de l’IA, donc LLM Pictionary pourrait être une petite et première étape dans ce voyage. »
Singh pense que Minecraft est également une référence utile et peut mesurer le raisonnement dans les LLM. « D’après les modèles que j’ai testés jusqu’à présent, les résultats correspondent parfaitement à la confiance que je porte au modèle pour quelque chose lié au raisonnement », a-t-il déclaré.
D’autres n’en sont pas si sûrs.
Mike Cook, chercheur à l’Université Queen Mary spécialisé en IA, ne pense pas que Minecraft soit particulièrement spécial en tant que banc d’essai pour l’IA.
« Je pense qu’une partie de la fascination pour Minecraft vient de personnes extérieures à la sphère des jeux qui pensent peut-être que, parce qu’il ressemble au » monde réel « , il a un lien plus étroit avec le raisonnement ou l’action du monde réel », a déclaré Cook à TechCrunch. « Du point de vue de la résolution de problèmes, ce n’est pas si différent d’un jeu vidéo comme Fortnite, Stardew Valley ou World of Warcraft. Il y a juste un habillage différent sur le dessus qui le fait ressembler davantage à un ensemble de tâches quotidiennes comme construire des choses ou explorer.
Selon Cook, même les meilleurs systèmes d’IA de jeu ne s’adaptent généralement pas bien aux nouveaux environnements et ne peuvent pas facilement résoudre des problèmes qu’ils n’ont jamais rencontrés auparavant. Par exemple, il est peu probable qu’un modèle qui excelle dans Minecraft puisse jouer à Doom avec de réelles compétences.
« Je pense que les bonnes qualités de Minecraft du point de vue de l’IA sont des signaux de récompense extrêmement faibles et un monde procédural, ce qui signifie des défis imprévisibles », a poursuivi Cook. « Mais ce n’est pas vraiment plus représentatif du monde réel que n’importe quel autre jeu vidéo. »
Cela étant, il y a certainement quelque chose de fascinant à regarder Les LLM construisent des châteaux.
TechCrunch propose une newsletter axée sur l’IA ! Inscrivez-vous ici pour le recevoir dans votre boîte de réception tous les mercredis.