La dernière série de modèles de langage, comme GPT-4o et Gemini 1.5 Pro, sont présentés comme « multimodaux », capables de comprendre les images et l’audio ainsi que le texte – mais une nouvelle étude montre clairement qu’ils ne le font pas vraiment voir comme on pouvait s’y attendre. En fait, ils peuvent ne pas voir du tout.
Pour être clair dès le départ, personne n’a fait d’affirmations telles que « Cette IA peut voir comme les gens ! » (Eh bien… peut-être que certains l’ont fait.) Mais le marketing et les références utilisés pour promouvoir ces modèles utilisent des expressions telles que « capacités de vision », « compréhension visuelle », etc. Ils parlent de la façon dont le modèle voit et analyse les images et les vidéos, afin qu’il puisse faire n’importe quoi, des problèmes de devoirs à regarder le match pour vous.
Ainsi, bien que les affirmations de ces entreprises soient astucieusement formulées, il est clair qu’elles veulent exprimer ce que le modèle voit dans un certain sens du terme. Et c’est le cas, mais un peu de la même manière qu’il fait des mathématiques ou écrit des histoires : faire correspondre des modèles dans les données d’entrée à des modèles dans ses données d’entraînement. Cela conduit les modèles à échouer de la même manière qu’ils le font pour certaines autres tâches qui semblent triviales, comme le choix d’un nombre aléatoire.
Une étude — informelle à certains égards, mais systématique — de la compréhension visuelle des modèles d’IA actuels a été réalisée par des chercheurs de l’Université Auburn et de l’Université de l’Alberta. Ils ont posé aux plus grands modèles multimodaux une série de tâches visuelles très simples, comme demander si deux formes se chevauchent, ou combien de pentagones se trouvent dans une image, ou quelle lettre d’un mot est encerclée. (Une micropage récapitulative peut être consultée ici.)
C’est le genre de chose que même un élève de première année comprendrait, mais qui a donné beaucoup de difficulté aux modèles d’IA.
« Nos 7 tâches sont extrêmement simples, où les humains seraient exécutés avec une précision de 100 %. Nous nous attendons à ce que les IA fassent de même, mais ce n’est pas le cas actuellement », a écrit le co-auteur Anh Nguyen dans un e-mail à TechCrunch. « Notre message est le suivant : « Regardez, ces meilleurs modèles sont TOUJOURS en train d’échouer ». “
Prenez le test des formes superposées : l’une des tâches de raisonnement visuel les plus simples imaginables. Présentés avec deux cercles qui se chevauchent légèrement, se touchent simplement ou avec une certaine distance entre eux, les modèles ne pouvaient pas toujours faire les choses correctement. Bien sûr, GPT-4o a eu raison plus de 95 % du temps lorsqu’ils étaient éloignés l’un de l’autre, mais à zéro ou à de petites distances, il n’a réussi que 18 % du temps ! Gemini Pro 1.5 fait de son mieux, mais n’obtient toujours que 7/10 à courte distance.
(Les illustrations ne montrent pas les performances exactes des modèles, mais sont destinées à montrer l’incohérence des modèles dans toutes les conditions. Les statistiques de chaque modèle sont dans le document.)
Ou que diriez-vous de compter le nombre de cercles imbriqués dans une image ? Je parie qu’un cheval au-dessus de la moyenne pourrait le faire.
Ils ont tous raison 100% du temps quand il y a 5 anneaux – excellent travail IA visuelle ! Mais l’ajout d’un anneau dévaste complètement les résultats. Les Gémeaux sont perdus, incapables de bien faire les choses une seule fois. Sonnet-3.5 répond 6… un tiers du temps, et GPT-4o un peu moins de la moitié du temps. L’ajout d’une autre bague rend la tâche encore plus difficile, mais l’ajout d’une autre rend la tâche plus facile pour certains.
Le but de cette expérience est simplement de montrer que, quoi que fassent ces modèles, cela ne correspond pas vraiment à ce que nous pensons voir. Après tout, même s’ils voyaient mal, nous ne nous attendrions pas à ce que les images à 6, 7, 8 et 9 anneaux varient autant en termes de succès.
Les autres tâches testées ont montré des schémas similaires : ce n’était pas qu’ils voyaient ou raisonnaient bien ou mal, mais il semblait y avoir une autre raison pour laquelle ils étaient capables de compter dans un cas mais pas dans un autre.
Une réponse potentielle, bien sûr, nous regarde droit dans les yeux : pourquoi devraient-ils être si bons pour obtenir une image correcte à 5 cercles, mais échouer si lamentablement sur le reste, ou quand il s’agit de 5 pentagones ? (Pour être juste, Sonnet-3.5 s’en est plutôt bien sorti.) Parce qu’ils ont tous une image à 5 cercles qui figure en bonne place dans leurs données d’entraînement : les anneaux olympiques.
Ce logo n’est pas simplement répété encore et encore dans les données d’entraînement, mais il est probablement décrit en détail dans le texte alternatif, les directives d’utilisation et les articles à ce sujet. Mais où dans leurs données d’entraînement trouvez-vous 6 anneaux imbriqués, ou 7 ? Si leurs réponses sont une indication… nulle part! Ils n’ont aucune idée de ce qu’ils « regardent », et aucune compréhension visuelle réelle de ce que sont les anneaux, les chevauchements ou l’un de ces concepts.
J’ai demandé ce que les chercheurs pensaient de cet « aveuglement » dont ils accusent les modèles. Comme d’autres termes que nous utilisons, il a une qualité anthropomorphiqueCe n’est pas tout à fait exact mais difficile de s’en passer.
« Je suis d’accord, le terme « aveugle » a de nombreuses définitions, même pour les humains, et il n’y a pas encore de mot pour ce type d’aveuglement/insensibilité des IA aux images que nous montrons », a écrit Nguyen. « À l’heure actuelle, il n’existe aucune technologie permettant de visualiser exactement ce qu’un modèle voit. Et leur comportement est une fonction complexe de l’invite de texte d’entrée, de l’image d’entrée et de plusieurs milliards de poids.
Il a émis l’hypothèse que les modèles ne sont pas exactement aveugles, mais que les informations visuelles qu’ils extraient d’une image sont approximatives et abstraites, quelque chose comme « il y a un cercle sur le côté gauche ». Mais les modèles n’ont aucun moyen de porter des jugements visuels, faisant leurs réponses comme celles de quelqu’un qui est informé sur une image mais ne peut pas la voir réellement.
Comme dernier exemple, Nguyen a envoyé ceci, qui soutient l’hypothèse ci-dessus :
Lorsqu’un cercle bleu et un cercle vert se chevauchent (comme la question incite le modèle à prendre pour un fait), il en résulte souvent une zone cyanée, comme dans un diagramme de Venn. Si quelqu’un vous posait cette question, vous ou n’importe quelle personne intelligente pourriez bien donner la même réponse, car c’est tout à fait plausible… si vous avez les yeux fermés ! Mais personne avec leurs yeux ouvrir répondrait de cette façon.
Tout cela signifie-t-il que ces modèles d’IA « visuels » sont inutiles ? Loin de là. Ne pas être capable de raisonner de manière élémentaire sur certaines images témoigne de leurs capacités fondamentales, mais pas de leurs capacités spécifiques. Chacun de ces modèles sera probablement très précis sur des choses comme les actions et les expressions humaines, les photos d’objets et de situations quotidiennes, etc. Et c’est bien ce qu’ils sont censés interpréter.
Si nous comptions sur le marketing des entreprises d’IA pour nous dire tout ce que ces modèles peuvent faire, nous penserions qu’elles ont une vision 20/20. Des recherches comme celle-ci sont nécessaires pour montrer que, quelle que soit la précision du modèle pour dire si une personne est assise, marche ou court, elle le fait sans « voir » dans le sens (si vous voulez) que nous avons tendance à vouloir dire.