L'homme contre la machine dans une mer de pierres.
Agrandir / L'homme contre la machine dans une mer de pierres.

Getty Images

Dans l'ancien jeu chinois de Allerl'intelligence artificielle de pointe a généralement été capable de vaincre les meilleurs joueurs humains depuis au moins 2016Mais au cours des dernières années, les chercheurs ont découvert des failles dans ces IA de haut niveau Aller algorithmes que donner aux humains une chance de se battreEn utilisant des stratégies « cycliques » peu orthodoxes – que même un joueur humain débutant pourrait détecter et vaincre – un humain astucieux peut souvent exploiter les lacunes de la stratégie d'une IA de haut niveau et tromper l'algorithme et lui faire perdre.

Des chercheurs du MIT et IA FAR je voulais voir s'ils pouvaient améliorer ces performances du « pire des cas » dans des algorithmes d'IA Go par ailleurs « surhumains », en testant un trio de méthodes pour renforcer le niveau supérieur Algorithme KataGoLes résultats montrent que la création d'IA véritablement robustes et inexploitables peut s'avérer difficile, même dans des domaines aussi étroitement contrôlés que les jeux de société.

Trois stratégies qui ont échoué

Dans le document pré-imprimé « Peut Aller Les IA peuvent-elles être robustes face aux adversaires ?les chercheurs visent à créer un Aller Une IA véritablement « robuste » contre toutes les attaques. Cela signifie un algorithme qui ne peut pas être trompé et qui fait « des erreurs qui font perdre la partie et qu’un humain ne commettrait pas », mais qui obligerait également tout algorithme d’IA concurrent à dépenser des ressources informatiques importantes pour le vaincre. Idéalement, un algorithme robuste devrait également être capable de surmonter d’éventuels exploits en utilisant des ressources informatiques supplémentaires lorsqu’il est confronté à des situations inconnues.

Publicité
Un exemple de l’attaque cyclique originale en action.
Agrandir / Un exemple de l’attaque cyclique originale en action.

Les chercheurs ont essayé trois méthodes pour générer un modèle aussi robuste. Aller algorithme. Dans le premier cas, ils ont simplement peaufiné le modèle KataGo en utilisant davantage d'exemples de stratégies cycliques peu orthodoxes qui l'avaient précédemment vaincu, dans l'espoir que KataGo pourrait apprendre à détecter et à vaincre ces modèles après en avoir vu davantage.

Cette stratégie semblait au départ prometteuse, permettant à KataGo de remporter 100 % des parties contre un « attaquant » cyclique. Mais après que l'attaquant lui-même ait été affiné (un processus qui utilisait beaucoup moins de puissance de calcul que le réglage fin de KataGo), ce taux de victoire est retombé à 9 % contre une légère variation par rapport à l'attaque originale.

Pour leur deuxième tentative de défense, les chercheurs ont répété une « course aux armements » à plusieurs tours, au cours de laquelle de nouveaux modèles antagonistes découvrent de nouveaux exploits et de nouveaux modèles défensifs cherchent à combler ces failles nouvellement découvertes. Après 10 tours d’entraînement itératif, l’algorithme de défense final n’a remporté que 19 % des parties contre un algorithme d’attaque final qui avait découvert une variation de l’exploit jusque-là inconnue. Cela était vrai même si l’algorithme mis à jour a conservé un avantage sur les attaquants précédents contre lesquels il avait été entraîné dans le passé.

Go AI if they know the right algorithm-exploiting strategy.">Même un enfant peut battre une IA de classe mondiale de Go s'il connaît la bonne stratégie d'exploitation de l'algorithme.
Agrandir / Même un enfant peut battre un champion du monde Aller L'IA s'ils connaissent la bonne stratégie d'exploitation de l'algorithme.

Getty Images

Dans leur dernière tentative, les chercheurs ont essayé un tout nouveau type de formation utilisant Transformateurs de visiondans le but d'éviter ce qui pourrait être des « biais inductifs néfastes » trouvés dans les réseaux neuronaux convolutionnels qui ont initialement entraîné KataGo. Cette méthode a également échoué, ne gagnant que 22 % du temps contre une variante de l'attaque cyclique qui « peut être reproduite par un expert humain », ont écrit les chercheurs.

Est-ce que quelque chose fonctionnera ?

Dans les trois tentatives de défense, les adversaires qui ont battu KataGo ne représentaient pas une nouvelle hauteur, jamais vue auparavant, en général Aller-capacité de jeu. Au lieu de cela, ces algorithmes d'attaque étaient focalisés sur la découverte de faiblesses exploitables dans un algorithme d'IA par ailleurs performant, même si ces stratégies d'attaque simples seraient perdantes pour la plupart des joueurs humains.

Ces failles exploitables soulignent l’importance d’évaluer les performances des systèmes d’IA dans le pire des cas, même lorsque les performances dans le « cas moyen » peuvent sembler carrément surhumaines. En moyenne, KataGo peut dominer même des joueurs humains de haut niveau en utilisant des stratégies traditionnelles. Mais dans le pire des cas, des adversaires « faibles » peuvent trouver des failles dans le système qui le font s’effondrer.

Il est facile d'étendre ce type de réflexion à d'autres types de systèmes d'IA génératifs. Des LLM qui peuvent réussir certaines tâches créatives et de référence complexes pourrait encore échouer complètement lorsqu'ils sont confrontés à des problèmes mathématiques triviaux (ou même obtenir « empoisonné » par des messages malveillants). Modèles d'IA visuelle qui peuvent décrire et analyser des photos complexes peut néanmoins échouer lamentablement lorsqu'on leur présente des formes géométriques de base.

Si vous pouvez résoudre ce genre d’énigmes, vous disposez peut-être d’un meilleur raisonnement visuel que les IA de pointe.
Agrandir / Si vous pouvez résoudre ce genre d’énigmes, vous disposez peut-être d’un meilleur raisonnement visuel que les IA de pointe.

L’amélioration de ces types de scénarios du « pire des cas » est essentielle pour éviter les erreurs embarrassantes lors du déploiement d'un système d'IA au public. Mais cette nouvelle recherche montre que des « adversaires » déterminés peuvent souvent découvrir de nouvelles failles dans les performances d'un algorithme d'IA beaucoup plus rapidement et facilement que cet algorithme ne peut évoluer pour résoudre ces problèmes.

Et si c'est vrai dans Aller— un jeu monstrueusement complexe qui a néanmoins des règles bien définies — cela pourrait être encore plus vrai dans des environnements moins contrôlés. « Le principal enseignement pour l'IA est que ces vulnérabilités seront difficiles à éliminer », a déclaré Adam Gleave, PDG de FAR a dit à la Nature. « Si nous ne pouvons pas résoudre le problème dans un domaine simple comme Alleralors à court terme, il semble peu probable que des correctifs soient apportés à des problèmes similaires, comme les jailbreaks dans ChatGPT. « 

Pourtant, les chercheurs ne désespèrent pas. Bien qu'aucune de leurs méthodes n'ait été en mesure de « faire [new] attaques impossibles » dans Allerleurs stratégies ont permis de colmater des exploits « fixes » immuables qui avaient été identifiés auparavant. Cela suggère qu'il « peut être possible de défendre complètement un Aller « L'IA s'entraîne contre un corpus d'attaques suffisamment large », écrivent-ils, avec des propositions de recherche future qui pourraient rendre cela possible.

Quoi qu’il en soit, cette nouvelle recherche montre que rendre les systèmes d’IA plus robustes face aux pires scénarios pourrait être au moins aussi utile que la recherche de nouvelles capacités plus humaines/surhumaines.

5/5 - (266 votes)
Publicité
Article précédentShadow of the Erdtree a finalement levé le voile sur l'un des plus grands mystères d'Elden Ring, et c'est vraiment époustouflant
Article suivantLe pack Joy-Con de Super Mario Party est étonnamment toujours disponible à prix réduit

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici