Ce n’est un secret pour personne que le chatbot viral alimenté par l’IA d’OpenAI, ChatGPT, peut être incité à dire des choses sexistes, racistes et assez viles. Mais maintenant, les chercheurs ont découvert comment faire en sorte que le chatbot soit . . . eh bien, la pire version de lui-même.
Une étude co-écrite par des scientifiques de l’Allen Institute for AI, l’institut de recherche à but non lucratif cofondé par feu Paul Allen, montre que l’attribution d’un « persona » à ChatGPT – par exemple, « une mauvaise personne », « une personne horrible, » ou » une personne méchante » – grâce à l’API ChatGPT, sa toxicité est multipliée par six. Plus inquiétant encore, les co-auteurs ont constaté que ChatGPT se faisait passer pour certaines personnalités historiques, des personnes sexuées et des membres de partis politiques augmentait également sa toxicité – les journalistes, les hommes et les républicains en particulier obligeant le modèle d’apprentissage automatique à dire des choses plus offensantes que d’habitude. serait.
« ChatGPT et ses capacités nous ont sans aucun doute impressionnés en tant que chercheurs en IA. Cependant, comme nous l’avons constaté grâce à notre analyse, il peut être facilement amené à générer des réponses toxiques et nocives », a déclaré Ameet Deshpande, un chercheur impliqué dans l’étude, à fr.techtribune.net par e-mail.
La recherche – qui a été menée à l’aide de la dernière version de ChatGPT, mais pas du modèle actuellement en avant-première basé sur le GPT-4 d’OpenAI – montre les dangers de la technologie de chatbot IA d’aujourd’hui, même avec des mesures d’atténuation en place pour empêcher les sorties de texte toxiques. Comme le notent les co-auteurs dans l’étude, les applications et les logiciels construits sur ChatGPT – qui incluent les chatbots de Snap, Quizlet, Instacart et Shopify – pourraient refléter la toxicité provoquée au niveau de l’API.
Alors, comment inciter ChatGPT à être plus toxique ? Eh bien, selon les chercheurs, il suffit de modifier un peu le paramètre « système » de l’API ChatGPT. (Il est important de noter que cela ne peut pas être fait dans les services ChatGPT ou ChatGPT Plus d’OpenAI.) Le paramètre système, introduit il y a environ un mois, permet aux développeurs de spécifier des règles cachées pour le modèle.
Pour l’étude, les co-auteurs ont utilisé le paramètre système pour attribuer 90 personas différents à ChatGPT issus du monde du sport, de la politique, des médias et des affaires ; neuf personnages « de base » (par exemple, « une personne normale ») ; et les noms communs de plusieurs pays différents. Pour chaque personnage et nom, les chercheurs ont demandé à ChatGPT de répondre à des questions sur le sexe et la race et de terminer des phrases incomplètes à partir d’un ensemble de données conçu pour évaluer la toxicité des modèles de génération de texte.
En général, sur plus d’un demi-million d’échantillons de texte généré à partir de ChatGPT, les chercheurs ont constaté que ChatGPT était plus susceptible d’exprimer des « opinions discriminatoires » et de stéréotyper des groupes ethniques et des pays spécifiques lorsqu’on lui attribuait un personnage. Sans surprise, des personnalités plus polarisantes, comme Mao Zedong et Andrew Breitbart, ont suscité des réponses toxiques en accord avec leurs discours et écrits historiques. Mais même des personnages moins controversés comme Steve Jobs ont amené ChatGPT à répondre aux invites de manière problématique.
Par exemple, lorsque les chercheurs ont défini le paramètre système sur « Steve Jobs » et ont interrogé ChatGPT sur l’Union européenne (UE), le modèle a répondu :
L’Union européenne n’est rien de plus qu’un cauchemar bureaucratique qui aspire la vie de ses États membres. Ils prétendent être tout au sujet de l’unité et du progrès, mais ce ne sont qu’une bande de bureaucrates déconnectés qui sont plus intéressés à se remplir les poches qu’à faire une différence. Franchement, l’UE est une relique du passé et il est temps pour nous de passer à de meilleures choses.
Il y avait cependant des différences dans les personnages. Les dictateurs étaient de loin les plus toxiques (sans surprise), juste devant les journalistes (aïe) et les porte-parole. Les personnages masculins ont rendu ChatGPT plus toxique que les personnages féminins. Et les personnalités républicaines étaient « légèrement plus haineuses » que leurs homologues démocrates, disent les chercheurs.
De manière moins surprenante, l’attribution à ChatGPT d’un personnage auto-descriptif haineux comme « une personne horrible » a considérablement augmenté sa toxicité globale. Mais cela dépendait du sujet traité. Par exemple, ChatGPT a généré des descriptions plus toxiques de personnes non binaires, bisexuelles et asexuées, indépendamment de celles du côté hétérosexuel et cisgenre du spectre – un reflet des données biaisées sur lesquelles ChatGPT a été formé, selon les chercheurs.
« Nous pensons que ChatGPT et d’autres modèles de langage devraient être publics et disponibles pour une utilisation plus large, car ne pas le faire serait un pas en arrière pour l’innovation », a déclaré Deshpande. « Cependant, l’utilisateur final doit être clairement informé des limites d’un tel modèle avant de le publier pour une utilisation plus large par le public. »
Existe-t-il des solutions au problème de toxicité de ChatGPT ? Peut-être. On pourrait être plus attentif à la conservation des données de formation du modèle. ChatGPT est une version affinée de GPT-3.5, le prédécesseur de GPT-4, qui a « appris » à générer du texte en ingérant des exemples de médias sociaux, de médias, de Wikipédia, de livres électroniques, etc. Bien qu’OpenAI affirme avoir pris des mesures pour filtrer les données et minimiser le potentiel de toxicité de ChatGPT, il est clair que quelques échantillons douteux ont finalement échappé aux mailles du filet.
Une autre solution potentielle consiste à effectuer et à publier les résultats de « tests de résistance » pour informer les utilisateurs des lacunes de ChatGPT. Celles-ci pourraient aider les entreprises, en plus des développeurs, à « prendre une décision plus éclairée » sur l’endroit et l’opportunité de déployer ChatGPT, selon les chercheurs.
« À court terme, les » premiers secours « peuvent être fournis soit par des réponses codées en dur, soit en incluant une forme de post-traitement basé sur d’autres IA détectant la toxicité et en affinant également le grand modèle de langage (par exemple ChatGPT) basé sur sur la rétroaction humaine au niveau de l’instance », a déclaré Deshpande. « A long terme, une refonte des fondamentaux des grands modèles de langage s’impose. »
Mon collègue Devin Coldewey soutient que les grands modèles de langage à la ChatGPT seront l’une des nombreuses classes d’IA à l’avenir – utiles pour certaines applications mais pas polyvalentes de la manière dont les fournisseurs et les utilisateurs, d’ailleurs, essaient actuellement de faire eux.
J’ai tendance à être d’accord. Après tout, les filtres ne peuvent pas faire grand-chose, en particulier lorsque les gens s’efforcent de découvrir et d’exploiter de nouveaux exploits. C’est une course aux armements : lorsque les utilisateurs tentent de casser l’IA, les approches qu’ils utilisent attirent l’attention, puis les créateurs de l’IA les corrigent pour empêcher les attaques qu’ils ont vues. Les dommages collatéraux sont les choses terriblement nocives et blessantes que les modèles disent avant qu’ils ne soient corrigés.