Accueil Tech today De nombreuses évaluations de la sécurité des modèles d’IA présentent des limites...

Many safety evaluations for AI models have significant limitations

De nombreuses évaluations de la sécurité des modèles d’IA présentent des limites importantes

Par

août 4, 2024

Selon un nouveau rapport, malgré la demande croissante de Sécurité et de responsabilité de l’IA, les tests et les benchmarks d’aujourd’hui pourraient être insuffisants.

Les modèles d’IA générative – des modèles capables d’analyser et de produire du texte, des images, de la musique, des vidéos, etc. – font l’objet d’un examen minutieux pour leur tendance à faire des erreurs et à se comporter généralement de manière imprévisible. Aujourd’hui, des organisations allant des agences du secteur public aux grandes entreprises technologiques proposent de nouveaux points de référence pour tester la sécurité de ces modèles.

Vers la fin de l’année dernière, la start-up Scale AI a formé une laboratoire dédié à l’évaluation de la conformité des modèles avec les directives de sécurité. Ce mois-ci, le NIST et l’AI Safety Institute du Royaume-Uni ont publié des outils conçus pour évaluer le risque de modèle.

Mais ces tests et méthodes de sondage de modèle peuvent être inadéquats.

L’Institut Ada Lovelace (ALI), une organisation de recherche en IA à but non lucratif basée au Royaume-Uni, a mené une étude étudier qui a interrogé des experts de laboratoires universitaires, de la société civile et qui produisent des modèles de fournisseurs, et a audité des recherches récentes sur les évaluations de la sécurité de l’IA. Les co-auteurs ont constaté que si les évaluations actuelles peuvent être utiles, elles ne sont pas exhaustives, peuvent être manipulées facilement et ne donnent pas nécessairement une indication sur la façon dont les modèles se comporteront dans des scénarios réels.

« Qu’il s’agisse d’un téléphone intelligent, d’un médicament d’ordonnance ou d’une voiture, nous nous attendons à ce que les produits que nous utilisons soient sûrs et fiables ; dans ces secteurs, les produits sont rigoureusement testés pour s’assurer qu’ils sont sûrs avant d’être déployés », a déclaré Elliot Jones, chercheur principal à l’ALI et co-auteur du rapport, à TechCrunch. « Notre recherche visait à examiner les limites des approches actuelles en matière d’évaluation de la sécurité de l’IA, à évaluer comment les évaluations sont actuellement utilisées et à explorer leur utilisation en tant qu’outil pour les décideurs politiques et les régulateurs. »

Table des matières hide

1 Benchmarks et red teaming

2 Solutions possibles

Benchmarks et red teaming

Les coauteurs de l’étude ont d’abord examiné la littérature universitaire pour établir un aperçu des préjudices et des risques que posent les modèles aujourd’hui, ainsi que de l’état des évaluations existantes des modèles d’IA. Ils ont ensuite interrogé 16 experts, dont quatre employés d’entreprises technologiques anonymes développant des systèmes d’IA générative.

L’étude a révélé un désaccord marqué au sein de l’industrie de l’IA sur le meilleur ensemble de méthodes et de taxonomie pour évaluer les modèles.

Certaines évaluations n’ont testé que la façon dont les modèles s’alignaient sur les benchmarks en laboratoire, et non l’impact des modèles sur les utilisateurs du monde réel. D’autres se sont appuyés sur des tests développés à des fins de recherche, sans évaluer les modèles de production, mais les fournisseurs ont insisté pour les utiliser en production.

Nous avons déjà écrit sur les problèmes liés aux benchmarks de l’IA, et l’étude met en évidence tous ces problèmes et plus encore.

Les experts cités dans l’étude ont noté qu’il est difficile d’extrapoler les performances d’un modèle à partir des résultats des benchmarks et qu’il n’est pas clair si les benchmarks peuvent même montrer qu’un modèle possède une capacité spécifique. Par exemple, bien qu’un modèle puisse obtenir de bons résultats à un examen du barreau d’État, cela ne signifie pas qu’il sera en mesure de résoudre des défis juridiques plus ouverts.

Les experts ont également souligné le problème de la contamination des données, où les résultats des benchmarks peuvent surestimer les performances d’un modèle si celui-ci a été entraîné sur les mêmes données que celles sur lesquelles il est testé. Les points de référence, dans de nombreux cas, sont choisis par les organisations non pas parce qu’ils sont les meilleurs outils d’évaluation, mais pour des raisons de commodité et de facilité d’utilisation, ont déclaré les experts.

« Les benchmarks risquent d’être manipulés par des développeurs qui peuvent entraîner des modèles sur le même ensemble de données qui sera utilisé pour évaluer le modèle, ce qui équivaut à voir le papier d’examen avant l’examen, ou en choisissant stratégiquement les évaluations à utiliser », a déclaré Mahi Hardalupas, chercheur à l’ALI et co-auteur de l’étude, à TechCrunch. « Il est également important de savoir quelle version d’un modèle est évaluée. De petits changements peuvent entraîner des changements imprévisibles dans le comportement et peuvent annuler les caractéristiques de sécurité intégrées.

L’étude ALI a également révélé des problèmes avec le « red-teaming », la pratique consistant à charger des individus ou des groupes d’« attaquer » un modèle pour identifier les vulnérabilités et les défauts. Un certain nombre d’entreprises utilisent le red-teaming pour évaluer les modèles, y compris les startups d’IA OpenAI et Anthropic, mais il existe peu de normes convenues pour le red teaming, ce qui rend difficile l’évaluation de l’efficacité d’un effort donné.

Les experts ont déclaré aux co-auteurs de l’étude qu’il peut être difficile de trouver des personnes possédant les compétences et l’expertise nécessaires pour faire partie de l’équipe rouge, et que la nature manuelle de l’équipe rouge la rend coûteuse et laborieuse, ce qui constitue un obstacle pour les petites organisations qui ne disposent pas des ressources nécessaires.

Solutions possibles

La pression pour publier les modèles plus rapidement et la réticence à effectuer des tests qui pourraient soulever des problèmes avant une publication sont les principales raisons pour lesquelles les évaluations de l’IA ne se sont pas améliorées.

« Une personne à qui nous avons parlé et qui travaille pour une entreprise développant des modèles de base a estimé qu’il y avait plus de pression au sein des entreprises pour publier rapidement des modèles, ce qui rendait plus difficile de repousser et de prendre au sérieux la réalisation d’évaluations », a déclaré Jones. « Les grands laboratoires d’IA publient des modèles à une vitesse qui dépasse leur capacité ou celle de la société à garantir leur sécurité et leur fiabilité. »

Une personne interrogée dans le cadre de l’étude ALI a qualifié l’évaluation des modèles de sécurité de problème « insoluble ». Alors, quel espoir l’industrie – et ceux qui la réglementent – ont-ils pour trouver des solutions ?

Mahi Hardalupas, chercheur à l’ALI, estime qu’il existe une voie à suivre, mais qu’elle nécessitera un engagement accru de la part des organismes du secteur public.

« Les régulateurs et les décideurs politiques doivent clairement exprimer ce qu’ils attendent des évaluations », a-t-il déclaré. « En même temps, la communauté de l’évaluation doit faire preuve de transparence quant aux limites actuelles et au potentiel des évaluations. »

M. Hardalupas suggère que les gouvernements exigent une plus grande participation du public dans l’élaboration des évaluations et mettent en œuvre des mesures pour soutenir un « écosystème » de tests par des tiers, y compris des programmes visant à assurer un accès régulier à tous les modèles et ensembles de données requis.

Jones pense qu’il peut être nécessaire d’élaborer des évaluations « spécifiques au contexte » qui vont au-delà de la simple vérification de la façon dont un modèle répond à une invite, mais qui examinent plutôt les types d’utilisateurs qu’un modèle pourrait influencer (par exemple, les personnes d’un milieu, d’un sexe ou d’une ethnie particuliers) et les façons dont les attaques contre les modèles pourraient faire échec aux mesures de protection.

« Cela nécessitera des investissements dans la science sous-jacente des évaluations afin de développer des évaluations plus robustes et reproductibles basées sur une compréhension du fonctionnement d’un modèle d’IA », a-t-elle ajouté.

Mais il n’y a peut-être jamais de garantie qu’un modèle est en sécurité.

« Comme d’autres l’ont noté, la « sécurité » n’est pas une propriété des modèles », a déclaré Hardalupas. « Pour déterminer si un modèle est « sûr », il faut comprendre les contextes dans lesquels il est utilisé, à qui il est vendu ou à qui il est rendu accessible, et si les mesures de protection en place sont adéquates et robustes pour réduire ces risques. Les évaluations d’un modèle de fondation peuvent servir à des fins exploratoires pour identifier les risques potentiels, mais elles ne peuvent pas garantir qu’un modèle est sûr, et encore moins « parfaitement sûr ». Bon nombre des personnes que nous avons interrogées ont convenu que les évaluations ne peuvent pas prouver qu’un modèle est sûr et ne peuvent qu’indiquer qu’un modèle n’est pas sûr.