Anthropic lance un programme financer le développement de nouveaux types de benchmarks capables d’évaluer les performances et l’impact des modèles d’IA, y compris des modèles génératifs comme le sien Claude.

Dévoilé lundi, le programme d’Anthropic distribuera des subventions à des organisations tierces qui peuvent, comme le dit la société dans un article de blog, « mesurer efficacement les capacités avancées des modèles d’IA ». Les personnes intéressées peuvent soumettre des demandes qui seront évaluées au fur et à mesure.

« Notre investissement dans ces évaluations vise à élever l’ensemble du domaine de la Sécurité de l’IA, en fournissant des outils précieux qui profitent à l’ensemble de l’écosystème », a écrit Anthropic sur son blog officiel. « L’élaboration d’évaluations de haute qualité et pertinentes pour la sécurité reste un défi, et la demande dépasse l’offre. »

Comme nous l’avons déjà souligné, l’IA a un problème de benchmarking. Les benchmarks les plus couramment cités pour l’IA aujourd’hui ne reflètent pas bien la façon dont la personne moyenne utilise réellement les systèmes testés. On peut également se demander si certains benchmarks, en particulier ceux publiés avant l’aube de l’IA générative moderne, mesurent même ce qu’ils prétendent mesurer, compte tenu de leur âge.

La solution de très haut niveau et plus difficile qu’il n’y paraît proposée par Anthropic crée des points de référence stimulants en mettant l’accent sur la sécurité de l’IA et les implications sociétales via de nouveaux outils, infrastructures et méthodes.

Publicité

La société demande spécifiquement des tests qui évaluent la capacité d’un modèle à accomplir des tâches telles que mener des cyberattaques, « améliorer » les armes de destruction massive (par exemple, les armes nucléaires) et manipuler ou tromper les gens (par exemple, par le biais de deepfakes ou de désinformation). Pour les risques liés à l’IA liés à la sécurité nationale et à la défense, Anthropic dit s’engager à développer une sorte de « système d’alerte précoce » pour identifier et évaluer les risques, bien qu’il ne révèle pas dans l’article de blog ce qu’un tel système pourrait impliquer.

Anthropic a également déclaré que son nouveau programme visait à soutenir la recherche sur les points de référence et les tâches « de bout en bout » qui sondent le potentiel de l’IA pour aider à l’étude scientifique, converser dans plusieurs langues et atténuer les préjugés enracinés, ainsi que la toxicité de l’autocensure.

Pour y parvenir, Anthropic envisage de nouvelles plateformes qui permettent aux experts en la matière de développer leurs propres évaluations et des essais à grande échelle de modèles impliquant des « milliers » d’utilisateurs. La société dit qu’elle a embauché un coordinateur à temps plein pour le programme et qu’elle pourrait acheter ou développer des projets qui, selon elle, ont le potentiel de se développer.

« Nous offrons une gamme d’options de financement adaptées aux besoins et à l’étape de chaque projet », écrit Anthropic dans le message, bien qu’un porte-parole d’Anthropic ait refusé de fournir plus de détails sur ces options. « Les équipes auront l’occasion d’interagir directement avec les experts du domaine d’Anthropic de l’équipe rouge de la frontière, de la mise au point, de la confiance et de la sécurité et d’autres équipes pertinentes. »

Les efforts d’Anthropic pour soutenir de nouveaux points de référence en matière d’IA sont louables – en supposant, bien sûr, qu’il y ait suffisamment d’argent et de main-d’œuvre derrière. Mais étant donné les ambitions commerciales de l’entreprise dans la course à l’IA, il pourrait être difficile de lui faire entièrement confiance.

Dans le billet de blog, Anthropic est plutôt transparent sur le fait qu’il souhaite que certaines évaluations qu’il finance s’alignent sur le Classifications de sécurité de l’IA il développé (avec quelques contributions de tiers comme l’organisation de recherche sur l’IA à but non lucratif METR). C’est tout à fait dans les prérogatives de l’entreprise. Mais cela peut également forcer les candidats au programme à accepter des définitions d’IA « sûre » ou « risquée » avec lesquelles ils pourraient ne pas être tout à fait d’accord.

Une partie de la communauté de l’IA est également susceptible de contester les références d’Anthropic aux risques d’IA « catastrophiques » et « trompeurs », comme les risques liés aux armes nucléaires. De nombreux experts disent qu’il y a peu de preuves suggérant que l’IA telle que nous la connaissons gagnera des capacités de fin du monde et de déjouer les humains de sitôt, voire jamais. Les affirmations d’une « superintelligence » imminente ne servent qu’à détourner l’attention des problèmes urgents de réglementation de l’IA du jour, comme les tendances hallucinatoires de l’IA, ajoutent ces experts.

Dans son article, Anthropic écrit qu’il espère que son programme servira de « catalyseur pour progresser vers un avenir où l’évaluation complète de l’IA est une norme de l’industrie ». C’est une mission que beaucoup ouvrent, Entreprise non affiliée efforts pour créer de meilleures références d’IA peuvent s’identifier. Mais il reste à voir si ces efforts sont prêts à unir leurs forces avec un fournisseur d’IA dont la loyauté repose en fin de compte sur les actionnaires.

Rate this post
Publicité
Article précédentUlf est-il vraiment le fils de Baelon le Brave dans La Maison du Dragon ?
Article suivantJe couvre les lancements de smartphones, et l'événement d'août de Google est celui qui me passionne

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici