La start-up d’IA Mistral a lancées une nouvelle API pour la modération du contenu.
L’API, qui est la même API qui alimente la modération dans la plateforme de chatbot Le Chat de Mistral, peut être adaptée à des applications et des normes de Sécurité spécifiques, explique M. Mistral. Il s’appuie sur un modèle affiné (Ministral 8B) conçu pour classer le texte dans une gamme de langues, dont l’anglais, le français et l’allemand, dans l’une des neuf catégories suivantes : sexualité, haine et discrimination, violence et menaces, contenu dangereux et criminel, automutilation, santé, finances, droit et informations personnellement identifiables.
L’API de modération peut être appliquée à du texte brut ou conversationnel, explique M. Mistral.
« Au cours des derniers mois, nous avons constaté un enthousiasme croissant dans l’industrie et la communauté des chercheurs pour les nouveaux systèmes de modération basés sur l’IA, qui peuvent contribuer à rendre la modération plus évolutive et plus robuste dans toutes les applications », a écrit Mistral dans un billet de blog. « Notre classificateur de modération de contenu exploite les catégories de politiques les plus pertinentes pour des garde-fous efficaces et introduit une approche pragmatique de la sécurité des modèles en s’attaquant aux préjudices générés par le modèle, tels que les conseils non qualifiés et les PII. »
Les systèmes de modération alimentés par l’IA sont utiles en théorie. Mais ils sont également sensibles aux mêmes biais et défauts techniques que ceux qui affligent les autres systèmes d’IA.
Par exemple, certains modèles entraînés à détecter la toxicité considèrent que les phrases en anglais vernaculaire afro-américain (AAVE), la grammaire informelle utilisée par certains Noirs américains, sont disproportionnellement « toxiques ». Les publications sur les médias sociaux concernant les personnes handicapées sont également souvent signalées comme plus négatives ou toxiques par l’opinion publique couramment utilisée et les modèles de détection de la toxicité, selon des études fonder.
Mistral affirme que son modèle de modération est très précis, mais admet également qu’il s’agit d’un travail en cours. Notamment, la société n’a pas comparé les performances de son API à celles d’autres API de modération populaires, comme l’API Perspective de Jigsaw et l’API de modération d’OpenAI.
« Nous travaillons avec nos clients pour créer et partager des outils de modération évolutifs, légers et personnalisables », a déclaré la société, « et nous continuerons à nous engager avec la communauté des chercheurs pour contribuer aux avancées en matière de sécurité dans le domaine plus large. »