Les outils de traduction en ligne nous ont aidés à apprendre de nouvelles langues, à communiquer au-delà des frontières linguistiques et à consulter des sites Web étrangers dans notre langue maternelle. Mais l’intelligence artificielle qui les sous-tend est loin d’être parfaite, reproduisant souvent plutôt que rejetant les préjugés qui existent au sein d’une langue ou d’une société.

Ces outils sont particulièrement vulnérables aux stéréotypes de genre parce que certaines langues (comme l’anglais) n’ont pas tendance à utiliser les noms de genre, tandis que d’autres (comme l’allemand) le font.

Lors de la traduction de l’anglais vers l’allemand, les outils de traduction doivent décider quel genre attribuer des mots anglais tels que «plus propre». Dans une très grande majorité, les outils sont conformes au stéréotype, optant pour le mot féminin en allemand.

Les préjugés sont humains: ils font partie de qui nous sommes. Mais lorsqu’ils ne sont pas contestés, des préjugés peuvent émerger sous la forme d’attitudes négatives concrètes envers les autres. Maintenant, notre équipe a trouvé un moyen de recycler l’IA derrière les outils de traduction, en utilisant une formation ciblée pour l’aider à éviter les stéréotypes de genre. Notre méthode pourrait être utilisée dans d’autres domaines de l’IA pour aider la technologie à rejeter, plutôt qu’à reproduire, les préjugés au sein de la société.

Algorithmes biaisés

Au grand désarroi de leurs créateurs, les algorithmes d’IA développent souvent des traits racistes ou sexistes. Google Traduction a été accusé de stéréotypes fondés sur le sexe, comme ses traductions présupposant que tous les médecins sont des hommes et toutes les infirmières sont des femmes.

Publicité

Pendant ce temps, le générateur de langage IA GPT-3 – qui a écrit un article entier pour le Gardien en 2020 – a récemment montré qu’il était également terriblement bon pour produire contenu préjudiciable et désinformation.

Ces échecs de l’IA ne sont pas nécessairement la faute de leurs créateurs. Les universitaires et les militants ont récemment attiré l’attention sur préjugé sexiste dans l’Oxford English Dictionary, où des synonymes sexistes de «femme» – comme «salope» ou «femme de chambre» – montrent comment même un catalogue de mots constamment révisé et édité par des universitaires peut contenir des préjugés qui renforcent les stéréotypes et perpétuent le sexisme quotidien.

L’IA apprend les préjugés parce qu’elle n’est pas construite dans le vide: elle apprend à penser et à agir en lisant, en analysant et en catégorisant les données existantes – comme celles contenues dans l’Oxford English Dictionary. Dans le cas de l’IA de traduction, nous exposons son algorithme à des milliards de mots de données textuelles et lui demandons de reconnaître et d’apprendre des modèles qu’il détecte. Nous appelons ce processus apprentissage automatique, et en cours de route, les modèles de biais sont appris ainsi que ceux de la grammaire et de la syntaxe.

Idéalement, les données textuelles que nous montrons AI ne contiendront pas de biais. Mais il y a une tendance continue sur le terrain vers la construction de systèmes plus grands formés sur ensembles de données en constante augmentation. Nous parlons de centaines de milliards de mots. Ceux-ci sont obtenus sur Internet en utilisant des outils de grattage de texte sans discrimination tels que Common Crawl et WebText2, qui maraudent sur le Web, engloutissant chaque mot qu’ils rencontrent.

La taille même des données résultantes empêche tout humain de savoir ce qu’il contient. Mais nous savons que certains d’entre eux proviennent de plates-formes comme Reddit, qui a fait les gros titres pour présenter des informations offensantes, fausses ou conspiratrices dans les publications des utilisateurs.

Nouvelles traductions

Dans notre recherche, nous voulions rechercher un moyen de contrer les biais dans les ensembles de données textuelles extraits d’Internet. Nos expériences ont utilisé une partie choisie au hasard d’un corpus anglais-allemand existant (une sélection de texte) qui contenait à l’origine 17,2 millions de paires de phrases – la moitié en anglais, la moitié en allemand.

Comme nous l’avons souligné, l’allemand a des formes genrées pour les noms (le médecin peut être « der Arzt« Pour homme, »mourir Ärztin”Pour femme) où en anglais nous ne gérons pas ces formes nominales (à quelques exceptions près, eux-mêmes contentieux, comme «acteur» et «actrice»).

Notre analyse de ces données a révélé des déséquilibres manifestes entre les sexes. Par exemple, nous avons constaté que la forme masculine d’ingénieur en allemand (der Ingenieur) était 75 fois plus courante que son homologue féminin (die Ingenieurin). Un outil de traduction formé sur ces données reproduira inévitablement ce biais, traduisant «ingénieur» en homme »der Ingenieur». Alors, que peut-on faire pour éviter ou atténuer cela?

Surmonter les préjugés

Une réponse apparemment simple consiste à «équilibrer» le corpus avant de demander aux ordinateurs d’en tirer des leçons. Peut-être, par exemple, ajouter plus d’ingénieurs au corpus empêcherait un système de traduction de supposer que tous les ingénieurs sont des hommes.

Malheureusement, cette approche présente des difficultés. Les outils de traduction sont formés pendant des jours sur des milliards de mots. Les recycler en modifiant le genre des mots est possible, mais c’est inefficace, coûteux et compliqué. L’ajustement du genre dans des langues comme l’allemand est particulièrement difficile car, pour avoir un sens grammatical, plusieurs mots d’une phrase peuvent devoir être modifiés pour refléter le changement de genre.

Au lieu de ce rééquilibrage laborieux entre les sexes, nous avons décidé de recycler les systèmes de traduction existants avec des leçons ciblées. Lorsque nous avons repéré un biais dans les outils existants, nous avons décidé de les recycler sur de nouveaux ensembles de données plus petits – un peu comme un après-midi de formation sur la sensibilité au genre au travail.

Cette approche prend une fraction du temps et des ressources nécessaires pour former des modèles à partir de zéro. Nous n’avons pu utiliser que quelques centaines d’exemples de traduction sélectionnés – au lieu de millions – pour ajuster le comportement de l’IA de traduction de manière ciblée. Lors du test des professions sexuées en traduction – comme nous l’avions fait avec les «ingénieurs» – les améliorations de précision après adaptation étaient environ neuf fois plus élevées que l’approche de recyclage «équilibrée».

Dans notre recherche, nous voulions montrer que s’attaquer aux biais cachés dans d’énormes ensembles de données ne signifie pas nécessairement ajuster laborieusement des millions d’exemples de formation, une tâche qui risque d’être rejetée comme impossible. Au lieu de cela, le biais des données peut être ciblé et désappris – une leçon que d’autres Chercheurs en IA peuvent s’appliquer à leur propre travail.

Stefanie Ullmann est un associé de recherche postdoctoral et Danielle Saunders est étudiant en recherche au département d’ingénierie de l’Université de Cambridge.

Cet article a été publié pour la première fois le La conversation.

.

Rate this post
Publicité
Article précédentBurnley vs Newcastle Preview et prévisions en direct Premier League 2021
Article suivantLes autorités de Hong Kong saisissent 300 cartes minières Nvidia CMP sur un bateau de pêche
Avatar
Violette Laurent est une blogueuse tech nantaise diplômée en communication de masse et douée pour l'écriture. Elle est la rédactrice en chef de fr.techtribune.net. Les sujets de prédilection de Violette sont la technologie et la cryptographie. Elle est également une grande fan d'Anime et de Manga.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici