Les outils de traduction de Google et d’autres entreprises pourraient contribuer à une incompréhension importante de termes juridiques avec des significations contradictoires telles que «enjoin», selon une étude qui doit être présentée lors d’un atelier académique.
Le logiciel de traduction de Google transforme une phrase en anglais concernant un tribunal condamnant ou interdisant la violence en une phrase dans la langue indienne du kannada, ce qui implique la violence ordonnée par le tribunal, selon la nouvelle étude.
«Enjoin» peut faire référence à la promotion ou à la restriction d’une action. Des erreurs de traduction surviennent également avec d’autres contronymes, ou des mots avec des significations contradictoires selon le contexte, y compris «partout», «éventuel» et «garnir», indique le journal.
Google a déclaré que la traduction automatique n’était « qu’un complément à la traduction professionnelle spécialisée » et qu’elle « recherchait continuellement des améliorations, allant d’une meilleure gestion des langues ambiguës, à l’atténuation des biais, à la réalisation de gains de qualité importants pour les langues sous-financées ».
Les résultats de l’étude ajoutent à l’examen minutieux des traductions automatisées générées par un logiciel d’intelligence artificielle.
Les chercheurs ont précédemment trouvé des programmes qui apprennent les traductions en étudiant des textes non divers qui perpétuent les préjugés historiques entre les sexes, tels que l’association «médecin» avec «il».
Le nouveau document soulève des inquiétudes quant à une méthode populaire que les entreprises utilisent pour élargir le vocabulaire de leur logiciel de traduction.
Ils traduisent le texte étranger en anglais, puis de nouveau dans la langue étrangère, dans le but d’apprendre au logiciel à associer des manières similaires de dire la même phrase.
Connu sous le nom de rétro-traduction, ce processus a du mal avec les contronymes, a déclaré Vinay Prabhu, scientifique en chef de la start-up d’authentification UnifyID et l’un des auteurs de l’article.
Lorsqu’ils ont traduit une phrase sur un tribunal condamnant la violence dans 109 langues prises en charge par le logiciel de Google, la plupart des résultats ont été erronés.
Lorsqu’elles sont retournées à l’anglais, 88 traductions rétrospectives ont déclaré que le tribunal avait appelé à la violence et seulement 10 ont correctement déclaré que le tribunal l’avait interdite. Le reste a généré d’autres problèmes.
Un autre chercheur, Abubakar Abid, a tweeté en décembre qu’il avait trouvé un biais possible dans la traduction inverse via le turc.
En utilisant Google, de courtes phrases avec «enjoint» traduites en «gens» et «musulmans» ordonnant la violence mais le «gouvernement» et la «CIA» l’interdisant.
Le nouveau document a déclaré que les problèmes de traduction pourraient entraîner de graves conséquences, car de plus en plus d’entreprises utilisent l’IA pour générer ou traduire du texte juridique.
Un exemple dans le journal est un titre de presse sur la violence domestique non létale qui transforme le «coup» en «tué» pendant la traduction, une association potentiellement vraie mais problématique.
Les auteurs ont également exprimé leur inquiétude quant au manque d’avertissements et de scores de confiance dans les outils de Google et d’autres.
Google dans les documents d’assistance avertit qu’il n’a peut-être pas la meilleure solution « pour une traduction spécialisée dans vos propres domaines ».