Une jeune femme utilisant un logiciel de reconnaissance vocale sur un smartphone.
Luis Alvarez | Vision numérique | Getty Images
LONDRES — Une entreprise britannique de reconnaissance vocale affirme que son logiciel fonctionne mieux que celui de grandes entreprises technologiques comme Google et Amazone dans la compréhension des voix noires.
Speechmatics, qui est basé à Cambridge, en Angleterre, a déclaré mardi que son système avait un taux de précision global de 83% pour les voix afro-américaines.
C’est plus haut que Microsoft (73%), Amazon (69%), Google (69%), IBM (62%) et Pomme (55 %), selon recherche publié par l’Université de Stanford en 2020, qui comparait les résultats des grandes entreprises technologiques sur la précision avec laquelle leurs programmes de reconnaissance vocale comprenaient les Afro-Américains.
Les systèmes d’Amazon, d’IBM, de Google, de Microsoft et d’Apple ont fait près de deux fois plus d’erreurs lors de l’interprétation des mots prononcés par les Afro-Américains que les Blancs, selon des chercheurs de Stanford.
Speechmatics affirme que son système a mal identifié les mots des voix noires 17% du temps, contre 31% pour Google et Amazon.
« Il est essentiel d’étudier et d’améliorer l’équité des systèmes de synthèse vocale étant donné le potentiel de préjudices disparates pour les individus dans les secteurs en aval allant des soins de santé à la justice pénale », a déclaré Allison Koenecke, auteur principal de l’étude de Stanford.
Biais dans l’IA
La technologie de reconnaissance vocale s’est rapidement intégrée dans la vie quotidienne, grâce à la prévalence des assistants virtuels sur les appareils intelligents comme les téléphones et les haut-parleurs.
Apple a été le pionnier de l’utilisation de logiciels à commande vocale sur les appareils mobiles avec son assistant numérique Siri, tandis qu’Amazon a été l’un des premiers à apporter la reconnaissance vocale à la maison avec ses haut-parleurs Echo et son assistant Alexa.
Les chercheurs sont de plus en plus préoccupés par les biais dans les algorithmes alimentant ces services de reconnaissance vocale. Plus précisément, les experts affirment que de nombreux programmes de reconnaissance vocale sont formés sur des ensembles de données limités, ce qui les rend moins efficaces.
Alors que les applications de reconnaissance vocale ont peu de mal à transcrire, un présentateur de nouvelles de la côte est de race blanche, « elles n’ont pas le même niveau de précision » avec des voix sous-représentées, selon Will Williams, vice-président de l’apprentissage automatique chez Speechmatics.
« Comme pour toutes ces choses, il s’agit de la qualité des données dans les ensembles de formation », a déclaré à CNBC Stephanie Hare, chercheuse en éthique de l’IA. « Il existe depuis longtemps des préjugés raciaux, des préjugés sexistes et des préjugés d’accent régional dans la technologie de reconnaissance vocale. »
« Cette technologie ne fonctionne pas de la même manière pour tout le monde, pour le moment », a ajouté Hare. « Cela pourrait, éventuellement, avec le raffinement. »
Données non étiquetées
Speechmatics dit avoir formé son intelligence artificielle avec des données non étiquetées provenant des médias sociaux et des podcasts pour l’aider à apprendre différents aspects de la parole, notamment l’accent, la langue et l’intonation.
« Nous pouvons nous en imprégner presque de la même manière qu’un enfant », a déclaré Williams à CNBC.
La société a déclaré que sa technologie est formée sur 1,1 million d’heures d’audio.
Speechmatics a qualifié le développement de « percée » et a déclaré qu’il espérait que d’autres entreprises technologiques deviendraient plus transparentes sur les efforts visant à réduire les biais dans l’IA.
« Ce serait bien si les gens étaient des ensembles de tests open source qui vous permettent d’évaluer vos performances sur ce front », a déclaré Williams. « Une partie du problème a été que les progrès sur certaines données démographiques ont été cachés. »
Les géants de la technologie ont été augmenter leurs investissements dans la reconnaissance vocale dernièrement, Microsoft acceptant d’acquérir la société de logiciels Nuance Communications pour 16 milliards de dollars en avril.
.