Meta (anciennement Facebook) a fièrement annoncé sa dernière réalisation, l’IA de reconnaissance vocale à lecture labiale, dont le taux d’erreur sur les mots (WER) est déjà en baisse de 75% – les meilleurs résultats dans ce domaine à ce jour.

Une communication efficace implique la parole, les gestes, le ton, etc. – essentiellement des éléments verbaux et non verbaux. Jusqu’à présent, même l’IA la plus avancée ne réussissait qu’à reconnaître les signaux verbaux (contrairement aux humains qui utilisent les signaux visuels, comme le mouvement des lèvres, les expressions faciales et les gestes des mains, comme éléments clés de l’apprentissage des langues). Mais, grâce au cadre BERT (AV-HuBERT) de l’unité cachée audiovisuelle de Meta, qui apprend à comprendre le langage en écoutant et en regardant les gens communiquer, cela est sur le point de changer.

Kristen Morea, une porte-parole de Meta, a rapporté que la société avait fait 50 millions de dollars valeur des investissements dans des programmes externes jusqu’à présent pour garantir que le métaverse est construit en toute sécurité. Elle a également souligné que Meta a introduit quatre principes d’innovation responsable pour le développement « avec l’éthique, la confidentialité, la sûreté et la sécurité au premier plan ». Venant d’une entreprise qui, dans le passé, a montré très peu de respect pour la confidentialité et les préoccupations éthiques de ses utilisateurs, nous ne pouvons cependant pas dire que nous sommes convaincus. Mais voyons sur quoi Meta a travaillé ces derniers temps.

IA de lecture labiale

Pour développer son IA de lecture labiale, Meta utilise AV-HuBERT, un multimodal système d’apprentissage qui combine des signaux audio et de mouvement des lèvres pour percevoir le langage. Meta a révélé qu’AV-HuBERT capture déjà des « associations nuancées » entre les données visuelles et auditives, grâce à sa capacité à reconnaître les signaux visuels de la parole (comme le mouvement des lèvres et des dents) et à les associer aux informations auditives entrantes.

De plus, AV-HuBERT fonctionne sans supervision ou, plus précisément, est auto-supervisé. Il dispose de mécanismes qui lui permettent d’apprendre lui-même à classer des données non étiquetées – grâce au traitement des données et à l’apprentissage de la structure de données inhérente.

Il s’agit d’une avancée considérable par rapport aux modèles précédents de lecture labiale, tels que ceux développés par l’Université d’Oxford et Alphabet ; limité dans la gamme de vocabulaire et incapable de traiter l’audio des locuteurs dans les vidéos. Au mieux, ceux-ci ont été formés à plusieurs reprises sur des exemples de données étiquetés pour établir le lien entre les exemples et les sorties associées. Ainsi, ils finiraient par écrire la sortie pour « chien » lorsqu’on leur montrerait une photo d’un Labrador (l’exemple).

Méthode De Formation Pour Av-Hubert

Bureaux virtuels 3D

En attendant, nous avons également McDannaald, PDG d’Environnements, une soi-disant expérience de travail immersive en réalité virtuelle, testant son produit – un logiciel qui crée des répliques VR d’intérieurs de bureaux. À l’heure actuelle, cinq employés travaillent dans un bureau virtuel, utilisant le casque Oculus de Meta. Chacune de ces employées a son avatar personnel (qui lui ressemble dans une certaine mesure), et elle peut s’enregistrer à tout moment en marchant jusqu’à son bureau virtuel. De plus, les avatars viennent avec différentes icônes au-dessus de leur tête selon l’occasion, comme, par exemple, pour marquer un anniversaire de travail – rappelant terriblement le jeu appelé Les Sims.

Vous ne pouvez pas être enfermé dans le métaverse. Vous pouvez sortir du métaverse à tout moment.

PDG d’Environnements, Erin McDannaald

Non seulement tout cela peut prendre une tournure très effrayante, en fonction de l’application des produits VR et des personnes en charge de leur réalisation, mais cela s’accompagne de grands dangers d’intrusions dans la vie privée. Les casques VR peuvent collecter plus de données sur nous que n’importe quelle méthode de dépistage traditionnelle qui existait jusqu’à présent. Cela permet aux employeurs et aux entreprises d’accéder aux données privées qu’ils peuvent utiliser pour le profilage et la publicité – avec un risque accru de surveillance du comportement (et même de l’esprit).

AV-HuBERT a surpassé tous les anciens systèmes de reconnaissance vocale audiovisuels, même si, jusqu’à présent, il ne fonctionnait qu’avec un dixième de la quantité de données utilisées par ses prédécesseurs – avec seulement 26,9% WER (word error rate). En outre, il est 50 % meilleur que tous les modèles audio uniquement existants pour déchiffrer le contenu d’un discours dans un bruit de fond élevé.

Ses créateurs affirment qu’AV-HuBERT pourrait avoir de nombreuses utilisations nobles à l’avenir, telles que la création de modèles conversationnels pour langues à faibles ressources ou développer des systèmes de reconnaissance vocale pour les personnes ayant des troubles de la parole. Cependant, de nombreux chercheurs et un éthicien de l’IA de l’Université de Washington, Os Keyes, ont déjà souligné que ces affirmations sont injustifiées.

Il semble assez ironique de réussir à créer un logiciel de reconnaissance vocale qui dépend de la lecture labiale et qui est susceptible d’avoir des inexactitudes lorsqu’il est pointé vers … des personnes sourdes.

Éthicien de l’IA à l’Université de Washington, Os Keyes

Des conclusions similaires ont été tirées par de nombreux universitaires et chercheurs spécialisés dans le syndrome de Down, la maladie de Parkinson et les cas d’accident vasculaire cérébral – AV-HuBERT ne sera probablement pas efficace dans ces cas car les personnes atteintes de ces conditions n’auront probablement pas le même visage expressions en tant que personnes neurotypiques.

Les dangers cachés de cette technologie sont encore plus troublants que les lacunes mentionnées de l’IA de reconnaissance vocale que Meta développe. Imaginez à quel point il serait facile pour les acteurs de la menace de collecter des données à partir de vos conversations les plus sensibles en installant simplement une caméra vidéo uniquement. Il en va de même pour les produits Meta VR qui ont le pouvoir de collecter des données sans restriction. L’extorsion, la manipulation psychologique et pire encore ne sont que quelques exemples parmi une longue liste de scénarios potentiels horribles.

D’un point de vue éthique

Alors que les informations biométriques auparavant inaccessibles deviennent désormais disponibles pour nos employeurs, des entreprises aléatoires, des gouvernements et peut-être même des acteurs de la menace, la partie la plus inquiétante reste que Meta est celui qui détient le monopole de ces avancées technologiques de collecte de données.

Jusqu’à présent, nous ne pouvons pas dire que Meta, ou Facebook (nous ne sommes toujours pas convaincus qu’un changement de nom puisse effacer un historique problématique), a raisonnablement utilisé ses découvertes et ses ressources ou a inspiré beaucoup de confiance concernant la gestion des données des utilisateurs. Procès après procès, l’entreprise a réévalué son principe d’innovation, changé ses stratégies commerciales et changé de nom, mais Meta respectera-t-il à l’avenir les droits à la vie privée de ses utilisateurs ? Avec la portée de ces nouvelles avancées technologiques, nous ne pouvons que l’espérer.

Rate this post
Publicité
Article précédent18 jeux comme Fortnite qui valent le détour
Article suivantBELLE Compositeur principal Taisei Iwasaki

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici