Toutes les sessions de Transform 2021 sont disponibles à la demande dès maintenant. Regarde maintenant.


En 2019, Google a publié Translatotron, un système d’IA capable de traduire directement la voix d’une personne dans une autre langue. Le système pourrait créer des traductions synthétisées de voix pour conserver intact le son de la voix du locuteur d’origine. Mais Translatotron pourrait également être utilisé pour générer un discours avec une voix différente, ce qui le rendrait propice à une utilisation abusive potentielle, par exemple dans les deepfakes.

Cette semaine, les chercheurs de Google ont discrètement publié un article détaillant le successeur de Translatotron, Translatotron 2, qui résout le problème d’origine avec Translatotron en limitant le système pour conserver la voix du locuteur source. De plus, Translatotron 2 surpasse le Translatotron original par « une large marge » en termes de qualité de traduction et de naturel, ainsi que « considérablement » réduit les artefacts indésirables comme le babillage et les longues pauses.

Comme les chercheurs l’expliquent dans l’article, Translatotron 2 se compose d’un encodeur de parole source, d’un décodeur de phonème cible et d’un synthétiseur, connectés via un module d’attention. Pour chaque donnée traitée par l’encodeur et le décodeur, le module d’attention évalue la pertinence de toutes les autres données et en tire un résultat. L’encodeur crée une représentation numérique de la parole tandis que le décodeur prédit les séquences de phonèmes correspondant à la parole traduite. (Les phonèmes sont la plus petite unité de son qui distingue un mot d’un autre mot dans une langue.) Quant au synthétiseur, il prend la sortie du décodeur ainsi que la sortie de contexte du module d’attention comme entrée, synthétisant la voix traduite .

Voici un goûter en espagnol:


Et voici la traduction anglaise de Translatotron 2 :

Pour empêcher le système de générer la parole dans la voix d’un autre locuteur, les chercheurs ont développé une méthode de mémorisation de la voix qui ne repose pas sur des identifiants explicites pour identifier les locuteurs, contrairement à la méthode de réapprentissage de la voix utilisée avec le Translatotron d’origine. Cela rend Translatotron 2 plus approprié pour les environnements de production en atténuant les abus potentiels pour la création de deepfakes ou de voix usurpées, selon l’équipe de recherche.

“Les performances de la conversion vocale ont progressé rapidement au cours des dernières années et atteignent une qualité difficile à détecter pour les systèmes de vérification automatique des haut-parleurs”, ont écrit les chercheurs dans le document. « De tels progrès soulèvent des inquiétudes quant aux techniques connexes utilisées à mauvais escient pour créer des artefacts d’usurpation d’identité, nous avons donc conçu Translatotron 2 avec la motivation d’éviter une telle utilisation abusive potentielle. »

Menace profonde

L’article sur Translatotron 2 intervient alors que la recherche montre que les entreprises pourraient ne pas être préparées à lutter contre les deepfakes, ou les médias générés par l’IA qui prennent une personne dans un enregistrement existant et la remplacent par la ressemblance de quelqu’un d’autre. Selon la startup Deeptrace, le nombre de deepfakes sur le Web a augmenté de 330% d’octobre 2019 à juin 2020, atteignant plus de 50 000 à leur apogée. Et dans une enquête publiée plus tôt cette année par Attestiv, moins de 30 % des organisations déclarent avoir pris des mesures pour lutter contre les retombées d’une attaque deepfake.

La tendance est troublante non seulement parce que ces contrefaçons peuvent être utilisées pour influencer l’opinion lors d’une élection ou impliquer une personne dans un crime, mais parce qu’elles ont déjà été abusées pour générer des matériel pornographique d’acteurs et frauder une énergie majeure producteur. Plus tôt cette année, le FBI averti que les deepfakes sont une menace émergente critique ciblant les entreprises.

La lutte contre les deepfakes restera probablement difficile à mesure que les techniques de génération de médias continuent de s’améliorer. Avec Translatotron 2, les chercheurs de Google espèrent éviter les efforts sophistiqués qui pourraient émerger à l’avenir.

VentureBeat

La mission de VentureBeat est d’être une place publique numérique permettant aux décideurs techniques d’acquérir des connaissances sur la technologie transformatrice et d’effectuer des transactions. Notre site fournit des informations essentielles sur les technologies et les stratégies de données pour vous guider dans la gestion de vos organisations. Nous vous invitons à devenir membre de notre communauté, pour accéder à :

  • des informations à jour sur les sujets qui vous intéressent
  • nos newsletters
  • contenu de leader d’opinion fermé et accès à prix réduit à nos événements prisés, tels que Transformer 2021: Apprendre encore plus
  • fonctionnalités de mise en réseau, et plus

Devenir membre

Leave a Reply