Accueil Tech today DeepL lance DeepL Voice, des traductions textuelles en temps réel à partir...

DeepL lance DeepL Voice, des traductions textuelles en temps réel à partir de voix et de vidéos

Par

novembre 13, 2024

DeepL (en anglais) s’est fait un nom avec la traduction de texte en ligne qu’elle prétend être plus nuancée et précise que les services de google – un argumentaire qui a catapulté la startup allemande à une valorisation de 2 milliards de dollars et à plus de 100 000 clients payants. Aujourd’hui, alors que l’engouement pour les services d’IA continue de croître, l’entreprise ajoute un autre mode à la plate-forme : l’audio. Les utilisateurs pourront désormais utiliser DeepL Voice pour écouter quelqu’un parler dans une langue et la traduire automatiquement dans une autre, en temps réel.

L’anglais, l’allemand, le japonais, le coréen, le suédois, le néerlandais, le français, le turc, le polonais, le portugais, le russe, l’espagnol et l’italien sont les langues parlées que DeepL peut « entendre » aujourd’hui. Les sous-titres traduits, quant à eux, sont disponibles pour les 33 langues actuellement prises en charge par DeepL Translator.

DeepL Voice ne fournit actuellement pas le résultat sous forme de fichier audio ou vidéo lui-même : le service est destiné aux conversations en temps réel et aux vidéoconférences et se présente sous forme de texte et non d’audio.

Dans le premier d’entre eux, vous pouvez configurer vos traductions pour qu’elles apparaissent comme des « miroirs » sur un smartphone – l’idée étant que vous placez le téléphone entre vous sur une table de réunion pour que chaque partie voie les mots traduits – ou comme une transcription que vous partagez côte à côte avec quelqu’un. Le service de vidéoconférence voit les traductions apparaître sous forme de sous-titres.

Cela pourrait changer avec le temps, a laissé entendre Jarek Kutylowski, fondateur et PDG de l’entreprise (photo ci-dessus), dans une interview. Il s’agit du premier produit vocal de DeepL, mais il est peu probable que ce soit son dernier. “[Voice] c’est là que la traduction va se jouer l’année prochaine », a-t-il ajouté.

Il y a d’autres preuves à l’appui de cette affirmation. Google, l’un des plus grands concurrents de DeepL, a également commencé à intégrer des sous-titres traduits en temps réel dans son service de vidéoconférence Meet. Et il existe une multitude de startups d’IA qui créent des services de traduction vocale. Il s’agit notamment des efforts du spécialiste de la voix d’IA Eleven Labs (Doublage d’Eleven Labs) et d’autres comme Panjaya, qui crée des traductions à l’aide de voix « deepfake » et de vidéos qui correspondent à l’audio. Ce dernier utilise l’API d’Eleven Labs, et selon Kutylowski, Eleven Labs lui-même utilise la technologie de – vous l’avez deviné – DeepL pour alimenter son service de traduction.

La sortie audio n’est pas la seule chose qui n’a pas encore été lancée.

À l’heure actuelle, il n’existe pas non plus d’API pour le produit Voice. L’activité principale de DeepL est axée sur le B2B et Kutylowski a déclaré que l’entreprise travaillait directement avec des partenaires et des clients pour l’utiliser.

Il n’y a pas non plus un large choix d’intégrations : le seul service d’appel vidéo qui prend en charge les sous-titres de DeepL est actuellement Teams, qui « couvre la plupart de nos clients », a déclaré Kutylowski. On ne sait pas quand ou si Zoom, ou Google Meet d’ailleurs, intégrera DeepL Voice à l’avenir.

Le produit semblera long à venir pour les utilisateurs de DeepL, et pas seulement parce que nous avons été inondés d’une pléthore d’autres services vocaux d’IA destinés à la traduction. Kutylowski a déclaré qu’il s’agissait de la demande numéro un des clients depuis 2017, l’année du lancement de DeepL.

Une partie de la raison de l’attente est que DeepL a adopté une approche assez délibérée lorsqu’il s’agit de construire son produit. Comme beaucoup d’autres dans le monde des applications d’IA qui s’appuient sur les grands modèles de langage d’autres entreprises et les modifient, l’objectif de DeepL est de construire son service à partir de zéro. En juillet, l’entreprise libéré un nouveau LLM optimisé pour les traductions qui, selon lui, surpasse GPT-4, Google et Microsoft, notamment parce que son objectif principal est la traduction. Autour de cela, il a également continué à améliorer la qualité de sa production écrite et de son glossaire.

De même, l’un des arguments de vente uniques de DeepL Voice est qu’il fonctionnera en temps réel, ce qui est important étant donné que de nombreux services de traduction par IA sur le marché à l’heure actuelle fonctionnent en fait sur le délai, ce qui les rend plus difficiles/impossibles à utiliser dans des situations en direct, ce qui est le cas d’utilisation que DeepL aborde spécifiquement. Kutylowski a laissé entendre que c’était une autre raison pour laquelle ce nouveau produit de traitement de la voix se concentre sur les traductions textuelles : elles peuvent être calculées et produites très rapidement, tandis que le traitement et l’architecture de l’IA ont encore du chemin à parcourir avant de pouvoir produire de l’audio et de la vidéo aussi rapidement.

Bien que vous puissiez deviner que la vidéoconférence et les réunions sont des cas d’utilisation probables pour DeepL Voice, Kutylowski a noté qu’un autre Le principal projet de l’entreprise est celui de l’industrie des services, où les travailleurs de première ligne, par exemple, dans les restaurants, pourraient utiliser le service pour communiquer plus facilement avec les clients.

Cela pourrait être utile, mais cela met également en évidence l’un des points les plus rugueux du service. Dans un monde où nous sommes tous soudainement beaucoup plus conscients de la protection des données et où nous nous inquiétons de la façon dont les nouveaux services et plateformes cooptent des informations privées ou exclusives, il reste à voir dans quelle mesure les gens seront enthousiastes à l’idée que leur voix soit captée et utilisée de cette manière.

Kutylowski a insisté sur le fait que même si des voix se rendront sur ses serveurs pour être traduites (le traitement n’a pas lieu sur l’appareil), rien n’est conservé par ses systèmes, ni utilisé pour la formation de ses LLM, et qu’en fin de compte, il travaillera avec ses clients pour s’assurer qu’ils ne violent pas le RGPD ou toute autre réglementation sur la protection des données.