Il y a une grande opportunité pour l’IA générative dans le monde de la traduction, et une startup appelée Panjaya pousse le concept à un niveau supérieur : un outil de doublage hyperréaliste basé sur l’IA pour les vidéos qui recrée la voix originale d’une personne parlant la nouvelle langue, la vidéo et les mouvements physiques de l’orateur se modifiant automatiquement pour correspondre naturellement aux nouveaux modèles de discours.
Après avoir été en furtivité au cours des trois dernières années, la startup dévoile BodyTalk, la première version de son produit, ainsi que son premier financement extérieur de 9,5 millions de dollars.
Panjaya est l’idée originale de Hilik Shani et Ariel Shalom, deux spécialistes de l’apprentissage profond qui ont passé la majorité de leur vie professionnelle à travailler discrètement sur la technologie d’apprentissage profond pour le gouvernement israélien et sont maintenant respectivement directeur général et directeur technique de la startup. Ils ont raccroché leur chapeau de G-man en 2021 avec la démangeaison de la startup, et il y a 1,5 an, ils ont été rejoints par Guy Piekarz en tant que PDG.
Piekarz n’est pas l’un des fondateurs de Panjaya, mais c’est un nom notable à avoir à bord : en 2013, il a vendu une startup qu’il a n’a trouvé à apple. Matcha, comme on l’appelait, était un acteur précoce et buzzé dans la découverte et la recommandation de vidéos en streaming, et il a été acquis au tout début de la stratégie TV et de streaming d’Apple, alors qu’il s’agissait plus de rumeurs que de produits réels. Le matcha a été amorcé et vendu pour une chanson : 10 à 15 millions de dollars – ce qui est modeste compte tenu de l’orientation significative qu’Apple a finalement prise dans les médias en streaming.
Piekarz est resté chez Apple pendant près d’une décennie, construisant Apple TV, puis sa verticale sportive. Ensuite, il a été présenté à Panjaya par l’intermédiaire de Viola Ventures, l’un de ses bailleurs de fonds (parmi les autres figurent R-Squared Ventures, le cofondateur et PDG de JFrog, Shlomi Ben Haim, Chris Rice, Guy Schory, Ryan Floyd de Storm Ventures, Ali Behnam de Riviera Partners et Oded Vardi.
« J’avais quitté Apple à ce moment-là et j’avais l’intention de faire quelque chose de complètement différent », a déclaré Piekarz. « Cependant, voir une démo de la technologie m’a époustouflé, et le reste appartient à l’histoire. »
BodyTalk est intéressant pour la façon dont il apporte simultanément plusieurs éléments technologiques qui jouent sur différents aspects des médias synthétiques dans le cadre.
Cela commence par la traduction audio qui peut actuellement offrir des traductions en 29 langues. La traduction est ensuite prononcée avec une voix qui imite celle de l’orateur d’origine, qui à son tour est réglée sur une version de la vidéo originale où les lèvres et d’autres mouvements de l’orateur sont modifiés pour s’adapter aux nouveaux mots et à la nouvelle formulation. Tout cela est créé automatiquement sur les vidéos une fois que les utilisateurs les ont téléchargées sur la plate-forme, qui est également livrée avec un tableau de bord qui comprend d’autres outils d’édition. Les projets futurs incluent une API, ainsi que le rapprochement du traitement en temps réel. (À l’heure actuelle, BodyTalk est « presque en temps réel », ce qui ne prend que quelques minutes pour traiter les vidéos, a déclaré Piekarz.)
« Nous utilisons le meilleur de sa catégorie là où nous en avons besoin », a déclaré Piekarz à propos de l’utilisation par l’entreprise de grands modèles de langage tiers et d’autres outils. « Et nous construisons nos propres modèles d’IA là où le marché n’a pas vraiment de solution. »
Un exemple de cela est la synchronisation labiale de l’entreprise, a-t-il poursuivi. « L’ensemble de notre moteur de synchronisation labiale est développé en interne par notre équipe de recherche en IA, car nous n’avons rien trouvé qui atteigne ce niveau et cette qualité de plusieurs haut-parleurs, d’angles et de tous les cas d’utilisation commerciale que nous voulons prendre en charge. »
Pour l’instant, elle se concentre uniquement sur le B2B ; parmi ses clients figurent JFrog et l’organisation médiatique TED. La société prévoit de se développer davantage dans les médias, en particulier dans des domaines tels que le sport, l’éducation, le marketing, les soins de santé et la médecine.