Accueil Tech today Dirigé par un fondateur qui a vendu une start-up vidéo à Apple,...

Multicultural Crowd of People. Group of different men and women. Young, adult and older peole. European, Asian, African and Arabian People. Empty faces. Vector illustration.

Dirigé par un fondateur qui a vendu une start-up vidéo à Apple, Panjaya utilise des techniques de deepfake pour mordre dans le doublage vidéo

Par

novembre 8, 2024

Il y a une grande opportunité pour l’IA générative dans le monde de la traduction, et une startup appelée Panjaya pousse le concept à un niveau supérieur : un outil de doublage hyperréaliste basé sur l’IA pour les vidéos qui recrée la voix originale d’une personne parlant la nouvelle langue, la vidéo et les mouvements physiques de l’orateur se modifiant automatiquement pour correspondre naturellement aux nouveaux modèles de discours.

Après avoir été en furtivité au cours des trois dernières années, la startup dévoile BodyTalk, la première version de son produit, ainsi que son premier financement extérieur de 9,5 millions de dollars.

Panjaya est l’idée originale de Hilik Shani et Ariel Shalom, deux spécialistes de l’apprentissage profond qui ont passé la majorité de leur vie professionnelle à travailler discrètement sur la technologie d’apprentissage profond pour le gouvernement israélien et sont maintenant respectivement directeur général et directeur technique de la startup. Ils ont raccroché leur chapeau de G-man en 2021 avec la démangeaison de la startup, et il y a 1,5 an, ils ont été rejoints par Guy Piekarz en tant que PDG.

Piekarz n’est pas l’un des fondateurs de Panjaya, mais c’est un nom notable à avoir à bord : en 2013, il a vendu une startup qu’il a n’a trouvé à apple. Matcha, comme on l’appelait, était un acteur précoce et buzzé dans la découverte et la recommandation de vidéos en streaming, et il a été acquis au tout début de la stratégie TV et de streaming d’Apple, alors qu’il s’agissait plus de rumeurs que de produits réels. Le matcha a été amorcé et vendu pour une chanson : 10 à 15 millions de dollars – ce qui est modeste compte tenu de l’orientation significative qu’Apple a finalement prise dans les médias en streaming.

Piekarz est resté chez Apple pendant près d’une décennie, construisant Apple TV, puis sa verticale sportive. Ensuite, il a été présenté à Panjaya par l’intermédiaire de Viola Ventures, l’un de ses bailleurs de fonds (parmi les autres figurent R-Squared Ventures, le cofondateur et PDG de JFrog, Shlomi Ben Haim, Chris Rice, Guy Schory, Ryan Floyd de Storm Ventures, Ali Behnam de Riviera Partners et Oded Vardi.

« J’avais quitté Apple à ce moment-là et j’avais l’intention de faire quelque chose de complètement différent », a déclaré Piekarz. « Cependant, voir une démo de la technologie m’a époustouflé, et le reste appartient à l’histoire. »

BodyTalk est intéressant pour la façon dont il apporte simultanément plusieurs éléments technologiques qui jouent sur différents aspects des médias synthétiques dans le cadre.

Cela commence par la traduction audio qui peut actuellement offrir des traductions en 29 langues. La traduction est ensuite prononcée avec une voix qui imite celle de l’orateur d’origine, qui à son tour est réglée sur une version de la vidéo originale où les lèvres et d’autres mouvements de l’orateur sont modifiés pour s’adapter aux nouveaux mots et à la nouvelle formulation. Tout cela est créé automatiquement sur les vidéos une fois que les utilisateurs les ont téléchargées sur la plate-forme, qui est également livrée avec un tableau de bord qui comprend d’autres outils d’édition. Les projets futurs incluent une API, ainsi que le rapprochement du traitement en temps réel. (À l’heure actuelle, BodyTalk est « presque en temps réel », ce qui ne prend que quelques minutes pour traiter les vidéos, a déclaré Piekarz.)

« Nous utilisons le meilleur de sa catégorie là où nous en avons besoin », a déclaré Piekarz à propos de l’utilisation par l’entreprise de grands modèles de langage tiers et d’autres outils. « Et nous construisons nos propres modèles d’IA là où le marché n’a pas vraiment de solution. »

Un exemple de cela est la synchronisation labiale de l’entreprise, a-t-il poursuivi. « L’ensemble de notre moteur de synchronisation labiale est développé en interne par notre équipe de recherche en IA, car nous n’avons rien trouvé qui atteigne ce niveau et cette qualité de plusieurs haut-parleurs, d’angles et de tous les cas d’utilisation commerciale que nous voulons prendre en charge. »

Pour l’instant, elle se concentre uniquement sur le B2B ; parmi ses clients figurent JFrog et l’organisation médiatique TED. La société prévoit de se développer davantage dans les médias, en particulier dans des domaines tels que le sport, l’éducation, le marketing, les soins de santé et la médecine.

youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio »/>

Les vidéos de traduction qui en résultent sont très étranges, un peu comme ce que vous obtenez avec les deepfakes, bien que Piekarz grimace à ce terme, qui a pris des connotations négatives au fil des ans qui sont exactement à l’opposé du marché visé par la startup.

« Le ‘deepfake’ n’est pas quelque chose qui nous intéresse », a-t-il déclaré. « Nous cherchons à éviter tout ce nom. » Au lieu de cela, a-t-il dit, pensez à Panjaya comme faisant partie de la « catégorie de la réalité profonde ».

En visant uniquement le marché B2B et en contrôlant qui peut accéder à ses outils, l’entreprise crée des « garde-fous » autour de la technologie pour se protéger contre les abus, a-t-il ajouté. Il pense également qu’à plus long terme, il y aura plus d’outils construits, y compris le filigrane, pour aider à détecter quand des vidéos ont été modifiées pour créer des médias synthétiques, à la fois légitimes et néfastes. « Nous voulons absolument en faire partie et ne pas permettre la désinformation », a-t-il déclaré.

Les petits caractères

Il y a un certain nombre de startups qui sont en concurrence avec Panjaya s’inscrit dans le domaine plus large de la traduction de vidéos basée sur l’IA, y compris de grands noms comme Vimeo et Eleven Labs, ainsi que des acteurs plus petits comme Speechify et Synthesis. Pour tous, trouver des moyens d’améliorer le fonctionnement du doublage est un peu comme nager à contre-courant. En effet, les sous-titres sont devenus un élément très standard de la consommation vidéo de nos jours.

À la télévision, c’est pour une litanie de raisons comme des haut-parleurs médiocres, des bruits de fond dans nos vies bien remplies, des acteurs qui marmonnent, des budgets de production limités et plus d’effets sonores. CBS a révélé dans un sondage auprès des téléspectateurs américains que plus de la moitié d’entre eux gardaient des sous-titres « une partie (21%) ou tout (34%) du temps ».

Mais certains aiment les légendes simplement parce qu’elles sont divertissantes à lire, et il y a eu tout un culte construit autour de cela.

Sur les réseaux sociaux et autres applications, les sous-titres sont tout simplement intégrés à l’expérience. TikTok, par exemple, a commencé en novembre 2023 à activer le sous-titrage par défaut sur toutes les vidéos.

Néanmoins, il reste un énorme marché international pour le contenu doublé, et même si l’anglais est souvent considéré comme la lingua franca d’Internet, il existe des preuves provenant de groupes de recherche comme CSA que le contenu diffusé dans les langues maternelles suscite un meilleur engagement, en particulier dans le contexte B2B. L’argumentaire de Panjaya est qu’un contenu plus naturel en langue maternelle pourrait faire encore mieux.

Certains de ses clients semblent soutenir cette théorie. TED affirme que les discussions doublées à l’aide des outils de Panjaya ont connu une augmentation de 115 % du nombre de vues, les taux d’achèvement ayant doublé pour ces vidéos traduites.