La grande disponibilité d’outils pour créer une IA générative a conduit à une explosion cambrienne de startups dans ce domaine. L’abondance de capitaux n’a pas fait de mal non plus, pas plus que la baisse du coût de l’infrastructure technique requise.
En fait, l’une des applications les plus flashy de l’IA générative, la vidéo générative, risque d’être sursaturée. Des laboratoires tels que Genmo, Haper et Comptines AI publient des modèles à un rythme rapide et, dans certains cas, peu de choses les distinguent de l’état de l’art précédent.
Naeem Talukdar pense que la confiance – et non les capacités d’un modèle, nécessairement – est ce qui distinguera certaines entreprises de vidéo générative des autres. C’est pourquoi il fonde Vallée de la lune, une start-up basée à Los Angeles qui développe des outils vidéo génératifs ostensiblement plus « transparents ».
Talukdar a dirigé la croissance des produits chez Zapier avant de fonder une société soutenue par Y Combinator, Draft, qui hébergeait une place de marché pour le contenu d’IA d’entreprise. Il a recruté Mateusz Malinowski et Mik Binkowski pour lancer Moonvalley, tous deux anciens scientifiques de DeepMind, où ils ont étudié les techniques de génération de vidéos.
« Nous partagions la conviction que la génération vidéo allait transformer les médias et le divertissement, mais les startups que nous avons vues opérer dans l’espace n’avaient pas les attributs nécessaires pour réussir », a déclaré Talukdar à TechCrunch. « Les entreprises existantes étaient profondément hostiles aux artistes, aux créateurs et à l’ensemble de l’industrie. »
Pour revenir à l’argument de Talukdar, la plupart des entreprises d’IA générative entraînent des modèles sur des données publiques, dont certaines sont invariablement protégées par le droit d’auteur. Ces entreprises soutiennent que Utilisation équitable la doctrine protège la pratique. Par exemple, OpenAI a Insisté qu’il ne peut pas former correctement des modèles sans matériel protégé par le droit d’auteur, et Suno a fait valoir que l’entraînement sans discernement n’est pas différent d’un « enfant qui écrit ses propres chansons rock après avoir écouté le genre ».
Mais cela n’a pas arrêté les titulaires de droits contre le dépôt de plaintes ou le dépôt de la cessation et de l’abstention.
Les vendeurs sont devenus assez effrontés, même si Les poursuites judiciaires contre eux s’accumulent. Au début de l’année, l’ancienne directrice technique d’OpenAI, Mira Murati, n’a pas nié catégoriquement que le modèle vidéo d’OpenAI, Sora, avait été formé sur des clips youtube violation de la politique d’utilisation de YouTube. Ailleurs, un 404 Média suggère que Runway, une startup de vidéo générative, a récupéré des séquences YouTube de chaînes appartenant à Disney et à des créateurs comme MKBHD sans autorisation.
La jeune entreprise canadienne d’IA Viggle admet carrément qu’elle utilise des vidéos YouTube pour alimenter ses modèles vidéo. Et, comme la plupart de ses rivaux, il n’offre aucun recours aux créateurs dont les œuvres auraient pu être balayées par sa formation.
« Les modèles génératifs doivent respecter les droits d’auteur, les marques et les droits de ressemblance », a déclaré Talukdar. « C’est pourquoi nous travaillons en étroite collaboration avec les créateurs sur nos modèles. »
Moonvalley, qui ne dispose pas encore d’un modèle vidéo entièrement formé, affirme qu’elle est l’une des rares entreprises à utiliser exclusivement des données sous licence de propriétaires de contenu qui ont « opté pour l’adhésion ». Pour couvrir ses bases, Moonvalley a l’intention de permettre aux créateurs de demander que leur contenu soit supprimé de ses modèles, de permettre aux clients de supprimer leurs données à tout moment et d’offrir une politique d’indemnisation pour protéger les utilisateurs contre les contestations de droits d’auteur.
L’approche est parallèle à celle d’Adobe, qui forme ses modèles vidéo Firefly sur du contenu sous licence à partir de sa plate-forme Adobe Stock. Talukdar n’a pas voulu dire combien Moonvalley paie aux contributeurs pour les clips, mais cela pourrait être beaucoup. Bloomberg Signalé qu’Adobe offrait environ 120 $ pour 40 à 45 minutes de vidéo.
Pour être clair, Moonvalley ne se procure pas de contenu lui-même. Il travaille avec des partenaires anonymes qui gèrent les accords de licence et regroupent les vidéos dans des ensembles de données que Moonvalley achète.
Ces partenaires – appelés « courtiers en données » – sont très demandés de nos jours, grâce au boom de l’IA générative. Le marché des données d’entraînement de l’IA est attendu pour passer d’environ 2,5 milliards de dollars aujourd’hui à près de 30 milliards de dollars d’ici une décennie.
« Nous concédons des licences pour des données de haute qualité provenant de plusieurs sources qui travaillent directement avec les créateurs et les rémunèrent bien pour l’utilisation de leur contenu », a ajouté Talukdar. « Nous nous assurons d’utiliser un ensemble de données diversifié et de haute qualité. »
Contrairement à certains modèles vidéo « non filtrés » qui insèrent facilement l’image d’une personne dans les clips, Moonvalley s’engage également à mettre en place des garde-fous autour de son outil créatif. À l’instar de Sora d’OpenAI, les modèles de Moonvalley bloquent certains contenus, comme les phrases NSFW, et ne permettent pas aux gens de les inciter à générer des vidéos de personnes ou de célébrités spécifiques.
Bien sûr, aucun filtre n’est parfait, mais Talukdar dit que ce « red-teaming » sera un élément central de la stratégie de sortie de Moonvalley.
« Alors que la relation entre les médias et l’IA continue d’évoluer rapidement, et non sans scepticisme, Moonvalley vise à s’imposer comme le partenaire le plus fiable des organisations médiatiques », a-t-il déclaré.
Mais Moonvalley peut-il vraiment rivaliser ?
Comme nous l’avons mentionné précédemment, google, Meta et d’innombrables autres poursuivent la vidéo générative, avec divers degrés de considération éthique. Les géants de la technologie modifient leurs conditions d’utilisation pour obtenir un avantage en matière de données : Google entraîne son modèle vidéo Veo sur les vidéos YouTube, tandis que Meta forme ses modèles sur le contenu Instagram et Facebook.
Moonvalley espère séduire les marques et les maisons créatives, mais certains fournisseurs ont déjà fait des progrès significatifs dans ce domaine. Runway a récemment signé un accord avec Lionsgate pour former un modèle personnalisé sur le catalogue de films du studio. Stabilité IA Recruté le réalisateur d' »Avatar », James Cameron, à son conseil d’administration ; et OpenAI s’est associé à Marques et Administrateurs indépendants pour mettre en valeur le potentiel de Sora.
Ensuite, il y a Adobe, qui s’attaque au marché cible de Moonvalley : les artistes et les créateurs de contenu qui veulent des outils vidéo génératifs plus sûrs (d’un point de vue juridique, du moins).
Le défi de Moonvalley est triple. Il devra convaincre les clients que ses outils sont compétitifs par rapport à ce qui existe déjà. Il devra construire suffisamment de pistes pour pouvoir former et servir les modèles de suivi. Et il devra s’assurer une base de clients fidèles qui ne changeront pas de fournisseur à tout moment.
De nombreux artistes et créateurs se méfient à juste titre de l’IA générative, car elle menace de bouleverser l’industrie du cinéma et de la télévision. Un 2024 étudier commandé par l’Animation Guild, un syndicat représentant les animateurs et les dessinateurs hollywoodiens, estime que plus de 100 000 emplois basés aux États-Unis dans le cinéma, la télévision et l’animation seront perturbés par l’IA d’ici 2026.
« Notre objectif est de créer des outils pour aider les créateurs à créer un contenu toujours plus grandiose et immersif », a déclaré Talukdar lorsque je l’ai interrogé sur le risque que les créatifs perdent leur emploi à cause de l’IA générative.
Sur le front des pistes, Moonvalley a fait quelques progrès : la société a récemment levé 70 millions de dollars lors d’un tour de financement d’amorçage codirigé par General Catalyst et Khosla Ventures, avec la participation de Bessemer Ventures. Cela financera la R&D et l’embauche de Moonvalley.
Actuellement, l’entreprise compte environ 30 employés qui ont précédemment travaillé chez DeepMind, Meta, Microsoft et TikTok, explique Talukdar.
« Ce qui nous différencie des autres entreprises, c’est l’orientation produit », a-t-il ajouté. « Alors que le cœur de notre entreprise réside dans la formation de modèles génératifs de pointe, nous nous concentrons sur la création d’outils créatifs profondément capables de transformer ces modèles en équipements puissants pour les créateurs professionnels, les studios et les marques. »
Talukdar dit que le plan est de sortir le premier modèle de Moonvalley plus tard cette année. L’entreprise devra se dépêcher si elle espère battre les prochaines sorties de Black Forest Labs, Luma Labs, À mi-parcours, et l’éléphant dans la pièce.