Accueil Tech today Le générateur de vidéos de Google arrive à plus de clients

Le générateur de vidéos de Google arrive à plus de clients

Par

décembre 3, 2024

Le générateur de vidéos de google s’adresse à quelques clients supplémentaires – les clients Google Cloud, pour être précis.

Mardi, Google a annoncé que Veo, son modèle d’IA capable de générer de courts clips vidéo à partir d’images et d’invites, sera disponible en avant-première privée pour les clients utilisant Vertex AI, la plate-forme de développement d’IA de Google Cloud.

Google affirme que le lancement permettra à un client, Quora, d’intégrer Veo à sa plate-forme de chatbot Poe, et à un autre, propriétaire d’Oreo, Mondelez International, de créer du contenu marketing avec ses agences partenaires.

« Nous avons créé Poe pour démocratiser l’accès aux meilleurs modèles d’IA générative au monde », a déclaré Spencer Chan, chef de produit Poe, dans un communiqué. « Grâce à des partenariats avec des leaders comme Google, nous élargissons les possibilités créatives dans toutes les modalités de l’IA. »

Table des matières hide

1 Groupe électrogène phare

2 Formation et risques

3 Veo partout

Groupe électrogène phare

Dévoilé en avril, Veo peut générer des clips 1080p d’animaux, d’objets et de personnes d’une durée maximale de six secondes à 24 ou 30 images par seconde. Google affirme que Veo est capable de capturer différents styles visuels et cinématographiques, y compris des prises de vue de paysages et des accélérés, et d’apporter des modifications à des séquences déjà générées.

Pourquoi cette longue attente pour l’API ? « La préparation de l’entreprise », déclare Warren Barkley, directeur principal de la gestion des produits chez Google Cloud.

« Depuis l’annonce de Veo, nos équipes ont augmenté, renforcé et amélioré le modèle pour les entreprises clientes sur Vertex AI », a-t-il déclaré. « À partir d’aujourd’hui, vous pouvez créer des vidéos haute définition en 720p, en paysage 16:9 ou en portrait 9:16. De la même manière que nous avons amélioré les capacités d’autres modèles tels que Gemini sur Vertex AI, nous continuerons à le faire pour Veo.

Veo comprend assez bien les effets visuels à partir des invites, dit Google (pensez aux légendes comme « énorme explosion »), et a une certaine compréhension de la physique, y compris de la dynamique des fluides. Le modèle prend également en charge le montage masqué pour les modifications apportées à des régions spécifiques d’une vidéo, et est techniquement capable d’enchaîner des séquences dans des projets plus longs.

De cette manière, Veo est compétitif avec les principaux modèles de génération de vidéos d’aujourd’hui – non seulement Sora d’OpenAI, mais aussi les modèles d’Adobe, Runway, Luma, Meta et d’autres.

Cela ne veut pas dire que Veo est parfait. Reflétant les limites de l’IA d’aujourd’hui, les objets des vidéos de Veo disparaissent et réapparaissent sans beaucoup d’explication ou de cohérence. Et Veo se trompe souvent de physique. Par exemple, les voitures vont inexplicablement, incroyablement reculer en un clin d’œil.

Formation et risques

Veo a été formé sur de nombreuses images. C’est généralement ainsi que cela fonctionne avec les modèles d’IA générative : avec des exemples après des exemples d’une certaine forme de données, les modèles détectent des modèles dans les données qui leur permettent de générer de nouvelles données – des vidéos, dans le cas de Veo.

Google, comme beaucoup de ses rivaux en matière d’IA, ne dira pas exactement d’où il tire les données pour former ses modèles génératifs. Interrogé sur Veo en particulier, Barkley a seulement dit que le modèle « pourrait » être formé sur « certains » contenus youtube « conformément à [Google’s] accord avec les créateurs de YouTube. (La société mère de Google, Alphabet, possède YouTube.)

« Veo a été formé sur une variété d’ensembles de données de vidéodescription de haute qualité, qui sont fortement organisés pour la sûreté et la Sécurité », a-t-il ajouté. « Les modèles fondamentaux de Google sont principalement formés sur des sources accessibles au public. »

Un reportage du New York Times en avril a révélé que Google a élargi ses conditions de service l’année dernière, en partie pour permettre à l’entreprise d’exploiter davantage de données pour entraîner ses modèles d’IA. En vertu de l’ancienne CGU, il n’était pas clair si Google pouvait utiliser les données de YouTube pour créer des produits au-delà de la plate-forme vidéo. Ce n’est pas le cas dans les nouvelles conditions, qui desserrent considérablement les rênes.

Un autre échantillon de Veo. **Crédits image :**Google (en anglais)

Bien que Google héberge des outils permettant aux webmasters d’empêcher les bots de l’entreprise de récupérer les données d’entraînement de leurs sites Web, il n’offre pas de mécanisme pour permettre aux créateurs de supprimer leurs œuvres de ses ensembles d’entraînement existants. Google maintient que les modèles d’entraînement utilisant des données accessibles au public sont Utilisation équitable, ce qui signifie que l’entreprise estime qu’elle n’est pas obligée de demander la permission aux propriétaires de données ou de les indemniser. (Google dit qu’il n’utilise pas les données des clients pour entraîner ses modèles, cependant.)

Grâce à la façon dont les modèles génératifs d’aujourd’hui se comportent lorsqu’ils sont entraînés, ils portent certains risques, comme la régurgitation, qui fait référence au moment où un modèle génère une copie miroir des données d’entraînement. Des outils comme ceux de Runway ont été trouvés pour cracher Stills substantiellement similaires à ceux des vidéos protégées par le droit d’auteur, ce qui pourrait constituer un champ de mines juridique pour les utilisateurs de ces outils.

La solution de Google consiste en des filtres de niveau invite pour Veo, y compris pour les contenus violents et explicites. En cas d’échec, la société affirme que son Politique d’indemnisation fournit une défense aux utilisateurs éligibles de Veo contre les allégations de violation du droit d’auteur.

« Nous prévoyons d’indemniser les sorties Veo sur Vertex AI lorsqu’elles seront généralement disponibles », a déclaré M. Barkley.

Veo partout

Au cours des derniers mois, Google a lentement intégré Veo dans un plus grand nombre de ses applications et services alors qu’il s’efforce de peaufiner le modèle.

En mai, Google a intégré Veo à Google Labs, son programme d’accès anticipé, pour certains testeurs. Et en septembre, Google a annoncé une intégration Veo pour YouTube Shorts, le format vidéo court de YouTube, afin de permettre aux créateurs de générer des arrière-plans et des clips vidéo de six secondes.

Qu’en est-il des risques de deepfake de tout cela, vous vous demandez peut-être ? Google dit qu’il utilise sa technologie propriétaire de filigrane, SynthID, pour intégrer des marqueurs invisibles dans les cadres générés par Veo. Certes, SynthID n’est pas infaillible contre les modifications, et Google n’a pas mis l’élément d’identification de contenu à la disposition de tiers.

Encore un échantillon de Veo. **Crédits image :**Google (en anglais)

Ces points peuvent être discutables si Veo ne gagne pas en popularité de manière significative. Sur le plan des partenariats, Google a cédé du terrain à ses rivaux de l’IA générative, qui ont rapidement réagi pour séduire les producteurs, les studios et les agences de création avec leurs outils. Runway a récemment signé un accord avec Lionsgate pour former un modèle personnalisé sur le catalogue de films du studio, et OpenAI s’est associé à Marques et Administrateurs indépendants pour mettre en valeur le potentiel de Sora.

Google a déclaré à un moment donné qu’il explorait les applications de Veo en collaboration avec des artistes tels que Donald Glover (alias Childish Gambino). La société n’a pas donné de mise à jour sur ces efforts de sensibilisation aujourd’hui.

L’argumentaire de Google pour Veo – un moyen de réduire les coûts et d’itérer rapidement sur le contenu vidéo – risque d’aliéner les créatifs. Un 2024 étudier commandé par l’Animation Guild, un syndicat représentant les animateurs et les dessinateurs hollywoodiens, estime que plus de 100 000 emplois basés aux États-Unis dans le cinéma, la télévision et l’animation seront perturbés par l’IA d’ici 2026.

Cela pourrait expliquer l’approche prudente, lente et régulière de Google. Lorsqu’on lui a demandé, Barkley n’a pas donné d’heure d’arrivée pour la disponibilité générale de Veo dans Vertex, ni dit quand Veo pourrait venir sur d’autres plates-formes et services Google.

Veo — **Crédits image :**Google (en anglais)

« Nous publions généralement les produits en avant-première en premier, car cela nous permet d’obtenir des commentaires réels d’un groupe sélectionné de nos clients d’entreprise avant qu’ils ne soient généralement disponibles pour une utilisation plus large », a-t-il déclaré. « Cela permet d’améliorer les fonctionnalités et de s’assurer que le produit répond aux besoins de nos clients. »

Dans une annonce connexe aujourd’hui, Google a déclaré que son générateur d’images phare, Imagen 3, est désormais disponible pour tous les clients de Vertex AI sans liste d’attente. Il a acquis de nouvelles fonctionnalités de personnalisation et d’édition d’images, mais celles-ci sont pour l’instant bloquées derrière une liste d’attente distincte.