Accueil Tech today Un YouTuber intente un recours collectif contre le grattage des transcriptions des...

Un YouTuber intente un recours collectif contre le grattage des transcriptions des créateurs par OpenAI

Par

août 5, 2024

Un créateur de youtube cherche à intenter un recours collectif contre OpenAI, alléguant que la société a formé ses modèles d’IA générative sur des millions de transcriptions de vidéos YouTube sans en informer ni indemniser les propriétaires des vidéos.

Dans un plainte déposée vendredi devant le tribunal de district américain du district nord de la Californie, les avocats de David Millette, un utilisateur de YouTube basé dans le Massachusetts, allèguent qu’OpenAI a subrepticement transcrit les vidéos de Millette et d’autres créateurs pour former les modèles qui alimentent la plate-forme de chatbot alimentée par l’IA de la société, ChatGPT, et d’autres outils et produits d’IA générative. En collectant ces données, OpenAI a « profité de manière significative » du travail des créateurs, allègue la plainte, tout en violant la loi sur le droit d’auteur et les conditions d’utilisation de YouTube qui interdisent l’utilisation de vidéos pour des applications indépendantes de son service.

« Comme [OpenAI’s] Les produits d’IA deviennent plus sophistiqués grâce à l’utilisation d’ensembles de données d’entraînement, ils deviennent plus précieux pour les utilisateurs potentiels et actuels, qui achètent des abonnements pour accéder à [OpenAI’s] des produits d’IA », peut-on lire dans la plainte. « Une grande partie du matériel des ensembles de données d’entraînement d’OpenAI, cependant, provient d’œuvres qui ont été copiées par OpenAI sans consentement, sans crédit et sans compensation. »

Millette, représenté par le cabinet d’avocats Bursor and Fisher, réclame un procès devant jury et plus de 5 millions de dollars de dommages et intérêts pour tous les utilisateurs de YouTube dont les données auraient pu être balayées dans la formation d’OpenAI.

Les modèles d’IA générative comme ceux d’OpenAI n’ont pas de véritable intelligence. Nourris d’un grand nombre d’exemples (par exemple, des films, des enregistrements vocaux, des essais, etc.), les modèles « apprennent » la probabilité que les données se produisent en fonction de modèles, y compris le contexte des données environnantes.

La plupart des modèles sont entraînés sur des données provenant de sites Web publics et d’ensembles de données sur le Web. Les entreprises affirment que l’utilisation équitable protège leurs efforts pour extraire des données sans discernement et les utiliser pour former des modèles commerciaux. Cependant, de nombreux détenteurs de droits d’auteur ne sont pas d’accord – et ils intentent des poursuites visant à mettre fin à la pratique.

Les transcriptions vidéo sont devenues un ingrédient clé des données d’entraînement alors que d’autres puits de données s’assèchent, pour ainsi dire.

Plus de 35 % des 1 000 plus grands sites Web du monde bloque désormais le robot d’indexation d’OpenAI, selon les données de Originality.AI. Et environ 25 % des données provenant de sources « de haute qualité » ont été restreintes dans les principaux ensembles de données utilisés pour former les modèles d’IA, un étudier par l’initiative de provenance des données du MIT. Si la tendance actuelle au blocage d’accès se poursuit, le groupe de recherche Epoch AI Prédit que les développeurs seront à court de données pour former des modèles d’IA générative entre 2026 et 2032.

En avril, le New York Times Signalé qu’OpenAI a créé son premier modèle de reconnaissance vocale, Whisper, dans le but de transcrire l’audio des vidéos pour collecter des données d’entraînement supplémentaires. Une équipe d’OpenAI, dont faisait partie le président de la société, Greg Brockman, a transcrit plus d’un million d’heures de vidéos de YouTube à l’aide de Whisper, selon le Times, et a utilisé les transcriptions pour former le modèle de génération et d’analyse de texte GPT-4 d’OpenAI.

Certains membres du personnel d’OpenAI ont discuté de la façon dont une telle décision pourrait aller à l’encontre des règles de YouTube, selon le Times.

En juillet, Proof News apple-nvidia-anthropic-used-thousands-of-swiped-youtube-videos-to-train-ai/ »>Signalé que des entreprises telles qu’Anthropic, Apple, Salesforce et Nvidia ont utilisé un ensemble de données appelé The Pile, qui contient des sous-titres de centaines de milliers de vidéos YouTube, pour former des modèles d’IA générative. De nombreux créateurs de YouTube dont les sous-titres ont été balayés dans The Pile n’étaient pas au courant et n’y ont pas consenti ; Apple a ensuite publié une déclaration indiquant qu’elle n’avait pas l’intention d’utiliser ces modèles pour alimenter des fonctionnalités d’IA dans ses produits.

google, la société mère de YouTube, a également cherché à utiliser les transcriptions pour former ses modèles.

L’année dernière Google a élargi ses conditions d’utilisation (ToS) en partie pour permettre à l’entreprise d’exploiter davantage de données utilisateur pour l’entraînement des modèles d’IA générative. Dans le cadre de l’ancienne CGU, il n’était pas clair si Google pouvait utiliser les données de YouTube pour créer des produits au-delà de la plate-forme vidéo. Ce n’est pas le cas dans les nouvelles conditions, qui desserrent considérablement les rênes.

Nous avons contacté OpenAI et Google pour obtenir des commentaires sur le recours collectif et nous mettrons à jour cet article s’ils répondent.

Le début du mois a été difficile pour OpenAI.

PDG de Tesla et X Elon Musk a déposé lundi une nouvelle plainte contre OpenAI et le PDG Sam Altman accusant l’entreprise d’abandonner sa mission initiale à but non lucratif en réservant certaines de ses technologies les plus sophistiquées à la communicationclients ercial. Musk a fait les mêmes affirmations dans un procès intenté en février contre OpenAI, mais la nouvelle poursuite allègue qu’OpenAI se livre également à des activités de racket.