À l’ère de l’IA générative, où les chatbots peuvent fournir des réponses détaillées à des questions basées sur du contenu tiré d’Internet, la frontière entre l’usage loyal et le plagiat, et entre le grattage Web de routine et le résumé contraire à l’éthique, est mince.

Perplexity AI est une startup qui combine un moteur de recherche avec un grand modèle de langage qui génère des réponses avec des réponses détaillées, plutôt que de simples liens. Contrairement à ChatGPT d’OpenAI et Claude d’Anthropic, Perplexity n’entraîne pas ses propres modèles d’IA fondamentaux, mais utilise plutôt des modèles ouverts ou disponibles dans le commerce pour prendre les informations qu’il recueille sur Internet et les traduire en réponses.

Mais une série d’accusations en juin suggère que l’approche de la startup frise l’impasse éthique. Forbes a appelé Perplexity pour avoir prétendument plagié l’un de ses articles de presse dans la fonctionnalité bêta Perplexity Pages de la startup. Et Wired a accusé Perplexity d’avoir illégalement récupéré son site Web, ainsi que d’autres sites.

Perplexity, qui s’efforçait en avril de lever 250 millions de dollars pour une valorisation de près de 3 milliards de dollars, maintient qu’elle n’a rien fait de mal. La société soutenue par Nvidia et Jeff Bezos affirme qu’elle a honoré les demandes des éditeurs de ne pas récupérer de contenu et qu’elle opère dans les limites des lois sur le droit d’auteur d’utilisation équitable.

La situation est compliquée. Au cœur de ce concept se trouvent des nuances autour de deux concepts. Le premier est le protocole d’exclusion des robots, une norme utilisée par les sites Web pour indiquer qu’ils ne veulent pas que leur contenu soit consulté ou utilisé par les robots d’indexation. Le second est l’utilisation équitable dans la loi sur le droit d’auteur, qui établit le cadre juridique permettant l’utilisation de matériel protégé par le droit d’auteur sans autorisation ni paiement dans certaines circonstances.

Publicité

Scraping subrepticement de contenu web

GettyImages 511199168
Crédits image : Getty Images

L’article de Wired du 19 juin affirme que Perplexity a ignoré le protocole d’exclusion des robots pour gratter subrepticement des zones de sites Web auxquelles les éditeurs ne veulent pas que les robots accèdent. Wired a rapporté avoir observé une machine liée à Perplexity faire cela sur son propre site d’information, ainsi que dans d’autres publications de sa société mère, Condé Nast.

Le rapport a noté que le développeur Robb Knight a mené une expérience similaire et arriva à la même conclusion.

Les journalistes de Wired et Knight ont testé leurs soupçons en demandant à Perplexity de résumer une série d’URL, puis en regardant du côté du serveur une adresse IP associée à Perplexity visiter ces sites. Perplexity a ensuite « résumé » le texte de ces URL – bien que dans le cas d’un site Web factice avec un contenu limité que Wired a créé à cette fin, il a renvoyé le texte de la page mot pour mot.

C’est là que les nuances du protocole d’exclusion des robots entrent en jeu.

Le web scraping est techniquement lorsque des logiciels automatisés connus sous le nom de robots d’indexation parcourent le Web pour indexer et collecter des informations sur les sites Web. Les moteurs de recherche comme google le font pour que les pages Web puissent être incluses dans les résultats de recherche. D’autres entreprises et chercheurs utilisent des robots d’exploration pour recueillir des données sur Internet à des fins d’analyse de marché, de recherche universitaire et, comme nous l’avons appris, d’entraînement de modèles d’apprentissage automatique.

Les web scrapers en conformité avec ce protocole rechercheront d’abord le fichier « robots.txt » dans le code source d’un site pour voir ce qui est autorisé et ce qui ne l’est pas – aujourd’hui, ce qui n’est pas autorisé est généralement de scraper le site d’un éditeur pour construire des ensembles de données d’entraînement massifs pour l’IA. Les moteurs de recherche et les sociétés d’IA, y compris Perplexity, ont déclaré qu’ils se conformaient au protocole, mais ils ne sont pas légalement obligés de le faire.

Le responsable commercial de Perplexity, Dmitry Shevelenko, a déclaré à fr.techtribune.netque résumer une URL n’est pas la même chose que d’explorer. « L’exploration, c’est quand vous aspirez simplement des informations et les ajoutez à votre index », a déclaré Shevelenko. Il a noté que l’adresse IP de Perplexity pourrait apparaître comme un visiteur d’un site Web qui est « autrement interdit de robots.txt » uniquement lorsqu’un utilisateur met une URL dans sa requête, ce qui « ne répond pas à la définition de l’exploration ».

« Nous répondons simplement à une demande directe et spécifique d’un utilisateur d’accéder à cette URL », a déclaré Shevelenko.

En d’autres termes, si un utilisateur fournit manuellement une URL à une IA, Perplexity dit que son IA n’agit pas comme un robot d’indexation mais plutôt comme un outil pour aider l’utilisateur à récupérer et à traiter les informations qu’il a demandées.

Mais pour Wired et de nombreux autres éditeurs, c’est une distinction sans différence, car visiter une URL et en extraire les informations pour résumer le texte ressemble beaucoup à du scraping si c’est fait milleet de fois par jour.

(Wired a également rapporté qu’Amazon Web Services, l’un des fournisseurs de services cloud de Perplexity, est Enquête sur la startup pour avoir ignoré robots.txt protocole permettant de récupérer les pages Web que les utilisateurs ont citées dans leur invite. AWS a déclaré à fr.techtribune.netque le rapport de Wired était inexact et qu’il avait dit au média qu’il traitait sa demande de médias comme il le fait pour tout autre rapport alléguant un abus du service.)

Plagiat ou usage loyal ?

capture d’écran de Perplexity Pages
Forbes a accusé Perplexity d’avoir plagié son scoop sur l’ancien PDG de Google, Eric Schmidt, développant des drones de combat alimentés par l’IA.
Crédits image : Perplexité / Capture d’écran

Wired et Forbes ont également accusé Perplexity de plagiat. Ironiquement, dit Wired Perplexité a plagié l’article même qui a appelé la startup pour avoir subrepticement récupéré son contenu Web.

Les journalistes de Wired ont déclaré que le chatbot Perplexity « a produit un message de six paragraphes, Texte de 287 mots résumant étroitement les conclusions de l’histoire et les preuves utilisées pour y parvenir. » Une phrase reproduit exactement une phrase de l’histoire originale ; Wired dit que cela constitue du plagiat. Les lignes directrices de l’Institut Poynter dis-le qu’il pourrait s’agir de plagiat si l’auteur (ou l’IA) utilisait sept mots consécutifs de l’œuvre source originale.

Forbes a également accusé Perplexity de plagiat. Le site d’information a publié un Rapport d’enquête début juin sur la façon dont la nouvelle entreprise du PDG de Google, Eric Schmidt, recrute massivement et teste des drones alimentés par l’IA avec des applications militaires. Le lendemain, le rédacteur en chef de Forbes, John Paczkowski, posté le X disant que Perplexity avait republié le scoop dans le cadre de sa fonctionnalité bêta, Perplexity Pages.

Pages de perplexité, qui n’est disponible que pour certains abonnés de Perplexity pour le moment, est un nouvel outil qui promet d’aider les utilisateurs à transformer la recherche en « contenu complet et visuellement époustouflant », selon Perplexity. Des exemples de ce type de contenu sur le site proviennent des employés de la start-up et comprennent des articles tels que « Un guide du débutant à la batterie » ou « Steve Jobs : PDG visionnaire ».

« Cela arrache la plupart de nos reportages », a écrit Paczkowski. « Il nous cite, ainsi que quelques-uns qui nous ont reblogués, comme sources de la manière la plus facilement ignorée possible. »

Forbes a rapporté que de nombreux messages qui ont été sélectionnés par l’équipe de Perplexity sont « étonnamment similaires aux histoires originales de plusieurs publications, dont Forbes, CNBC et Bloomberg ». Forbes a déclaré que les messages avaient recueilli des dizaines de milliers de vues et ne mentionnaient aucune des publications par leur nom dans le texte de l’article. Au lieu de cela, les articles de Perplexity comprenaient des attributions sous la forme de « petits logos faciles à manquer qui y renvoient ».

En outre, Forbes a déclaré que le message sur Schmidt contient « une formulation presque identique » au scoop de Forbes. L’agrégation comprenait également une image créée par l’équipe de conception de Forbes qui semblait avoir été légèrement modifiée par Perplexity.

Le PDG de Perplexity, Aravind Srinivas, a répondu à Forbes à l’époque en disant que la startup citerait les sources de manière plus visible à l’avenir – une solution qui n’est pas infaillible, car les citations elles-mêmes sont confrontées à des difficultés techniques. ChatGPT et d’autres modèles ont des liens hallucinés, et comme Perplexity utilise des modèles OpenAI, il est susceptible d’être sensible à de telles hallucinations. En fait, Wired a rapporté qu’il avait observé Perplexité hallucinant des histoires entières.

En plus de noter les « bords rugueux » de Perplexity, Srinivas et la société ont largement doublé le droit de Perplexity d’utiliser ce type de contenu pour les résumés.

C’est là que les nuances de l’usage loyal entrent en jeu. Le plagiat, bien que mal vu, n’est pas techniquement illégal.

Selon le Bureau du droit d’auteur des États-Unis, il est légal d’utiliser des parties limitées d’une œuvre, y compris des citations, à des fins telles que le commentaire, la critique, le reportage et les rapports universitaires. Des sociétés d’IA comme Perplexity postulent que fournir un résumé d’un article est dans les limites de l’usage loyal.

« Personne n’a le monopole des faits », a déclaré Shevelenko. « Une fois que les faits sont révélés au grand jour, ils sont à la disposition de tous. »

Shevelenko a comparé les résumés de Perplexity à la façon dont les journalistes utilisent souvent des informations provenant d’autres sources d’information pour renforcer leurs propres reportages.

Mark McKenna, professeur de droit à l’Institut de technologie, de droit et de politique de l’UCLA, a déclaré à fr.techtribune.netque la situation n’était pas facile à démêler. Dans un cas d’usage loyal, les tribunaux évalueraient si le résumé utilise une grande partie de l’expression de l’article original, par opposition aux idées. Ils pourraient également examiner si la lecture du résumé pourrait remplacer la lecture de l’article.

« Il n’y a pas de lignes claires », a déclaré McKenna. « Alors [Perplexity] dire factuellement ce qu’un article dit ou ce qu’il rapporte utiliserait des aspects non protégés par le droit d’auteur de l’œuvre. Ce ne seraient que des faits et des idées. Mais plus le résumé comprend une expression et un texte réels, plus cela commence à ressembler à une reproduction, plutôt qu’à un simple résumé.

Malheureusement pour les éditeurs, à moins que Perplexity n’utilise des expressions complètes (et apparemment, dans certains cas, c’est le cas), ses résumés pourraient ne pas être considérés comme une violation de l’usage loyal.

comment Perplexity vise à se protéger

Des sociétés d’IA comme OpenAI ont signé des accords médias avec une série d’éditeurs de presse pour accéder à leur contenu actuel et d’archives sur lequel entraîner leurs algorithmes. En retour, OpenAI promet de faire apparaître des articles de presse de ces éditeurs en réponse aux requêtes des utilisateurs dans ChatGPT. (Mais même cela a quelques défauts qui doivent être résolus, comme l’a rapporté Nieman Lab la semaine dernière.)

Perplexity s’est abstenu d’annoncer sa propre série d’accords médiatiques, attendant peut-être que les accusations portées contre lui se dissipent. Mais la société est « à pleine vitesse » sur une série d’accords de partage des revenus publicitaires avec les éditeurs.

L’idée est que Perplexity commencera à inclure des publicités à côté des réponses aux requêtes, et que les éditeurs dont le contenu est cité dans une réponse recevront une part des revenus publicitaires correspondants. Shevelenko a déclaré que Perplexity s’efforce également de permettre aux éditeurs d’accéder à sa technologie afin qu’ils puissent créer des expériences de questions-réponses et alimenter des éléments tels que des questions connexes nativement dans leurs sites et produits.

Mais n’est-ce qu’une feuille de vigne pour le vol systémique de propriété intellectuelle ? Perplexity n’est pas le seul chatbot qui menace de résumer le contenu si complètement que les lecteurs ne voient pas la nécessité de cliquer sur le matériel source original.

Et si des scrapers d’IA comme celui-ci continuent de prendre le travail des éditeurs et de le réutiliser pour leurs propres entreprises, les éditeurs auront plus de mal à gagner des dollars publicitaires. Cela signifie qu’il y aura finalement moins de contenu à gratter. Lorsqu’il n’y aura plus de contenu à gratter, les systèmes d’IA générative passeront alors à l’entraînement sur des données synthétiques, ce qui pourrait conduire à une boucle de rétroaction infernale de contenu potentiellement biaisé et inexact.

5/5 - (306 votes)
Publicité
Article précédentOù trouver l'arbalète à répétition
Article suivantCréer l'univers d'Overwatch dans Infinite Craft

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici