Cloudflare, le fournisseur de services cloud coté en bourse, a lancé un nouvel outil gratuit pour empêcher les bots de récupérer les sites Web hébergés sur sa plateforme pour obtenir des données afin d’entraîner des modèles d’IA.

Certains fournisseurs d’IA, dont google, OpenAI et apple, permettent aux propriétaires de sites Web de bloquer les bots qu’ils utilisent pour le grattage de données et l’entraînement des modèles en modifiant le robots.txt de leur site, le fichier texte qui indique aux bots les pages auxquelles ils peuvent accéder sur un site Web. Mais, comme le souligne Cloudflare dans un Publier annonçant son outil de lutte contre les bots, tous les scrapers d’IA ne respectent pas cela.

« Les clients ne veulent pas que des robots IA visitent leurs sites Web, et en particulier ceux qui le font de manière malhonnête », écrit la société sur son blog officiel. « Nous craignons que certaines entreprises d’IA qui ont l’intention de contourner les règles pour accéder au contenu ne s’adaptent constamment pour échapper à la détection des bots. »

Ainsi, pour tenter de résoudre le problème, Cloudflare a analysé le trafic des bots et des robots d’exploration de l’IA pour affiner les modèles de détection automatique des bots. Les modèles examinent, entre autres facteurs, si un robot d’IA pourrait essayer d’échapper à la détection en imitant l’apparence et le comportement d’une personne utilisant un navigateur Web.

« Lorsque des acteurs malveillants tentent d’explorer des sites Web à grande échelle, ils utilisent généralement des outils et des cadres que nous sommes en mesure d’identifier », écrit Cloudflare. « Sur la base de ces signaux, nos modèles [are] capables de signaler de manière appropriée le trafic provenant de bots d’IA évasifs comme des bots. »

Publicité

Cloudflare a mis en place un formulaire permettant aux hôtes de signaler les bots et les robots d’IA suspectés et indique qu’il continuera à mettre manuellement les bots d’IA sur liste noire au fil du temps.

Le problème des bots d’IA est apparu comme une évidence alors que le boom de l’IA générative alimente la demande de données d’entraînement de modèles.

De nombreux sites, méfiants des fournisseurs d’IA qui entraînent des modèles sur leur contenu sans les alerter ni les rémunérer, ont choisi de bloquer les scrapers et les crawlers d’IA. Environ 26% des 1 000 premiers sites sur le Web ont bloqué le bot d’OpenAI, selon l’un d’entre eux étudier; autre a révélé que plus de 600 éditeurs de presse avaient bloqué le bot.

Le blocage n’est cependant pas une protection infaillible. Comme mentionné précédemment, certains fournisseurs semblent ignorer les règles standard d’exclusion des bots pour obtenir un avantage concurrentiel dans la course à l’IA. Le moteur de recherche d’IA Perplexity a récemment été accusé de se faire passer pour des visiteurs légitimes pour récupérer du contenu sur des sites Web, et OpenAI et Anthropic l’auraient parfois fait Ignoré robots.txt règles.

Dans un lettre aux éditeurs le mois dernier, la start-up de licences de contenu TollBit a déclaré qu’en fait, elle voyait « de nombreux agents d’IA » ignorer la norme robots.txt.

Des outils comme celui de Cloudflare pourraient aider, mais seulement s’ils s’avèrent précis dans la détection des bots d’IA clandestins. Et ils Ne résoudre le problème plus insoluble des éditeurs qui risquent de sacrifier le trafic de référence des outils d’IA comme AI Overviews de Google, qui excluent les sites de l’inclusion s’ils bloquent des robots d’exploration d’IA spécifiques.

5/5 - (314 votes)
Publicité
Article précédentLa difficulté d'Elden Ring détruite par de nouvelles armes de bouclier, alors que les joueurs les qualifient de « complètement détruites »
Article suivantSamsung affiche correctement le stockage système dans Android 14

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici