Accueil Google Google veut un équivalent robots.txt pour la formation en IA

Google veut un équivalent robots.txt pour la formation en IA

Par

septembre 14, 2023

Les grands modèles de langage sont formés sur d’énormes quantités de données, y compris sur le Web. Google est j’appelle maintenant pour « des moyens lisibles par machine pour le choix et le contrôle des éditeurs Web pour les cas d’utilisation émergents de l’IA et de la recherche », ou un robots.txt moderne.

Google affirme que le fait que les éditeurs Web aient « le choix et le contrôle » sur leur contenu est un élément important du maintien d’un écosystème dynamique. Il montre comment les fichiers robots.txt permettent aux sites de définir si les moteurs de recherche peuvent explorer et indexer leur contenu.

Cependant, nous reconnaissons que les contrôles existants pour les éditeurs Web ont été développés avant les nouveaux cas d’utilisation de l’IA et de la recherche.

En tant que tel, Google souhaite rassembler « les éditeurs Web, la société civile, le monde universitaire et d’autres domaines du monde entier » pour discuter de l’équivalent moderne du robots.txt pour la formation en IA. Il montre comment cette communauté a développé norme Webqui a presque 30 ans, s’est montré « simple et transparent ».

L’entreprise dispose aujourd’hui de Search Generative Experience, Bard, et forme activement Gemini, son modèle de base de nouvelle génération.

Google souhaite un débat public avec un formulaire d’inscription permettant aujourd’hui aux groupes d’exprimer leur intérêt avant le coup d’envoi : « La liste de diffusion est destinée aux membres des communautés du Web et de l’IA qui souhaitent recevoir de futurs messages concernant le processus de développement de nouveaux moyens lisibles par machine pour offrir le choix et le contrôle aux éditeurs Web. »

Il s’agira de « convoquer ceux qui souhaitent participer au cours des prochains mois ».