Aujourd’hui, une entreprise…Google (en anglais seulement—contrôle la quasi-totalité de l’accès mondial à l’information sur Internet. Leur monopole dans la recherche signifie pour des milliards de personnes, leur passerelle vers la connaissance, vers les produits, et leur exploration du Web est entre les mains d’une seule entreprise. La plupart s’accordent à dire que ce manque de concurrence dans la recherche est mauvais pour les individus, les communautés et la démocratie.
À l’insu de beaucoup, l’un des plus grands obstacles à la concurrence dans la recherche est le manque de neutralité du crawl. La seule façon de construire un moteur de recherche indépendant et la chance de rivaliser équitablement avec Big Tech est d’abord d’explorer Efficacement et efficacement Internet. Cependant, le Web est un environnement activement hostile pour les robots d’exploration des moteurs de recherche débutants, la plupart des sites Web n’autorisant que le robot d’exploration de Google et discriminant les autres robots d’exploration des moteurs de recherche comme Neeva’s.
Ce problème d’une importance cruciale, mais souvent négligé, a un impact énorme sur le fait d’empêcher les moteurs de recherche émergents comme Neeva de fournir aux utilisateurs de véritables alternatives, réduisant ainsi davantage la concurrence dans la recherche. Semblable à la neutralité du net, nous avons aujourd’hui besoin d’une approche de la neutralité du crawl. Sans un changement de politique et de comportement, les concurrents en recherche continueront à se battre avec une main attachée dans le dos.
Commençons par le début. La création d’un index complet du Web est une condition préalable à la concurrence dans la recherche. En d’autres termes, la première étape de la construction du Moteur de recherche Neeva est en train de « télécharger Internet » via le robot d’exploration de Neeva, appelé Neevabot.
C’est là que les ennuis commencent. Pour la plupart, les sites Web ne permettent qu’aux robots d’exploration de Google et de Bing d’accéder sans entrave tout en discriminant d’autres robots d’exploration comme celui de Neeva. Ces sites interdisent tout le reste dans leurs robots.txt fichiers, ou (plus communément) ne disent rien dans les robots.txt, mais renvoient des erreurs au lieu du contenu à d’autres robots d’exploration. L’intention peut être de filtrer les acteurs malveillants, mais la conséquence est de jeter le bébé avec l’eau du bain. Et vous ne pouvez pas diffuser les résultats de recherche si vous ne pouvez pas explorer le Web.
Cela oblige les startups à consacrer des quantités démesurées de temps et de ressources à trouver des solutions de contournement. Par exemple, Neeva met en œuvre une politique de « crawling d’un site tant que les robots.txt autorise GoogleBot et n’interdit pas spécifiquement Neevabot ». Même après une solution de contournement comme celle-ci, les parties du Web qui contiennent des résultats de recherche utiles restent inaccessibles à de nombreux moteurs de recherche.
Comme deuxième exemple, de nombreux sites Web autorisent souvent un robot d’exploration non-Google via des robots.txt et le bloquent d’autres manières, soit en lançant divers types d’erreurs (503s, 429s, …) ou en limitant les taux. Pour explorer ces sites, il faut déployer des solutions de contournement telles que « obscurcir en explorant à l’aide d’une banque d’adresses IP proxy qui tournent périodiquement ». Les moteurs de recherche légitimes comme Neeva répugnent à déployer des solutions de contournement contradictoires comme celle-ci.
Ces obstacles sont souvent destinés à des robots malveillants, mais ont pour effet d’étouffer la concurrence légitime en matière de recherche. Chez Neeva, nous mettons beaucoup d’efforts à construire un crawler bien comporté qui respecte les limites de débit et explore au taux minimum nécessaire pour construire un excellent moteur de recherche. Pendant ce temps, Google a carte blanche. Il explore le Web 50B pages par jour. Il visite chaque page du Web une fois tous les trois jours et taxe la bande passante du réseau sur tous les sites Web. C’est la taxe du monopoleur sur Internet.
Pour les crawlers chanceux parmi nous, un ensemble de sympathisants, de webmasters et d’éditeurs bien intentionnés peuvent vous aider à mettre votre bot sur liste blanche. Grâce à eux, le crawl de Neeva s’étend maintenant sur des centaines de millions de pages par jour, en voie d’atteindre des milliards de pages par jour bientôt. Même dans ce cas, cela nécessite toujours d’identifier les bonnes personnes dans ces entreprises à qui vous pouvez parler, d’envoyer des e-mails et des appels à froid, et d’espérer la bonne volonté des webmasters sur les alias de webmasters qui sont généralement ignorés. Un correctif temporaire qui n’est pas évolutif.
Obtenir la permission d’explorer ne devrait pas concerner qui vous connaissez. Il devrait y avoir des règles du jeu égales pour tous ceux qui concourent et suivent les règles. Google est un monopole dans la recherche. Les sites Web et les webmasters sont confrontés à un choix impossible. Laissez Google les explorer ou n’apparaissez pas en évidence dans les résultats Google. En conséquence, le monopole de recherche de Google amène Internet dans son ensemble à renforcer le monopole en donnant à Googlebot un accès préférentiel.
Internet ne devrait pas être autorisé à faire la distinction entre les robots d’exploration des moteurs de recherche en fonction de qui ils sont. Le robot d’exploration de Neeva est capable d’explorer le Web à la vitesse et à la profondeur de Google. Il n’y a pas de limites techniques, juste des forces de marché anticoncurrentielles qui rendent plus difficile une concurrence équitable. Et si c’est trop de travail supplémentaire pour que les webmasters puissent distinguer les mauvais robots qui ralentissent leurs sites Web des moteurs de recherche légitimes, ceux qui ont carte blanche comme GoogleBot devraient être tenus de partager leurs données avec des acteurs responsables.
Les régulateurs et les décideurs doivent intervenir s’ils se soucient de la concurrence dans la recherche. Le marché a besoin d’une neutralité rampante, similaire à la neutralité du net.
Vivek Raghunathan est cofondateur de Neeva, un moteur de recherche privé sans publicité. Asim Shankar est le directeur de la technologie de Neeva.
Non mais les gars, vous avez tout fait pour : demandé la censure depuis 2015/2016 massive de tout ce qui ne vous plaisait pas intellectuellement, fait du harcèlement dirigé contre tous vos opposants&co.
Maintenant vous êtes dans votre nouveau monde, assumez et fermez vos gueules