OAKLAND, Californie – En 2000, deux ans seulement après sa création, Google a atteint une étape cela jetterait les bases de sa domination au cours des 20 prochaines années: il est devenu le plus grand moteur de recherche du monde, avec un index de plus d’un milliard de pages Web.

Le reste d’Internet n’a jamais rattrapé son retard et l’index de Google n’a cessé de s’agrandir. Aujourd’hui, il se situe entre 500 et 600 milliards de pages Web, selon les estimations.

Maintenant, alors que les régulateurs du monde entier examinent les moyens de réduire le pouvoir de Google, y compris un cas de monopole de recherche attendu de la part des procureurs généraux dès cette semaine et le procès antitrust le ministère de la Justice a déposé en octobre, ils se battent avec une entreprise dont la taille même lui a permis d’écraser les concurrents. Et ces concurrents pointent les enquêteurs vers cet énorme indice, le centre de gravité de l’entreprise.

«Si les gens utilisent un moteur de recherche avec un index plus petit, ils n’obtiendront pas toujours les résultats qu’ils souhaitent. Ensuite, ils vont sur Google et restent chez Google », a déclaré Matt Wells, qui a commencé Gigablast, un moteur de recherche avec un index d’environ cinq milliards de pages Web, il y a environ 20 ans. «Un petit gars comme moi ne peut pas rivaliser.»

Comprendre le fonctionnement de la recherche de Google est essentiel pour comprendre pourquoi tant d’entreprises trouvent qu’il est presque impossible de concurrencer et, en fait, font tout leur possible pour répondre à ses besoins.

Publicité

Chaque demande de recherche fournit à Google plus de données pour rendre son algorithme de recherche plus intelligent. Google a effectué tellement plus de recherches que tout autre moteur de recherche qu’il a établi un énorme avantage sur ses concurrents pour comprendre ce que les consommateurs recherchent. Cette avance ne fait que s’élargir, puisque Google détient une part de marché d’environ 90%.

Google dirige des milliards d’utilisateurs vers des emplacements sur Internet, et les sites Web, avides de ce trafic, créent un ensemble de règles différent pour l’entreprise. Les sites Web fournissent souvent un accès plus large et plus fréquent aux soi-disant robots d’exploration de Google – des ordinateurs qui parcourent automatiquement Internet et analysent les pages Web – permettant à l’entreprise de proposer un index plus complet et à jour de ce qui est disponible sur Internet.

Lorsqu’il travaillait sur le site de musique Bandcamp, Zack Maril, un ingénieur en logiciel, s’est inquiété de la façon dont la domination de Google l’avait rendu si essentiel pour les sites Web.

En 2018, lorsque Google a déclaré que son robot d’exploration, Googlebot, avait des problèmes avec l’une des pages de Bandcamp, M. Maril a fait de la résolution du problème une priorité car Google était essentiel au trafic du site. Lorsque d’autres robots rencontraient des problèmes, Bandcamp les bloquait généralement.

M. Maril a continué à rechercher les différentes façons dont les sites Web ouvraient des portes à Google et les fermaient à d’autres. L’année dernière, il a envoyé un rapport de 20 pages, «Comprendre Google», à un sous-comité antitrust de la Chambre, puis a rencontré des enquêteurs pour expliquer pourquoi d’autres entreprises ne pouvaient pas recréer l’index de Google.

«C’est en grande partie une source d’énergie incontrôlée pour son monopole», a déclaré M. Maril, 29 ans, qui travaille dans une autre entreprise technologique qui n’est pas en concurrence directe avec Google. Il a demandé au New York Times de ne pas identifier son employeur puisqu’il ne parlait pas en sa faveur.

Un rapport publié cette année par le sous-comité de la Chambre a cité les recherches de M. Maril sur les efforts de Google pour créer une carte en temps réel d’Internet et comment cela avait «verrouillé sa domination». Alors que le ministère de la Justice cherche à dénouer les accords commerciaux de Google qui placent son moteur de recherche au premier plan sur des milliards de smartphones et d’ordinateurs, M. Maril exhorte le gouvernement à intervenir et à réglementer l’index de Google. Une porte-parole de Google a refusé de commenter.

Les sites Web et les moteurs de recherche sont symbiotiques. Les sites Web dépendent des moteurs de recherche pour le trafic, tandis que les moteurs de recherche ont besoin d’un accès pour explorer les sites afin de fournir des résultats pertinents aux utilisateurs. Mais chaque robot d’exploration met à rude épreuve les ressources d’un site Web en termes de coûts de serveur et de bande passante, et certains robots d’exploration agressifs ressemblent à des risques de sécurité qui peuvent détruire un site.

Étant donné que l’exploration de leurs pages coûte de l’argent, les sites Web sont incités à ne le faire que par les moteurs de recherche qui dirigent suffisamment de trafic vers eux. Dans le monde actuel de la recherche, cela laisse Google et – dans certains cas – Bing de Microsoft.

Google et Microsoft sont les seuls moteurs de recherche qui dépensent des centaines de millions de dollars par an pour maintenir une carte en temps réel de l’Internet en anglais. Cela s’ajoute aux milliards qu’ils ont dépensés au fil des ans pour créer leurs indices, selon un rapport publié cet été par l’Autorité britannique de la concurrence et des marchés.

Google détient une longueur d’avance sur Microsoft en plus de parts de marché. Les autorités britanniques de la concurrence ont déclaré que l’indice de Google comprenait entre 500 et 600 milliards de pages Web, contre 100 à 200 milliards pour Microsoft.

D’autres grandes entreprises technologiques déploient des robots d’exploration à d’autres fins. Facebook dispose d’un robot d’exploration pour les liens qui apparaissent sur son site ou ses services. Amazon affirme que son robot d’exploration aide à améliorer son assistant vocal, Alexa. Apple a son propre robot d’exploration, Applebot, qui a alimenté les spéculations selon lesquelles il pourrait chercher à créer son propre moteur de recherche.

Mais l’indexation a toujours été un défi pour les entreprises sans poches profondes. Le moteur de recherche DuckDuckGo, soucieux de la confidentialité, a décidé d’arrêter d’explorer l’ensemble du Web il y a plus de dix ans et regroupe désormais les résultats de Microsoft. Il explore toujours des sites comme Wikipédia pour fournir des résultats pour les boîtes de réponse qui apparaissent dans ses résultats, mais la gestion de son propre index n’a généralement pas de sens financier pour l’entreprise.

«Cela coûte plus cher que ce que nous pouvons nous permettre», a déclaré Gabriel Weinberg, directeur général de DuckDuckGo. Dans une déclaration écrite pour le sous-comité antitrust de la Chambre l’année dernière, la société a déclaré qu ‘«un démarrage de moteur de recherche en herbe aujourd’hui (et dans un avenir prévisible) ne peut pas éviter le besoin» de se tourner vers Microsoft ou Google pour ses résultats de recherche.

Lorsque FindX a commencé à développer une alternative à Google en 2015, la société danoise a décidé de créer son propre index et a proposé un algorithme de création personnalisée pour fournir des résultats personnalisés.

FindX a rapidement rencontré des problèmes. Les grands opérateurs de sites Web, tels que Yelp et LinkedIn, n’ont pas permis au tout nouveau moteur de recherche d’explorer leurs sites. En raison d’un bogue dans son code, les ordinateurs de FindX qui exploraient Internet ont été signalés comme un risque de sécurité et bloqués par un groupe des plus grands fournisseurs d’infrastructure d’Internet. Les pages qu’ils collectaient étaient souvent du spam ou des pages Web malveillantes.

«Si vous devez faire l’indexation, c’est la chose la plus difficile à faire», a déclaré Brian Schildt Laursen, l’un des fondateurs de FindX, qui a fermé ses portes en 2018.

M. Schildt Laursen a lancé un nouveau moteur de recherche l’année dernière, Givero, qui offrait aux utilisateurs la possibilité de donner une partie des revenus de l’entreprise à des œuvres caritatives. Lorsqu’il a lancé Givero, il a syndiqué les résultats de recherche de Microsoft.

La plupart des grands sites Web sont judicieux pour savoir qui peut explorer leurs pages. En général, Google et Microsoft ont plus d’accès car ils ont plus d’utilisateurs, tandis que les petits moteurs de recherche doivent demander la permission.

« Vous avez besoin du trafic pour convaincre les sites Web de vous permettre de copier et d’explorer, mais vous avez également besoin du contenu pour développer votre index et augmenter votre trafic », a déclaré Marc Al-Hames, co-directeur général de Cliqz, un Allemand moteur de recherche qui a fermé cette année après sept ans de fonctionnement. «C’est un problème de poule et d’oeuf.»

En Europe, un groupe appelé Open Search Foundation a proposé un plan visant à créer un index Internet commun pouvant étayer de nombreux moteurs de recherche européens. Il est essentiel d’avoir une diversité d’options pour les résultats de recherche, a déclaré Stefan Voigt, président et fondateur du groupe, car il n’est pas bon pour seulement une poignée d’entreprises de déterminer quels liens les gens sont affichés et non affichés.

«Nous ne pouvons tout simplement pas laisser cela à une ou deux entreprises», a déclaré M. Voigt.

Lorsque M. Maril a commencé à rechercher comment les sites traitaient le robot d’exploration de Google, il a téléchargé 17 millions de fichiers dits robots.txt – essentiellement des règles de la route publiées par presque tous les sites Web indiquant où les robots d’exploration peuvent aller – et a trouvé de nombreux exemples où Google avait un meilleur accès. que les concurrents.

ScienceDirect, un site pour les articles évalués par des pairs, permet uniquement au robot d’exploration de Google d’avoir accès aux liens contenant des documents PDF. Seuls les ordinateurs de Google ont accès aux annonces sur PBS Kids. Sur Alibaba.com, le site américain du géant chinois du e-commerce Alibaba, seul le robot d’exploration de Google a accès aux pages répertoriant les produits.

Cette année, M. Maril a lancé une organisation, la Club des Knuckleheads (« Parce que seul un coup de cœur s’attaquerait à Google ») et un site Web pour sensibiliser le public au monopole de l’exploration Web de Google.

« Google a tout ce pouvoir dans la société », a déclaré M. Maril. « Mais je pense qu’il devrait y avoir un contrôle démocratique – petit d – de ce pouvoir. »

Rate this post
Publicité
Article précédentAugmentation de l’EE 5G «Stade connecté»
Article suivantPNGRB: Torrent Gas conclut un pacte avec le Tamil Nadu pour investir Rs 5000 cr dans la distribution de gaz de ville infra
Avatar
Violette Laurent est une blogueuse tech nantaise diplômée en communication de masse et douée pour l'écriture. Elle est la rédactrice en chef de fr.techtribune.net. Les sujets de prédilection de Violette sont la technologie et la cryptographie. Elle est également une grande fan d'Anime et de Manga.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici