En réponse à une question sur les raisons pour lesquelles les outils de référencement n’affichent pas tous les backlinks, John Mueller, avocat de recherche de Google, affirme qu’il est impossible d’explorer l’ensemble du Web.
Ceci est indiqué dans un commentaire sur Reddit dans un fil de discussion lancé par un professionnel du référencement frustré.
Ils demandent pourquoi tous les liens pointant vers un site ne sont pas trouvés par un outil de référencement qu’ils utilisent.
L’outil utilisé par la personne n’est pas important. Comme nous l’apprenons de Mueller, il n’est pas possible pour quelconque outil pour découvrir 100% des liens entrants d’un site Web.
Voici pourquoi.
Il n’y a aucun moyen d’explorer le Web « correctement »
Mueller dit qu’il n’y a pas de moyen objectivement correct d’explorer le Web parce qu’il a un nombre infini d’URL.
Personne n’a les ressources nécessaires pour conserver une quantité infinie d’URL dans une base de données, alors les robots d’indexation tentent de déterminer ce qui vaut la peine d’être exploré
Comme l’explique Mueller, cela conduit inévitablement à ce que les URL soient explorées rarement ou pas du tout.
« Il n’y a aucun moyen objectif d’explorer correctement le Web.
Il est théoriquement impossible de tout explorer, car le nombre d’URL réelles est effectivement infini. Étant donné que personne ne peut se permettre de conserver un nombre infini d’URL dans une base de données, tous les robots d’indexation font des hypothèses, des simplifications et des suppositions sur ce qui vaut la peine d’être exploré de manière réaliste.
Et même dans ce cas, à des fins pratiques, vous ne pouvez pas explorer tout cela tout le temps, Internet n’a pas assez de connectivité et de bande passante pour cela, et cela coûte beaucoup d’argent si vous voulez accéder à beaucoup de pages régulièrement (pour le robot d’exploration et pour le propriétaire du site).
Au-delà de cela, certaines pages changent rapidement, d’autres n’ont pas changé depuis 10 ans – les robots d’exploration essaient donc d’économiser des efforts en se concentrant davantage sur les pages qu’ils s’attendent à changer, plutôt que sur celles qu’ils s’attendent à ne pas changer.
Comment les robots d’indexation déterminent ce qui vaut la peine d’être exploré
Mueller poursuit en expliquant comment les robots d’indexation, y compris les moteurs de recherche et les outils de référencement, déterminent quelles URL valent la peine d’être explorées.
« Et puis, nous touchons à la partie où les robots d’exploration essaient de déterminer quelles pages sont réellement utiles.
Le Web est rempli de déchets dont personne ne se soucie, de pages qui ont été spammées dans l’inutilité. Ces pages peuvent encore changer régulièrement, elles peuvent avoir des URL raisonnables, mais elles sont simplement destinées à la décharge, et tout moteur de recherche qui se soucie de leurs utilisateurs les ignorera.
Parfois, ce n’est pas seulement de la camelote évidente non plus. De plus en plus, les sites sont techniquement corrects, mais n’atteignent tout simplement pas « la barre » d’un point de vue qualité pour mériter d’être explorés davantage.
Les robots d’indexation fonctionnent avec un ensemble limité d’URL
Mueller conclut sa réponse en disant que tous les robots d’indexation fonctionnent sur un ensemble « simplifié » d’URL.
Comme il n’y a pas de moyen correct d’explorer le Web, comme mentionné précédemment, chaque outil de référencement a sa propre façon de décider quelles URL valent la peine d’être explorées.
C’est pourquoi un outil peut découvrir des backlinks qu’un autre outil n’a pas trouvés.
Par conséquent, tous les robots d’exploration (y compris les outils de référencement) travaillent sur un ensemble très simplifié d’URL, ils doivent déterminer à quelle fréquence explorer, quelles URL explorer plus souvent et quelles parties du Web ignorer. Il n’y a pas de règles fixes pour tout cela, de sorte que chaque outil devra prendre ses propres décisions en cours de route. C’est pourquoi les moteurs de recherche ont un contenu différent indexé, pourquoi les outils de référencement répertorient différents liens, pourquoi les métriques construites sur ceux-ci sont si différentes.
Source: Reddit (en anglais)
Image en vedette: rangizzz / Shutterstock
!function(f,b,e,v,n,t,s) {if(f.fbq)return;n=f.fbq=function(){n.callMethod? n.callMethod.apply(n,arguments):n.queue.push(arguments)}; if(!f._fbq)f._fbq=n;n.push=n;n.loaded=!0;n.version='2.0'; n.queue=[];t=b.createElement(e);t.async=!0; t.src=v;s=b.getElementsByTagName(e)[0]; s.parentNode.insertBefore(t,s)}(window,document,'script', 'https://connect.facebook.net/en_US/fbevents.js');
if( typeof sopp !== "undefined" && sopp === 'yes' ){ fbq('dataProcessingOptions', ['LDU'], 1, 1000); }else{ fbq('dataProcessingOptions', []); }
fbq('init', '1321385257908563');
fbq('track', 'PageView');
fbq('trackSingle', '1321385257908563', 'ViewContent', { content_name: 'googles-john-mueller-its-impossible-to-crawl-the-whole-web', content_category: 'news digital-marketing-tools ' });