Gary Illyes de Google révèle que l’index de recherche utilise un système à plusieurs niveaux où le contenu le plus populaire est indexé sur un stockage plus rapide et plus coûteux.
Ce sujet est abordé dans le dernier épisode de Google Recherche hors enregistrement podcast qui traite des complexités linguistiques dans la sélection d’index de recherche.
En expliquant comment Google construit son index de recherche, Illyes indique que le contenu est indexé sur trois types de stockage:
- RAM (Mémoire à accès aléatoire): le plus rapide et le plus cher
- SSD (Solid State Drive): Très rapide mais coût prohibitif
- Disque dur (Disque dur): le plus lent et le moins coûteux
Google réserve le stockage le plus rapide pour les documents susceptibles d’être diffusés fréquemment dans les résultats de recherche.
Publicité
Continuer la lecture ci-dessous
Illyes déclare:
«Et puis, lorsque nous construisons notre indice, et nous utilisons tous ces signaux que nous avons. Prenons un, disons, le rang de page, puis nous essayons d’estimer combien nous servirions les documents que nous avons indexés.
Alors est-ce que ce sera comme chaque seconde? Aurons-nous une requête qui déclenche ces documents? Ou est-ce que ce sera une fois par semaine ou une fois par an?
Et sur cette base, nous pourrions utiliser différents types de stockage pour créer l’index. »
Illyes continue en donnant des exemples de ce qui serait stocké sur la RAM, de ce qui serait stocké sur les disques SSD et de ce qui serait stocké sur les disques durs.
Le contenu auquel on accède toutes les secondes finira par être stocké sur RAM ou SSD. Cela représente une petite quantité de l’ensemble de l’index de Google.
Publicité
Continuer la lecture ci-dessous
La majeure partie de l’index de Google est stockée sur des disques durs car, selon les mots d’Illyes, les disques durs sont bon marché, accessibles et faciles à remplacer.
«Ainsi, par exemple, pour les documents dont nous savons qu’ils pourraient être mis à jour toutes les secondes, par exemple, ils aboutiront à quelque chose de très rapide. Et le super rapide serait la RAM. Comme une partie de notre index de service est sur la RAM.
Ensuite, nous aurons un autre niveau, par exemple, pour les disques SSD, car ils sont rapides et pas aussi chers que la RAM. Mais toujours pas – l’essentiel de l’index ne serait pas là-dessus.
La majeure partie de l’indice serait sur quelque chose qui est bon marché, accessible, facilement remplaçable et ne casse pas la banque. Et ce serait des disques durs ou des disquettes. »
Bien sûr, Illyes se moque des disquettes, c’est le type d’humour sec que vous obtenez de lui sur le podcast.
À ma connaissance, c’est la première fois que Google communique au public des informations sur ses niveaux de stockage d’index de recherche. Il est intéressant de savoir que le contenu le plus recherché est stocké sur RAM et SSD.
Le coût de stockage ne serait-ce qu’un pourcentage de l’index de Google sur la RAM et les SSD doit être exorbitant. Bien qu’il soit probable que le coût d’un stockage plus rapide soit justifié par l’importance des documents à l’intérieur pour les gens.
La demande de contenu doit être si élevée que Google ne souhaite pas risquer de retarder sa diffusion auprès des internautes.
Publicité
Continuer la lecture ci-dessous
En ce qui concerne le référencement, il n’y a aucun moyen d’optimiser un type de stockage par rapport à l’autre. Et il n’y a aucun moyen de savoir sur quel niveau de stockage votre site est indexé.
Je suppose qu’un pourcentage très faible de pages Web sont indexées sur la RAM ou les disques SSD. Pour le ramener au référencement, c’est une bonne chose car cela signifie que la majorité des sites sont en concurrence sur un pied d’égalité en ce qui concerne la vitesse de stockage des index.