Martin Splitt a partagé de nombreuses informations sur la façon dont Google détecte les pages en double, puis choisit la page canonique à inclure dans les pages de résultats des moteurs de recherche.

Il a également expliqué comment au moins vingt signaux différents sont pondérés afin d’aider à identifier la page canonique et pourquoi l’apprentissage automatique est utilisé pour ajuster les pondérations.

Comment Google gère la canonisation

Martin commence par indiquer comment les sites sont explorés et les documents indexés. Puis il passe à l’étape suivante, la canonisation et la détection des doublons.

Il entre dans les détails sur la réduction du contenu à une somme de contrôle, un nombre, qui est ensuite comparé aux sommes de contrôle d’autres pages pour identifier des sommes de contrôle identiques.

Martin:

Publicité

«Nous collectons des signaux et maintenant nous nous sommes retrouvés avec la prochaine étape, qui est en fait la canonisation et la détection de dupe.

… Vous devez d’abord détecter les dupes, en gros les regrouper, en disant que toutes ces pages sont des dupes les unes des autres. Et puis, vous devez essentiellement trouver une page leader pour tous.

Et comment nous le faisons est peut-être la façon dont la plupart des gens, d’autres moteurs de recherche le font, ce qui consiste essentiellement à réduire le contenu en un hachage ou une somme de contrôle, puis à comparer les sommes de contrôle.

Et c’est parce que c’est beaucoup plus facile à faire que de comparer peut-être les trois mille mots …

… Et donc nous réduisons le contenu en une somme de contrôle et nous le faisons parce que nous ne voulons pas numériser tout le texte parce que cela n’a tout simplement pas de sens. Essentiellement, cela prend plus de ressources et le résultat serait à peu près le même. Nous calculons donc plusieurs types de sommes de contrôle sur le contenu textuel de la page, puis nous les comparons aux sommes de contrôle. »

Publicité

Continuer la lecture ci-dessous

Martin répond ensuite si ce processus détecte des quasi-doublons ou des doublons exacts:

Bonne question. Il peut attraper les deux. Il peut également attraper des doublons proches.

Nous avons plusieurs algorithmes qui, par exemple, tentent de détecter puis de supprimer le passe-partout des pages.

Ainsi, par exemple, nous excluons la navigation du calcul de la somme de contrôle. Nous supprimons également le pied de page. Et puis vous vous retrouvez avec ce que nous appelons la pièce maîtresse, qui est le contenu central de la page, un peu comme la viande de la page.

Lorsque nous calculons les sommes de contrôle et comparons les sommes de contrôle les unes aux autres, alors celles qui sont assez similaires, ou du moins un peu similaires, nous les rassemblerons dans un cluster de dupe. »

On a ensuite demandé à Martin ce qu’est une somme de contrôle:

«Une somme de contrôle est essentiellement un hachage du contenu. Fondamentalement, une empreinte digitale. En gros, c’est une empreinte digitale de quelque chose. Dans ce cas, c’est le contenu du fichier…

Et puis, une fois que nous avons calculé ces sommes de contrôle, nous avons le cluster dupe. Ensuite, nous devons sélectionner un document que nous voulons afficher dans les résultats de la recherche. « 

Publicité

Continuer la lecture ci-dessous

Martin a ensuite discuté de la raison pour laquelle Google empêche les pages en double d’apparaître dans le SERP:

« Pourquoi fait-on cela? Nous faisons cela parce que les utilisateurs n’aiment généralement pas que le même contenu soit répété dans de nombreux résultats de recherche. Et nous faisons cela aussi parce que notre espace de stockage dans l’index n’est pas infini. En gros, pourquoi voudrions-nous stocker des doublons dans notre index? »

Ensuite, il revient au cœur du sujet, en détectant les doublons et en sélectionnant la page canonique:

«Mais, calculer lequel sera le canonique, quelle page diriger le cluster, n’est en fait pas si simple. Parce qu’il existe des scénarios où même pour les humains, il serait assez difficile de dire quelle page doit être celle qui doit figurer dans les résultats de recherche.

Nous utilisons donc, je pense, plus de vingt signaux, nous utilisons plus de vingt signaux, pour décider quelle page choisir comme canonique dans un cluster de dupe.

Et la plupart d’entre vous peuvent probablement deviner ce que seraient ces signaux. Comme on est évidemment le contenu.

Mais cela pourrait aussi être des choses comme le PageRank par exemple, comme quelle page a un PageRank plus élevé, car nous utilisons toujours le PageRank après toutes ces années.

Cela pourrait être, en particulier sur le même site, quelle page est sur une URL https, quelle page est incluse dans le plan du site, ou si une page est redirigée vers l’autre page, alors c’est un signal très clair que l’autre page devrait devenir canonique, l’attribut rel = canonical… est encore une fois un signal fort… parce que… quelqu’un a spécifié que cette autre page devrait être le canonique.

Et puis, une fois que nous avons comparé tous ces signaux pour toutes les paires de pages, nous nous retrouvons avec un véritable canonique. Et puis chacun de ces signaux que nous utilisons a son propre poids. Et nous utilisons du vaudou d’apprentissage automatique pour calculer les pondérations de ces signaux. »

Il va maintenant granulaire et explique la raison pour laquelle Google donnerait aux redirections un poids plus lourd que le signal URL http / https:

«Mais par exemple, pour vous donner une idée, la redirection 301, ou toute sorte de redirection en fait, devrait avoir un poids beaucoup plus élevé en matière de canonisation que de savoir si la page est sur une URL http ou https.

Parce que finalement l’utilisateur verrait la cible de redirection. Il n’est donc pas logique d’inclure la source de la redirection dans les résultats de recherche. « 

Mueller lui demande pourquoi Google utilise l’apprentissage automatique pour ajuster les poids des signaux:

«Alors, nous nous trompons parfois? Pourquoi avons-nous besoin du machine learning, comme si nous écrivons clairement ces pondérations une fois, puis c’est parfait, non? »

Martin a ensuite partagé une anecdote d’avoir travaillé sur la canonisation, essayant d’introduire hreflang dans le calcul comme un signal. Il a raconté que c’était un cauchemar d’essayer d’ajuster les poids manuellement. Il a déclaré que l’ajustement manuel des pondérations peut annuler d’autres pondérations, entraînant des résultats inattendus tels que des résultats de recherche étranges qui n’ont pas de sens.

Publicité

Continuer la lecture ci-dessous

Il a partagé un exemple de bogue de pages avec des URL courtes se classant soudainement mieux, ce que Martin a qualifié de stupide.

Il a également partagé une anecdote sur la réduction manuelle d’un signal de plan de site afin de gérer un bogue lié à la canonisation, mais cela rend un autre signal plus fort, ce qui provoque alors d’autres problèmes.

Le fait est que tous les signaux de pondération sont étroitement liés et qu’il faut un apprentissage automatique pour réussir à apporter des modifications à la pondération.

Martin:

«Disons que… le poids du signal du plan de site est trop élevé. Et puis, disons que l’équipe dupes dit, d’accord, réduisons un peu ce signal.

Mais ensuite, lorsqu’ils réduisent un tout petit peu ce signal, un autre signal devient plus puissant.

Mais vous ne pouvez pas contrôler quel signal car il y en a une vingtaine.

Et puis vous modifiez cet autre signal qui est soudainement devenu plus puissant ou plus lourd, puis qui émet un autre signal. Et puis vous ajustez celui-là et, fondamentalement, c’est un jeu sans fin, c’est un coup de foudre.

Donc, si vous transmettez tous ces signaux à un algorithme d’apprentissage automatique ainsi que tous les résultats souhaités, vous pouvez l’entraîner à définir ces pondérations pour vous, puis utiliser les pondérations calculées ou suggérées par un algorithme d’apprentissage automatique. « 

Publicité

Continuer la lecture ci-dessous

John Mueller demande ensuite si ces vingt poids, comme le signal de plan de site mentionné précédemment, pourraient être considérés comme des signaux de classement.

Mueller:

«Ces pondérations sont-elles également un facteur de classement? … Ou la canonisation est-elle indépendante du classement? »

Martin a répondu:

«Ainsi, la canonisation est complètement indépendante du classement. Mais la page que nous choisissons comme canonique qui se retrouvera dans les pages de résultats de recherche, et qui sera classée mais pas en fonction de ces signaux. « 

À emporter

Martin a beaucoup partagé sur le fonctionnement de la canonisation, y compris sur sa complexité. Ils ont discuté de la rédaction de ces informations à une date ultérieure, mais ils semblaient découragés par la tâche de tout rédiger.

L’épisode du podcast s’intitulait « Comment le contenu technique de la recherche est rédigé et publié sur Google, et plus encore! » mais je dois dire que la partie de loin la plus intéressante était la description de Martin de la canonisation dans Google.

Écoutez l’intégralité du podcast:

Rechercher un podcast hors enregistrement

Rate this post
Publicité
Article précédentNTT DOCOMO choisit NEC comme fournisseur du cœur de réseau mobile 5G
Article suivantMy Hero Academia devrait raconter l’histoire du point de vue de Shigaraki
Avatar
Violette Laurent est une blogueuse tech nantaise diplômée en communication de masse et douée pour l'écriture. Elle est la rédactrice en chef de fr.techtribune.net. Les sujets de prédilection de Violette sont la technologie et la cryptographie. Elle est également une grande fan d'Anime et de Manga.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici