Google est ouvert sur le fait qu’il n’indexe pas toutes les pages qu’il peut trouver. À l’aide de la console de recherche Google, vous pouvez voir les pages de votre site Web qui ne sont pas indexées.
Google Search Console vous fournit également des informations utiles sur le problème spécifique qui a empêché l’indexation d’une page.
Ces problèmes incluent des erreurs de serveur, des 404 et des indices indiquant que la page peut avoir contenu en double.
Mais nous ne voyons jamais de données indiquant quels problèmes sont les plus courants sur l’ensemble du Web.
Alors… j’ai décidé de collecter des données et de compiler les statistiques moi-même!
Dans cet article, nous explorerons les problèmes d’indexation les plus courants qui empêchent vos pages de s’afficher dans la recherche Google.
Indexation 101
L’indexation est comme la construction d’une bibliothèque, sauf qu’au lieu de livres, Google s’occupe de sites Web.
Publicité
Continuer la lecture ci-dessous
Si vous souhaitez que vos pages apparaissent dans la recherche, elles doivent être correctement indexées. En termes simples, Google doit les trouver et les enregistrer.
Ensuite, Google peut analyser leur contenu pour décider pour quelles requêtes ils pourraient être pertinents.
Être indexé est une condition préalable pour obtenir du trafic organique de Google. Et à mesure que de plus en plus de pages de votre site Web sont indexées, vous avez plus de chances d’apparaître dans les résultats de recherche.
C’est pourquoi il est très important que vous sachiez si Google peut indexer votre contenu.
Voici ce que j’ai fait pour identifier les problèmes d’indexation
Mes tâches quotidiennes comprennent optimisation de sites Web à partir d’un référencement technique point de vue pour les rendre plus visibles dans Google et par conséquent, j’ai accès à plusieurs dizaines de sites dans Google Search Console.
J’ai décidé de mettre cela à profit pour, espérons-le, rendre les problèmes d’indexation populaires… enfin, moins populaires.
Par souci de transparence, j’ai décomposé la méthodologie qui m’a conduit à des conclusions intéressantes.
Publicité
Continuer la lecture ci-dessous
Méthodologie
J’ai commencé par créer un échantillon de pages, combinant des données provenant de deux sources:
- J’ai utilisé les données de nos clients qui m’étaient facilement accessibles.
- J’ai demandé à d’autres professionnels du référencement de partager des données anonymisées avec moi, en publiant un sondage Twitter et en contactant directement certains référenceurs.
SEO, j’ai besoin de 3 à 10 minutes de votre temps.
Pouvez-vous m’aider dans mes recherches sur l’indexation et partager avec moi des statistiques non sensibles du GSC?
Lorsque je trouverai des informations intéressantes, je publierai un article à ce sujet.Merci d’avance! S’il vous plaît R / T
– Tomek Rudzki (@TomekRudzki) 9 novembre 2020
Les deux se sont révélés des sources d’information fructueuses.
À l’exclusion des pages non indexables
Il est dans votre intérêt de ne pas indexer certaines pages. Il s’agit notamment des anciennes URL, des articles qui ne sont plus pertinents, des paramètres de filtrage dans le commerce électronique, etc.
Les webmasters peuvent s’assurer que Google les ignore de plusieurs manières, notamment le fichier robots.txt et la balise noindex.
La prise en compte de ces pages affecterait négativement la qualité de mes résultats, j’ai donc supprimé de l’échantillon les pages qui répondaient à l’un des critères ci-dessous:
- Bloqué par robots.txt.
- Marqué comme noindex.
- Redirigé.
- Renvoi d’un code d’état HTTP 404.
À l’exclusion des pages sans valeur
Pour améliorer encore la qualité de mon échantillon, je n’ai pris en compte que les pages incluses dans les sitemaps.
Sur la base de mon expérience, plans de site sont la représentation la plus claire des URL de valeur d’un site Web donné.
Bien sûr, de nombreux sites Web contiennent des fichiers indésirables dans leurs plans de site. Certains incluent même les mêmes URL dans leur plans de site et fichiers robots.txt.
Mais j’ai pris soin de cela à l’étape précédente.
Catégorisation des données
J’ai trouvé que les problèmes d’indexation populaires varient en fonction de la taille d’un site Web.
Voici comment j’ai réparti les données:
- Petits sites Web (jusqu’à 10 000 pages).
- Sites Web moyens (de 10 000 à 100 000 pages).
- Grands sites Web (jusqu’à un million de pages).
- D’énormes sites Web (plus d’un million de pages).
Publicité
Continuer la lecture ci-dessous
En raison des différences de taille des sites Web de mon échantillon, j’ai dû trouver un moyen de normaliser les données.
Un très grand site Web aux prises avec un problème particulier pourrait l’emporter sur les problèmes d’autres sites Web plus petits.
J’ai donc examiné chaque site Web individuellement pour trier les problèmes d’indexation avec lesquels ils sont confrontés. Ensuite, j’ai attribué des points aux problèmes d’indexation en fonction du nombre de pages affectées par un problème donné sur un site Web donné.
Et le verdict est …
Voici les cinq principaux problèmes que j’ai trouvés sur les sites Web de toutes tailles.
- Exploré – actuellement non indexé (problème de qualité).
- Dupliquer le contenu.
- Découvert – actuellement non indexé (problème de budget / qualité de l’exploration).
- Doux 404.
- Problème d’exploration.
Décomposons-les.
Qualité
Les problèmes de qualité incluent la rareté du contenu de vos pages, le caractère trompeur ou un biais excessif.
Si votre page ne fournit pas de contenu unique et précieux que Google souhaite montrer aux utilisateurs, vous aurez du mal à l’indexer (et ne devriez pas être surpris).
Publicité
Continuer la lecture ci-dessous
Dupliquer du contenu
Google peut reconnaître certaines de vos pages comme du contenu en double, même si vous ne vouliez pas que cela se produise.
Un problème courant concerne les balises canoniques pointant vers différentes pages. Le résultat est que la page d’origine n’est pas indexée.
Si vous avez du contenu en double, utilisez l’attribut de balise canonique ou une redirection 301.
Cela vous aidera à vous assurer que les mêmes pages de votre site ne se font pas concurrence pour les vues, les clics et les liens.
Budget d’exploration
Qu’est-ce que budget d’exploration? En fonction de plusieurs facteurs, Googlebot n’explorera qu’un certain nombre d’URL sur chaque site Web.
Cela signifie que l’optimisation est vitale; ne le laissez pas perdre son temps sur des pages dont vous ne vous souciez pas.
Soft 404
Les erreurs 404 signifient que vous avez soumis une page supprimée ou inexistante pour l’indexation. Soft 404 afficher les informations «non trouvé», mais ne pas renvoyer le code d’état HTTP 404 au serveur.
La redirection des pages supprimées vers d’autres qui ne sont pas pertinentes est une erreur courante.
Publicité
Continuer la lecture ci-dessous
Plusieurs redirections peuvent également apparaître comme des erreurs logicielles 404. Efforcez-vous de raccourcir autant que possible vos chaînes de redirection.
Problème d’exploration
Il existe de nombreux problèmes d’exploration, mais l’un des plus importants est un problème avec le fichier robots.txt. Si Googlebot trouve un fichier robots.txt pour votre site mais ne peut pas y accéder, il n’explorera pas du tout le site.
Enfin, regardons les résultats pour différentes tailles de sites Web.
Petits sites Web
Taille de l’échantillon: 44 sites
- Exploré, actuellement non indexé (problème de qualité ou de budget d’exploration).
- Dupliquer le contenu.
- Problème de budget d’exploration.
- Doux 404.
- Problème d’exploration.
Sites Web moyens
Taille de l’échantillon: 8 sites
- Dupliquer le contenu.
- Découvert, actuellement non indexé (budget d’exploration / problème de qualité).
- Exploré, actuellement non indexé (problème de qualité).
- soft 404 (problème de qualité).
- Problème d’exploration.
Publicité
Continuer la lecture ci-dessous
Grands sites Web
Taille de l’échantillon: 9 sites
- Exploré, actuellement non indexé (problème de qualité).
- Découvert, actuellement non indexé (budget d’exploration / problème de qualité).
- Dupliquer le contenu.
- Doux 404.
- Problème d’exploration.
D’énormes sites Web
Taille de l’échantillon: 9 sites
- Exploré, actuellement non indexé (problème de qualité).
- Découvert, actuellement non indexé (budget d’exploration / problème de qualité).
- Contenu en double (URL en double, soumise non sélectionnée comme canonique).
- Doux 404.
- Problème d’exploration.
Points clés à retenir sur les problèmes d’indexation courants
Il est intéressant de noter que, selon ces résultats, deux tailles de sites Web souffrent des mêmes problèmes. Cela montre à quel point il est difficile de maintenir la qualité dans le cas de grands sites Web.
- Plus grand que 100k, mais inférieur à 1 million.
- Plus de 1 million.
Les points à retenir, cependant, sont les suivants:
- Même les sites Web relativement petits (10k +) peuvent ne pas être entièrement indexés en raison d’un budget d’exploration insuffisant.
- Plus le site Web est grand, plus les problèmes de budget et de qualité de l’exploration deviennent urgents.
- Le problème du contenu en double est grave mais change de nature en fonction du site Web.
PS A Note sur les URL inconnues pour Google
Au cours de mes recherches, j’ai réalisé qu’il existe un autre problème courant qui empêche l’indexation des pages.
Publicité
Continuer la lecture ci-dessous
Il n’a peut-être pas mérité sa place dans le classement ci-dessus, mais il est toujours important, et j’ai été surpris de voir qu’il est toujours aussi populaire.
Je parle de pages orphelines.
Certaines pages de votre site Web peuvent ne comporter aucun lien interne menant à elles.
S’il n’y a pas de chemin permettant au Googlebot de trouver une page sur votre site Web, il se peut qu’il ne la trouve pas du tout.
Quelle est la solution? Ajoutez des liens à partir de pages connexes.
Vous pouvez également résoudre ce problème manuellement en ajoutant la page orpheline à votre plan de site. Malheureusement, de nombreux webmasters négligent encore de le faire.
Plus de ressources: