Lors d’un audit SEO, un consultant s’est aperçu que plus de la moitié des 1,43k pages indexées par Google sur le site de son client étaient en réalité des pages de type pagination ou des URLs d’ajout au panier (reconnaissables à leurs points d’interrogation, par exemple : ?add-to-cart=...
). Malgré la présence de l’attribut rel=canonical, Google a continué de prendre en compte ces URLs, illustrant clairement que le rel=canonical n’est qu’une simple indication (un “hint”), et non un directive impérative.
Pour résoudre le problème, le consultant envisageait d’appliquer un noindex sur ces pages, afin de les retirer de l’index de Google, puis de les bloquer par la suite via le fichier robots.txt. Mais John Mueller, de chez Google, a suggéré une approche différente, plus nuancée, en soulignant l’importance d’analyser la structure des URLs et de trouver la méthode la plus adaptée à chaque cas.
Un audit SEO révélateur
L’audit a mis en lumière une anomalie : parmi toutes les pages indexées par Google, beaucoup étaient des URLs générées dynamiquement, liées soit à des options de filtrage (tri par marque, taille, etc. — souvent appelé faceted navigation) soit à l’ajout au panier. L’existence de l’attribut rel=canonical n’a pas suffi à empêcher leur indexation, ce qui rappelle l’un des principes de base en SEO : un “hint” n’offre aucune garantie de prise en compte par le moteur de recherche.
La solution envisagée par l’auditeur
Voici la proposition initiale de l’auditeur :
« Je prévois d’appliquer un noindex sur toutes ces pages, puis, une fois qu’elles auront disparu de l’index, de les bloquer via robots.txt. »
En théorie, cette méthode peut fonctionner. Mais selon la complexité des URLs, elle risque de ne pas être la plus efficace ou la plus fine à long terme. En effet, on peut se retrouver avec des schémas d’URLs différents (filtrage, pagination, etc.) qui exigent des solutions différenciées.
L’avis de John Mueller : une approche granulaire
Dans une discussion sur LinkedIn comptant déjà de nombreux retours, John Mueller a insisté sur l’importance de commencer par analyser les motifs qui expliquent pourquoi ces URLs indésirables se font indexer. À partir de cette analyse, on peut alors mettre en place une solution ciblée et “granulaire”.
Parmi ses recommandations, on trouve :
- Examiner les schémas d’URLs : Plutôt que de traiter toutes ces pages comme une liste aléatoire, il est préférable d’identifier précisément quelles familles d’URLs posent problème et d’appliquer des stratégies dédiées (par exemple, distinguer clairement les URLs de type “add-to-cart” de celles liées à la pagination).
- Bloquer les URLs d’ajout au panier : Pour les URLs qui servent uniquement à l’ajout au panier, John Mueller suggère de les bloquer directement dans le fichier robots.txt. De cette manière, ces pages ne seront pas explorées par Google et n’impacteront plus vos métriques (par exemple les rapports de crawl).
- Prendre en compte la pagination et les filtres : Les options de filtrage dans l’URL (paramètres de recherche, filtres par marque, couleur, etc.) nécessitent une gestion particulière. Google propose de la documentation et des bonnes pratiques pour mieux contrôler leur exploration et leur indexation.
- Approfondir la question des contenus dupliqués : Pour aller plus loin, il est possible de consulter le podcast Search Off The Record de Google, qui aborde les duplicates et la pertinence d’un traitement adapté (avec ou sans rel=canonical, selon les cas).
Pourquoi Google indexe-t-il ces URLs avec paramètres ?
Un point soulevé à plusieurs reprises concerne l’indexation des pages d’ajout au panier qui, normalement, ne devraient pas figurer dans l’index de Google. La cause peut venir du comportement même de la plateforme e-commerce utilisée, qui génère automatiquement ces URLs. La solution la plus directe reste souvent de recourir à une combinaison de noindex (ou de robots.txt, si le but est de bloquer complètement le crawl) et d’une configuration adaptée pour éviter leur publication dans le code source.
L’indexation d’un site, un enjeu de taille pour éviter la duplication ou les urls parasites
La gestion des URLs indésirables dans l’index de Google requiert une approche réfléchie et granulaire. L’attribut rel=canonical est souvent utile pour indiquer la page de référence, mais il ne constitue pas un directive infaillible. Les stratégies de noindex et de robots.txt doivent être appliquées en tenant compte de la nature exacte des URLs concernées et de la structure technique du site.
Pour finir, n’oublions pas que chaque site est unique : avant d’agir, il est essentiel d’identifier les vrais motifs qui entraînent l’indexation des pages que l’on juge indésirables. En clarifiant les schémas d’URLs et en optant pour des solutions pointues (blocage des pages d’ajout au panier, gestion spécifique de la pagination, utilisation de meta noindex, etc.), on consolide la pertinence de l’index et on améliore à la fois les performances et l’expérience utilisateur.