Duplicate content

Ce qu'est le duplicate content

Le duplicate content, ou contenu dupliqué en français, désigne une situation où un contenu identique ou très similaire est accessible depuis plusieurs URLs distinctes. Google doit alors décider quelle version indexer et présenter dans ses résultats, ce qui peut diluer l'autorité entre plusieurs pages au lieu de la concentrer sur une seule et produire des résultats imprévisibles sur le positionnement.

Le duplicate content est l'un des problèmes SEO les plus fréquents, et l'un des plus mal compris. Contrairement à ce que beaucoup croient, il n'est généralement pas le résultat d'une intention malveillante. Dans la grande majorité des cas, il est produit involontairement par des décisions techniques ou structurelles qui créent plusieurs chemins d'accès vers un même contenu.

Il est également important de relativiser l'impact du duplicate content. Google ne pénalise pas systématiquement les sites qui en ont. Il gère le problème en choisissant une URL canonique parmi les doublons, ce qui peut simplement priver certaines pages de visibilité sans pour autant nuire activement au reste du site. Le vrai risque est la dilution des signaux SEO et la perte de contrôle sur quelle version de vos pages Google choisit de mettre en avant.

Les causes les plus fréquentes

Les variantes d'URL techniques. C'est la source la plus courante de duplicate content. Une même page accessible en HTTP et en HTTPS, avec et sans www, avec et sans slash final, ou avec des paramètres d'URL différents constitue autant de versions distinctes aux yeux de Google. https://monsite.fr/page/ et https://monsite.fr/page peuvent être perçues comme deux pages différentes si aucune redirection ou balise canonique ne les unifie.

Les paramètres de tracking. Les paramètres UTM ajoutés aux URLs pour suivre les campagnes marketing créent des variantes d'URL qui affichent le même contenu. https://monsite.fr/page?utm_source=newsletter est techniquement une URL différente de https://monsite.fr/page même si elles affichent le même contenu.

Les sites e-commerce avec filtres et tris. Un produit accessible depuis plusieurs catégories génère plusieurs URLs pour un contenu identique. Les filtres de couleur, de taille ou de tri créent des variantes d'URL qui multiplient les versions d'une même page de catégorie ou de produit. Sur un site e-commerce avec des centaines de produits et plusieurs niveaux de filtres, les URLs dupliquées peuvent se compter en milliers.

Les versions imprimables et mobiles séparées. Les sites qui proposent des versions imprimables de leurs pages ou qui servent des versions mobiles sur des sous-domaines distincts comme m.monsite.fr créent du duplicate content si ces versions ne sont pas correctement gérées avec des balises canoniques.

La pagination. Les pages paginées d'un blog ou d'une liste de produits peuvent poser des problèmes de duplicate content si les métadonnées (balise title, meta description) sont identiques sur toutes les pages de la pagination.

La syndication de contenu. Publier un article sur son site puis le republier à l'identique sur un autre média ou une plateforme tierce crée du duplicate content externe. Si la version syndiquée est mieux référencée que l'originale, Google peut présenter la copie plutôt que la source.

Comment détecter le duplicate content

Plusieurs outils permettent d'identifier les problèmes de contenu dupliqué sur un site.

Screaming Frog est l'outil de crawl de référence pour cette analyse. Il explore l'ensemble du site et identifie les pages avec des contenus, des balises title ou des meta descriptions identiques. Son rapport sur les URLs dupliquées donne une vue exhaustive des problèmes à traiter.

Google Search Console signale les pages que Google a identifiées comme dupliquées dans sa section sur les pages indexées. Elle indique également les pages pour lesquelles Google a choisi une canonique différente de celle que vous avez désignée, ce qui est un signal clair de problème de duplication.

Siteliner est un outil en ligne qui analyse le contenu d'un site et identifie les blocs de texte répétés entre plusieurs pages. Il est utile pour détecter les duplications de contenu éditorial qui ne sont pas liées à des problèmes d'URL.

Les solutions pour corriger le duplicate content

La balise canonique. C'est la solution la plus directe pour les cas où plusieurs URLs affichent le même contenu et doivent rester accessibles. La balise canonique indique à Google quelle est la version de référence sans bloquer l'accès aux autres URLs.

Les redirections 301. Quand une URL dupliquée ne doit plus être accessible, une redirection 301 vers la version canonique est la solution la plus propre. Elle consolidate les signaux SEO sur la bonne URL et évite les problèmes de duplication de façon permanente.

La balise noindex. Pour les pages qui doivent rester accessibles aux utilisateurs mais ne doivent pas être indexées par Google, la balise <meta name="robots" content="noindex"> exclut la page de l'index sans bloquer son accès. Utile pour les pages de résultats de recherche interne, les pages de confirmation et les versions filtrées de catégories e-commerce.

La gestion des paramètres d'URL dans Search Console. Google Search Console permet d'indiquer à Google comment traiter les paramètres d'URL spécifiques, notamment en lui précisant quels paramètres ne modifient pas le contenu de la page et peuvent être ignorés.

La consolidation du contenu éditorial. Quand plusieurs articles traitent du même sujet avec un contenu similaire, les consolider en un seul contenu plus complet est souvent une meilleure solution que de tenter de différencier des pages trop proches.

Duplicate content interne et externe

On distingue deux types de duplicate content selon leur origine.

Le duplicate content interne concerne plusieurs pages du même site qui affichent un contenu identique ou très similaire. C'est le cas le plus courant et le plus directement sous votre contrôle.

Le duplicate content externe concerne du contenu identique présent sur plusieurs sites différents. La syndication d'articles, les descriptions de produits fournies par les fabricants et utilisées telles quelles par de nombreux revendeurs, ou le scraping de contenu par des tiers en sont les exemples les plus fréquents. La solution pour le contenu syndiqué est de demander aux sites qui publient votre contenu d'ajouter une balise canonique pointant vers votre URL d'origine.

FAQ

Le duplicate content peut-il entraîner une pénalité Google ?

Rarement dans le sens d'une pénalité manuelle explicite. Google gère généralement le duplicate content en choisissant quelle version indexer plutôt qu'en sanctionnant le site. Le vrai risque est la perte de visibilité sur des pages importantes dont Google n'indexe pas la bonne version.

Faut-il s'inquiéter du duplicate content sur les petits sites ?

Sur un site de quelques pages avec un contenu éditorial soigné, le duplicate content est rarement un problème majeur. Les problèmes les plus sérieux apparaissent sur les sites e-commerce avec de nombreux produits et filtres, ou sur les sites avec une gestion des URLs peu rigoureuse.

Les balises canoniques auto-référencées créent-elles du duplicate content ?

Non. Une balise canonique qui pointe vers la page elle-même est une bonne pratique préventive qui n'a aucun impact négatif. Elle protège simplement la page contre les duplications involontaires liées aux paramètres d'URL.

Comment éviter le duplicate content sur un blog Webflow ?

Webflow génère automatiquement des balises canoniques auto-référencées sur toutes les pages CMS, ce qui protège contre la plupart des problèmes de duplication liés aux paramètres d'URL. Les problèmes les plus courants sur Webflow viennent des pages de catégories paginées et des items CMS accessibles depuis plusieurs collections.