Outils d'accessibilité

Duplicate content : comment le détecter, décider quoi indexer, et corriger sans perdre de trafic

Duplicate content : comment le détecter, décider quoi indexer, et corriger sans perdre de trafic

Le duplicate content, c’est le genre de sujet qui fait lever les yeux au ciel… jusqu’au jour où il plombe vraiment un site. Et là, on découvre que ce n’est pas “un détail SEO”, mais un vrai problème de contrôle : contrôle sur l’indexation, sur les pages qui rankent, sur la dilution de l’autorité, et sur le budget crawl.

Que vous soyez e-commerçant, éditeur de contenu, ou responsable d’un site vitrine, il y a une bonne nouvelle : ça se détecte vite et ça se corrige avec une méthode claire.

Dans cet article, je vous donne une approche “vieux de la vieille” : simple, pragmatique, et surtout actionnable. L’objectif : reprendre la main sur ce que Google indexe, et arrêter de laisser votre site se tirer une balle dans le pied.

Découvrez aussi notre guide SEO ou nos offres SEO.

Encart “À faire en 30 minutes”

Si vous ne voulez pas lire l'intégralité de l'article voici ce que vous pouvez réaliser en 30 minutes : assainir votre duplicate content (sans vous perdre)

  1. Ouvrez Google Search Console → Indexation > Pages
    • Repérez les lignes du type : “Contenu en double” / “Duplicate without user-selected canonical”
  2. Prenez 5 URLs en exemple (2 “propres” + 3 “suspectes”) → Inspection d’URL
    • Notez : Canonical déclarée vs Canonical sélectionnée (Google)
  3. Repérez la source du problème (en 2 minutes)
    • Paramètres ?utm, ?sort, ?filter, ?color, ?size, ?page
    • Tags/catégories proches, recherche interne, versions http/https, www/non-www
  4. Décidez quoi faire (une règle simple)
    • Une seule URL doit exister → 301
    • Plusieurs versions doivent rester accessibles → rel=canonical vers la page principale
    • Pages sans valeur SEO (tri, recherche interne, filtres non stratégiques) → noindex
  5. Vérifiez la cohérence “site propre”
    • Le sitemap ne contient que les URLs à indexer
    • Le maillage interne pointe vers l’URL propre (pas vers des URLs à paramètres)
    • Dans GSC, re-testez 1 URL : Google doit suivre votre canonical ou votre 301

Si vous ne faites que ça, vous éliminez déjà 80% des doublons les plus nocifs. 

Après vous pouvez lire la suite l'article pour mieux comprendre le duplicate content et comment traiter les 20% restant.

Infographie “À faire en 30 minutes” : 5 étapes pour assainir le duplicate content (GSC Pages, inspection d’URL, décision 301/canonical/noindex, vérification sitemap et maillage, test final dans GSC).

Découvrez ces articles pour approfondir le sujet

Ce qu’est vraiment le duplicate content (et ce que Google fait en pratique)

Le duplicate content, c’est quand plusieurs URLs affichent un contenu identique ou très proche, au point que Google considère qu’elles représentent “la même chose”.

Duplicate interne vs duplicate externe

  • Interne : doublons à l’intérieur de votre site (variantes, facettes, paramètres, tags, pages imprimables…).
  • Externe : votre contenu est repris ailleurs (scraping, syndication), ou vous réutilisez du contenu fournisseur / un article publié sur plusieurs plateformes.

Duplicate total vs partiel

  • Total : copie quasi parfaite d’une page.
  • Partiel : paragraphes identiques, mêmes intros, mêmes meta titles, fiches produits clonées… souvent plus sournois.

“Google pénalise-t-il ?”

Non, pas au sens “pénalité automatique” dans la majorité des cas.
En réalité, Google choisit une version canonique (celle qu’il décide d’afficher et de classer) et ignore les autres.

Le problème, c’est que si vous ne contrôlez pas ça, Google peut :

  • sélectionner la mauvaise URL (une variante ou une URL à paramètres),
  • diluer vos signaux (liens, pertinence),
  • et gaspiller du crawl sur des pages inutiles.

Les 12 sources de duplicate content les plus fréquentes

Je vous mets ici une liste très terrain. Si vous cochez 3 cases ou plus, vous êtes probablement concerné.

  1. URLs avec paramètres (UTM, tri, tracking, session)
  2. Facettes & filtres e-commerce (couleur, taille, marque, prix…)
  3. Variantes produit (taille/couleur) générées en pages distinctes
  4. Pagination (catégories, blog, produits)
  5. Catégories / tags qui répètent la même liste de contenus
  6. Recherche interne indexée (souvent catastrophique)
  7. Versions http/https, www/non-www, slash / sans slash
  8. Pages imprimables / PDF HTML / versions “print”
  9. Contenu fournisseur copié/collé (fiches produits, descriptifs standards)
  10. Multilingue mal géré (absence ou incohérence hreflang)
  11. Préprod / staging indexé par erreur
  12. Pages “similaires” auto-générées (plugins, modules, listings)

La plupart du temps, ce n’est pas “du plagiat”. C’est de la mécanique CMS.

Sources de duplicate content : symptômes, impacts, solutions

Source fréquente

Exemple typique

Symptôme (GSC / crawl)

Impact SEO probable

Solution recommandée

Paramètres de tracking (UTM, ref)

/page?utm_source=facebook

URLs multiples indexées / pages “en double”

Dilution des signaux + mauvaise URL qui ranke

Laisser les UTM exister mais self-canonical sur l’URL propre + éviter le maillage interne vers URLs à paramètres

Paramètres de tri

/categorie?sort=price_asc

Explosion d’URLs au crawl

Budget crawl gaspillé

Noindex sur tri + limiter l’exploration (maillage interne propre)

Facettes (filtres)

/chaussures?couleur=rouge&taille=42

Très grand volume d’URLs, faible contenu unique

Crawl budget + cannibalisation

Stratégie facettes : pages SEO dédiées à indexer, le reste noindex/canonical

Variantes produit (couleur/taille) en pages distinctes

/produit-xyz-rouge /produit-xyz-bleu

Pages proches, titles similaires

Dilution / Google choisit la mauvaise variante

Une page principale forte + variantes canonical vers la principale (sauf variantes à intention SEO forte)

Pagination

/categorie?page=2

Pages paginées indexées sans valeur

Crawl sur pages faibles

Conserver l’accès UX mais éviter d’indexer les pages paginées si elles n’apportent rien (souvent noindex)

Catégories et tags trop proches (blog)

/tag/seo/ vs /categorie/seo/

Cannibalisation sur mêmes requêtes

Google hésite + pages faibles

Clarifier rôle : catégories utiles, tags limités ou noindex

Pages “recherche interne”

/search?q=produit

Beaucoup d’URLs “search”

Très faible qualité perçue

Noindex + désindexation progressive

Versions imprimables / “print”

/page?print=1

Doublons exacts

Index pollué

Noindex ou blocage ciblé + canonical vers la page normale

http vs https

http:// et https://

Doublons de site

Signaux dispersés

Forcer https : 301, HSTS si possible, cohérence canonique

www vs non-www

www.site.com vs site.com

Doublons de pages

Dilution + incohérence

Choisir une version, 301 + cohérence liens internes

Slash vs non-slash

/page/ vs /page

Doublons au crawl

Dilution

Normaliser + 301 vers le format choisi

Contenu fournisseur copié

Descriptions identiques à d’autres boutiques

Peu de différenciation

Difficile à positionner

Enrichir : bénéfices, usages, FAQ, avis, comparatifs, preuves

Syndication (Medium/LinkedIn/partenaires)

Même article publié ailleurs

Risque que l’autre source ranke

Perte de contrôle

Publier d’abord chez vous + version syndiquée extraits + lien (et canonical si possible)

Multilingue mal géré

fr/ et en/ très proches sans hreflang

Conflits entre versions

Mauvaise cible géo/langue

Implémenter hreflang + URLs propres par langue

Préprod / staging indexée

staging.site.com indexé

Doublons massifs

Catastrophique

Bloquer via auth + noindex + retrait index + robots

Pages “similaires” auto-générées

Plugins créant des pages duplicatives

Crawl et index “bruit”

Site “gonflé” artificiellement

Désactiver / noindex / revoir la logique de génération

Les impacts SEO : les vrais (ceux qui font mal)

1) Vous perdez le contrôle sur la page qui ranke

Votre contenu peut être bon… mais Google choisit une URL moche (avec paramètres), ou une variante produit, ou une page de filtre.

2) Dilution de l’autorité

Si vos liens internes et externes pointent vers plusieurs URLs “équivalentes”, vous dispersez la force. Résultat : aucune URL ne devient vraiment forte.

3) Budget crawl gaspillé

Googlebot n’a pas un temps infini. S’il crawl 30 000 pages de filtres, il passe à côté de vos pages stratégiques.

4) Cannibalisation

Vous vous retrouvez avec plusieurs pages qui ciblent la même intention. Google hésite, ça bouge, ça stagne.

5) UX dégradée

Même contenu répété, même promesse, mêmes paragraphes : l’utilisateur tourne en rond.

Infographie “Les impacts SEO : les vrais” : 5 conséquences du duplicate content (perte de contrôle sur l’URL qui ranke, dilution de l’autorité, budget crawl gaspillé, cannibalisation, UX dégradée).

Détecter le duplicate content en 20 minutes : méthode simple

Je vous donne un process court, efficace, sans blabla.

Étape 1 — Google Search Console : repérer les duplications “officielles”

Dans GSC :

  • Pages → regardez les exclusions et alertes du type :
    • “Contenu en double : Google a choisi une autre URL canonique”
    • “Duplicate without user-selected canonical”

Objectif : identifier les familles d’URLs qui posent problème (paramètres, facettes, tags, pagination…).

Étape 2 — Inspection d’URL : comprendre la canonical choisie par Google

Prenez 3 à 5 URLs concernées. Dans l’inspection :

  • Canonical déclarée (par vous)
  • Canonical sélectionnée (par Google)

Si Google ne suit pas votre canonical, c’est qu’il détecte des signaux contradictoires.

Étape 3 — Crawl (Screaming Frog ou équivalent)

Analysez :

  • Titles identiques
  • Meta descriptions identiques
  • H1 identiques
  • Contenus proches
  • Canonicals absentes / incohérentes

Étape 4 — Vérifier les paramètres d’URL qui explosent

Regardez vos patterns :

  • ?sort=
  • ?filter=
  • ?color=
  • ?size=
  • ?page=
  • ?utm_source=

Si vous voyez des combinaisons infinies, vous avez un chantier facettes.

Étape 5 — Duplicate externe (si pertinent)

  • Copyscape (ou équivalent)
  • recherche de phrases exactes entre guillemets (simple mais utile)

Étape 6 — Logs serveur (bonus pro)

Si vous avez accès aux logs :

  • quelles URLs Googlebot crawl le plus ?
  • où il gaspille ?
  • quelles pages stratégiques sont peu crawlées ?

C’est souvent là que la vérité sort.

Corriger : l’arbre de décision (le cœur du sujet)

Avant de “corriger”, posez-vous LA question :
Est-ce que cette page mérite d’être indexée ?

Cas A — La page doit être indexée (valeur SEO réelle)

✅ Action :

  • rendre le contenu unique (texte + intent + éléments propres)
  • renforcer le maillage interne vers cette version
  • l’ajouter au sitemap
  • s’assurer qu’elle est canonique d’elle-même (self canonical)

Cas B — La page ne doit pas être indexée (faible valeur)

✅ Action :

  • noindex (souvent le meilleur choix)
  • et/ou réduire l’exposition via maillage interne

Attention : bloquer via robots.txt empêche le crawl, mais n’enlève pas forcément une URL déjà indexée si elle est découverte via liens externes. Le “noindex” est souvent plus propre pour assainir l’index.

Cas C — Il ne doit rester qu’une seule URL

✅ Action :

  • redirection 301 vers la bonne URL (surtout si vous supprimez une variante inutile)
  • nettoyer les liens internes qui pointent vers l’ancienne

Cas D — Duplication “inévitable” (variantes, facettes…)

✅ Action :

  • stratégie dédiée (voir plus bas)

Infographie “Corriger : l’arbre de décision” : question “cette page mérite-t-elle d’être indexée ?” avec 4 cas (A indexer : contenu unique + sitemap + self-canonical, B ne pas indexer : noindex/maillage, C une seule URL : redirection 301, D duplication inévitable : stratégie dédiée).

Cas n°1 : e-commerce — variantes produit et facettes (la zone de guerre)

Si vous faites de l’e-commerce, je vous le dis franchement :
le duplicate content n’est pas un bug, c’est une conséquence normale du fonctionnement des catalogues.

L’enjeu, ce n’est pas “zéro duplicate”.
L’enjeu, c’est : indexation propre + pages qui rankent volontairement.

Variantes taille/couleur : faut-il indexer ?

Règle simple :

  • Indexez une variante uniquement si elle répond à une intention de recherche spécifique et rentable (ex : “chaussures rouges cuir”, “robe lin grande taille”).
  • Sinon : canonical vers la fiche principale.

Ce que je vise :

  • 1 page forte = 1 produit principal (ou 1 intention)
  • des variantes gérées sans disperser la force

Facettes & filtres : ce que je fais (pragmatique)

  • Je n’indexe pas des combinaisons infinies du type :
    • “marque + couleur + taille + prix + disponibilité + livraison…”
  • Je garde :
    • quelques facettes “métier” utiles (marque, catégorie, type) si elles ont un volume et une intention claire
  • Je crée des pages SEO dédiées (landing pages facettes) quand la requête est stratégique :
    • “t-shirt bio homme”
    • “chaussures de sécurité S3”
    • “robe invitée mariage”

Ces pages-là :

  • ont un contenu éditorial propre
  • un maillage interne propre
  • une indexation assumée

La règle d’or sur les facettes (par Laurent Lacoste)

Moi, quand je vois une boutique avec 12 filtres, je sais déjà ce qui va se passer :
Google va découvrir une infinité d’URLs… et votre serveur va faire de la muscu.

Mon approche :

  1. Limiter la combinatoire (règles côté front / back)
  2. Normaliser les URLs (un format propre, pas 15 versions)
  3. Décider ce qu’on indexe :
    • pages SEO dédiées → index
    • le reste → noindex / canonical / pas de lien interne

Et surtout : on évite le “tout indexer et on verra”. On voit… mais après c’est trop tard.

Cas n°2 : blog / site vitrine — le duplicate “invisible”

Sur un blog, les coupables sont souvent :

  • tags et catégories trop proches
  • archives paginées
  • pages auteur
  • pages de recherche interne
  • contenus recyclés (mêmes paragraphes partout)

Mes règles simples

  • Une catégorie = une vraie page utile (intro unique + logique édito)
  • Les tags : soit je les structure très bien, soit je désindexe
  • Recherche interne : souvent noindex
  • Pages auteur : utile si vous jouez l’EEAT (sinon, à surveiller)

Canonical : ce qu’il faut savoir pour ne pas se tromper

La balise canonical sert à dire : “cette page est une variante, l’originale est celle-ci”.

Mais attention : Google peut ne pas la suivre si vos signaux disent l’inverse.

Les signaux qui pèsent (et qui peuvent contredire)

  • redirections
  • maillage interne
  • sitemap
  • cohérence des URLs
  • contenu réellement similaire ou non

Mon conseil :

  • self-canonical sur les pages que vous voulez indexer
  • canonical vers la page principale pour les variantes
  • cohérence partout (liens internes + sitemap + canonicals)

5 erreurs de canonical que je vois tout le temps (par Laurent)

  1. Canonical vers une page en 404 (oui, ça arrive…)
  2. Canonical vers une page bloquée / noindex
  3. Canonical incohérentes entre desktop/mobile ou langues
  4. Canonical en pagination mal gérée
  5. Canonical mise “au hasard” sur des pages pas vraiment similaires

Bref : la canonical, c’est pas un pansement magique. C’est une déclaration. Et Google vérifie si vous êtes cohérent.

“Duplicate without user-selected canonical” : pourquoi ça arrive et quoi faire

Quand GSC affiche ça, Google vous dit :

“j’ai trouvé des doublons, et vous ne m’avez pas aidé (ou pas assez).”

Causes fréquentes

  • pas de canonical
  • canonicals contradictoires
  • paramètres d’URL non maîtrisés
  • pages proches mais pas identiques
  • maillage interne qui pointe sur une URL “variante”

Plan d’action rapide

  1. Choisir la bonne URL canonique
  2. Mettre en place :
    • self canonical sur la bonne page
    • canonical / 301 / noindex sur les variantes
  3. Nettoyer le maillage interne
  4. Vérifier le sitemap (ne garder que les URLs à indexer)
  5. Contrôler dans l’inspection d’URL que Google suit

Duplicate without user-selected canonical” : cause → fix → vérification

Symptôme (GSC / Inspection)

Cause la plus fréquente

Correctif prioritaire

Comment vérifier

“Duplicate without user-selected canonical”

Aucune canonical déclarée (ou incohérente)

Mettre self-canonical sur la page à indexer + canonical sur variantes

Inspection d’URL : “Canonical déclarée” = “Canonical sélectionnée”

Google choisit une autre canonical que vous

Signaux contradictoires (liens internes, sitemap, redirections)

Aligner : maillage interne → URL cible, sitemap → URL cible, corriger redirections

Crawl + inspection : Google suit la version voulue

URLs à paramètres indexées (tri / filtres)

Facettes non maîtrisées + maillage vers URLs filtrées

Noindex sur tri/filtres non stratégiques + pages SEO dédiées

GSC : baisse des URLs “en double” + crawl réduit

Plusieurs URLs “techniques” pour la même page

www/non-www, slash, http/https

Normalisation + 301 partout

Crawl : 1 seule version retournant 200, le reste en 301

Pages paginées “en double”

Pagination sans valeur unique

Noindex (si pertinent) + enrichir page 1 + maillage vers page 1

GSC : pages paginées sortent progressivement de l’index

Contenu similaire entre catégories/tags

Taxonomies trop proches

Désindexer tags faibles ou différencier fortement les pages

GSC : moins de cannibalisation, requêtes stabilisées

Canonical vers une page non équivalente

Canonical utilisée “comme un pansement”

Ne canoniser que des pages réellement proches + préférer 301 quand c’est un remplacement

Inspection : canonical logique + cohérence du contenu

Canonical vers une URL bloquée/noindex/404

Erreur technique

Corriger la cible canonical + réparer statut 200

Crawl : canonical cible = 200, indexable

Checklist finale : assainir l’indexation 

  • Une seule version du site (https, www/non-www, slash)
  • Pas de préprod indexée
  • Pages de recherche interne en noindex
  • Facettes : stratégie claire (pages SEO vs noindex/canonical)
  • Variantes produit : indexées seulement si intention spécifique
  • Canonical cohérentes (self canonical sur pages importantes)
  • Titles / metas non dupliqués sur pages stratégiques
  • Sitemap nettoyé : uniquement URLs à indexer
  • Maillage interne aligné sur les pages “à ranker”
  • GSC : surveillance des statuts “duplication”
  • Crawl régulier (mensuel sur e-commerce)
  • Logs : vérifier le gaspillage crawl (si possible)

Comme toutes les listes que nous fournissons, il faut surveiller tous ces points et faire le check tous les 6 mois ou au moins tous les ans.

Que retenir ?

Le duplicate content n’est pas une fatalité. C’est souvent un effet secondaire normal d’un site vivant (e-commerce, blog, CMS). La différence entre un site qui stagne et un site qui progresse, c’est une chose : la capacité à décider ce qui doit être indexé… et à être cohérent partout (canonical, redirections, maillage, sitemap).

Si vous appliquez la méthode de détection + l’arbre de décision, vous reprenez la main. Et Google, lui, adore quand on lui simplifie le travail.

Et si vous voulez en parler avec des spécialistes, contactez nous.

FAQ duplicate content

Google pénalise-t-il le duplicate content ?

En général, non : il choisit une version et ignore les autres. Le vrai risque, c’est de perdre le contrôle.

Canonical ou redirection 301 ?

  • 301 si vous voulez remplacer définitivement une URL
  • canonical si vous devez garder plusieurs URLs accessibles (variantes) mais concentrer les signaux

Noindex ou robots.txt ?

  • noindex pour retirer proprement de l’index
  • robots.txt pour empêcher le crawl (mais pas idéal pour “nettoyer” l’index)

Les UTM créent-ils du duplicate content ?

Oui, techniquement. En pratique, il faut éviter que ces URLs soient maillées/interne indexables, et privilégier une URL canonique propre.

Peut-on utiliser du contenu fournisseur ?

Vous pouvez, mais c’est rarement un bon plan SEO. Au minimum : enrichir, structurer, ajouter valeur et différenciation.

Prêt à concrétiser votre projet ?

Posez nous toutes vos questions et nous vous aiderons à y voir plus clair.

Dessin d'une fusée qui décolle
Image

Nos experts vous répondent

laurent lacoste
vincent burkic
georges corre

Nous vous accompagnons pour donner vie à vos idées !

Une étroite collaboration, pour que votre projet vous ressemble.

Choix utilisateur pour les Cookies
Nous utilisons des cookies afin de vous proposer les meilleurs services possibles. Si vous déclinez l'utilisation de ces cookies, le site web pourrait ne pas fonctionner correctement.
Tout accepter
Tout décliner
En savoir plus
Analytique
Outils utilisés pour analyser les données de navigation et mesurer l'efficacité du site internet afin de comprendre son fonctionnement.
Google Analytics
Accepter
Décliner
Sauvegarder