Robots.txt expliqué simplement : syntaxe, bonnes pratiques & impact SEO

Georges Corre Référencement 14 décembre 2025

Ah, robots.txt.
Ce petit fichier de quelques lignes qui peut, selon comment vous le configurez, soit vous sauver un site… soit vous détruire 80 % de votre visibilité sans même lever un sourcil.

Je l’ai vu des dizaines de fois en audit :
➡️ des sites entiers désindexés par une simple ligne mal placée
➡️ des bots IA qui viennent piocher où il ne faut pas
➡️ des crawl budgets gaspillés dans des pages paniers et des filtres interminables

Alors aujourd’hui, je vous explique clairement, calmement, et avec mon humour de vieux briscard, comment fonctionne robots.txt, ce qu’il peut faire… et surtout ce qu’il ne fera jamais.

Robots.txt : le fichier qui dit “toi tu passes, toi tu restes dehors”

Un fichier robots.txt, c’est simplement des règles destinées aux robots d’exploration, comme Googlebot, Bingbot, ou les bots IA récents (GPTBot, ClaudeBot…).

Il sert à indiquer ce qui peut être crawlé et ce qui doit rester à l’écart.

Exemple de bloc simple :

User-agent: *

Disallow: /login/

Allow: /

👉 “User-agent” = à qui s’applique la règle
👉 “Allow” / “Disallow” = ce que le robot a le droit de visiter ou non

Important : robots.txt NE bloque PAS l’indexation.
Si une page non crawlable reçoit un lien externe, Google peut quand même la découvrir et l’indexer.

Pour bloquer l’indexation → meta robots noindex.

Pour bloquer totalement → protéger par mot de passe.

Robots.txt, Meta Robots, X-Robots : qui fait quoi ?

Voici un tableau simple qui résume la différence.

Tableau – Les trois outils et leur rôle

Outil	Où ?	Sert à quoi ?	Bloque vraiment l’indexation ?
robots.txt	Racine du site	Indiquer quoi crawler / éviter	❌ Non
meta robots	<head> d’une page	Dire si la page doit être indexée ou non	✔️ Oui
X-Robots-Tag	Headers serveur	Gérer les directives pour PDF / images / fichiers	✔️ Oui

👉 Robots.txt = la douane
👉 Meta robots = le droit d’apparaître dans la vitrine
👉 X-Robots = la même chose pour les fichiers non HTML

Si le sujet vous intéresse, lisez nos articles

Pourquoi robots.txt est essentiel pour votre SEO ?

Parce qu’il contrôle la manière dont les robots consomment vos ressources.

1. Optimiser votre crawl budget

Sur les gros sites, Googlebot ne va pas tout crawler :
➡️ Trop long
➡️ Trop coûteux
➡️ Pas prioritaire

Robots.txt sert à dire :
“Ignore les pages inutiles pour le SEO.”

Exemples typiques à bloquer :

/cart/

/login/

/checkout/

/search/

2. Mieux gérer l'apparence de votre site en recherche

Robots.txt fonctionne en trio avec :

votre sitemap (qui montre ce qui est important)
vos canonicals (qui évitent les doublons)
vos noindex (ce qui doit rester en coulisses)

3. Limiter les bots toxiques ou indésirables

Scrapers, IA, bots agressifs…
La première barrière : robots.txt.

Exemple :

User-agent: GPTBot

Disallow: /

Est-ce que ça les empêchera tous ?
Les bots bien élevés, oui.
Les voyous, non.
(Rien ne remplace un bon WAF.)

Comment créer un robots.txt propre et efficace ?

Étape 1 — Décider ce que vous voulez contrôler

Posez-vous la question :
Quelles pages n’ont aucun intérêt pour un internaute qui recherche sur Google ?

Liste fréquente à exclure :

pages panier
pages login
pages de test
archives techniques
filtres combinés / navigation à facettes

Étape 2 — Cibler ou non certains bots

Si vous voulez bloquer un bot précis :

User-agent: Bingbot

Disallow: /not-for-bing/

Et pour un bot IA :

User-agent: GPTBot

Disallow: /

Étape 3 — Écrire votre fichier dans un éditeur texte

Jamais dans Word.
Jamais dans Pages.
👉 Un simple fichier robots.txt en ASCII.

Exemple de fichier complet :

User-agent: Googlebot

Disallow: /clients/

Disallow: /test/

User-agent: *

Disallow: /archive/

Disallow: /support/

Sitemap: https://www.monsite.com/sitemap.xml

Étape 4 — L’envoyer à la racine du site

Toujours à l’adresse :

https://www.monsite.com/robots.txt

Pas dans un sous-dossier.
Pas dans /blog/.

Étape 5 — Vérifier qu’il est correctement interprété

Utilisez :

le rapport robots.txt de Google Search Console
l’outil d’inspection d’URL (“Blocked by robots.txt” = problème)

Les meilleures pratiques (du vécu, du terrain)

N’utilisez les wildcards * uniquement si vous savez vraiment ce que vous faites

Exemples dangereux :

Disallow: /*.php

Disallow: /dossier/*.html$

On a déjà vu des sites entiers disparaître à cause d’une étoile mal placée.

Ne bloquez jamais /css/, /js/, /assets/

Google doit charger vos ressources pour comprendre votre site.
Si vous bloquez vos scripts → vous cassez votre SEO.

Robots.txt n’est PAS une solution pour cacher des pages sensibles

Les pages privées doivent être :
➡️ en noindex
➡️ protégées par mot de passe
➡️ ou totalement inaccessibles

Documentez votre fichier avec des commentaires

Un robots.txt sans commentaires, c’est comme un frigo sans étiquettes.

# Blocage des pages internes non destinées au public

Disallow: /internal/

Faut-il bloquer les IA et les LLMs ?

Vous avez deux écoles :

→ Ceux qui veulent la visibilité

Ils laissent passer les bots IA, car cela génère :

citations,
trafic indirect,
notoriété.

→ Ceux qui veulent garder le contrôle

Ils bloquent :

GPTBot
ClaudeBot
CCBot
PerplexityBot

Pour éviter que leurs contenus servent à entraîner des modèles.

👉 À chacun sa stratégie : il n’y a pas une réponse universelle.

Note complémentaire :
Un fichier llms.txt est en cours de standardisation, mais son adoption est encore marginale. Les moteurs IA ne s’y fient pas encore réellement. Nous avons un article sur le sujet.