Robots.txt expliqué simplement : syntaxe, bonnes pratiques & impact SEO
Georges Corre Référencement
Ah, robots.txt.
Ce petit fichier de quelques lignes qui peut, selon comment vous le configurez, soit vous sauver un site… soit vous détruire 80 % de votre visibilité sans même lever un sourcil.
Je l’ai vu des dizaines de fois en audit :
➡️ des sites entiers désindexés par une simple ligne mal placée
➡️ des bots IA qui viennent piocher où il ne faut pas
➡️ des crawl budgets gaspillés dans des pages paniers et des filtres interminables
Alors aujourd’hui, je vous explique clairement, calmement, et avec mon humour de vieux briscard, comment fonctionne robots.txt, ce qu’il peut faire… et surtout ce qu’il ne fera jamais.
Robots.txt : le fichier qui dit “toi tu passes, toi tu restes dehors”
Un fichier robots.txt, c’est simplement des règles destinées aux robots d’exploration, comme Googlebot, Bingbot, ou les bots IA récents (GPTBot, ClaudeBot…).
Il sert à indiquer ce qui peut être crawlé et ce qui doit rester à l’écart.
Exemple de bloc simple :
User-agent: *
Disallow: /login/
Allow: /
👉 “User-agent” = à qui s’applique la règle
👉 “Allow” / “Disallow” = ce que le robot a le droit de visiter ou non
Important : robots.txt NE bloque PAS l’indexation.
Si une page non crawlable reçoit un lien externe, Google peut quand même la découvrir et l’indexer.
Pour bloquer l’indexation → meta robots noindex.
Pour bloquer totalement → protéger par mot de passe.
Robots.txt, Meta Robots, X-Robots : qui fait quoi ?
Voici un tableau simple qui résume la différence.
Tableau – Les trois outils et leur rôle
Outil | Où ? | Sert à quoi ? | Bloque vraiment l’indexation ? |
robots.txt | Racine du site | Indiquer quoi crawler / éviter | ❌ Non |
meta robots | <head> d’une page | Dire si la page doit être indexée ou non | ✔️ Oui |
X-Robots-Tag | Headers serveur | Gérer les directives pour PDF / images / fichiers | ✔️ Oui |
👉 Robots.txt = la douane
👉 Meta robots = le droit d’apparaître dans la vitrine
👉 X-Robots = la même chose pour les fichiers non HTML
Si le sujet vous intéresse, lisez nos articles
- Crawl Budget : les fondamentaux
- Les erreurs SEO techniques qui nuisent à votre référencement
- Comment fonctionne l’algorithme de Google ?
- Balises Meta Robots & X-Robots : explications et bonnes pratiques
- Comment optimiser son site web pour le référencement ?
Pourquoi robots.txt est essentiel pour votre SEO ?
Parce qu’il contrôle la manière dont les robots consomment vos ressources.
1. Optimiser votre crawl budget
Sur les gros sites, Googlebot ne va pas tout crawler :
➡️ Trop long
➡️ Trop coûteux
➡️ Pas prioritaire
Robots.txt sert à dire :
“Ignore les pages inutiles pour le SEO.”
Exemples typiques à bloquer :
/cart/
/login/
/checkout/
/search/
2. Mieux gérer l'apparence de votre site en recherche
Robots.txt fonctionne en trio avec :
- votre sitemap (qui montre ce qui est important)
- vos canonicals (qui évitent les doublons)
- vos noindex (ce qui doit rester en coulisses)
3. Limiter les bots toxiques ou indésirables
Scrapers, IA, bots agressifs…
La première barrière : robots.txt.
Exemple :
User-agent: GPTBot
Disallow: /
Est-ce que ça les empêchera tous ?
Les bots bien élevés, oui.
Les voyous, non.
(Rien ne remplace un bon WAF.)
Comment créer un robots.txt propre et efficace ?
Étape 1 — Décider ce que vous voulez contrôler
Posez-vous la question :
Quelles pages n’ont aucun intérêt pour un internaute qui recherche sur Google ?
Liste fréquente à exclure :
- pages panier
- pages login
- pages de test
- archives techniques
- filtres combinés / navigation à facettes
Étape 2 — Cibler ou non certains bots
Si vous voulez bloquer un bot précis :
User-agent: Bingbot
Disallow: /not-for-bing/
Et pour un bot IA :
User-agent: GPTBot
Disallow: /
Étape 3 — Écrire votre fichier dans un éditeur texte
Jamais dans Word.
Jamais dans Pages.
👉 Un simple fichier robots.txt en ASCII.
Exemple de fichier complet :
User-agent: Googlebot
Disallow: /clients/
Disallow: /test/
User-agent: *
Disallow: /archive/
Disallow: /support/
Sitemap: https://www.monsite.com/sitemap.xml
Étape 4 — L’envoyer à la racine du site
Toujours à l’adresse :
https://www.monsite.com/robots.txt
Pas dans un sous-dossier.
Pas dans /blog/.
Étape 5 — Vérifier qu’il est correctement interprété
Utilisez :
- le rapport robots.txt de Google Search Console
- l’outil d’inspection d’URL (“Blocked by robots.txt” = problème)
Les meilleures pratiques (du vécu, du terrain)
N’utilisez les wildcards * uniquement si vous savez vraiment ce que vous faites
Exemples dangereux :
Disallow: /*.php
Disallow: /dossier/*.html$
On a déjà vu des sites entiers disparaître à cause d’une étoile mal placée.
Ne bloquez jamais /css/, /js/, /assets/
Google doit charger vos ressources pour comprendre votre site.
Si vous bloquez vos scripts → vous cassez votre SEO.
Robots.txt n’est PAS une solution pour cacher des pages sensibles
Les pages privées doivent être :
➡️ en noindex
➡️ protégées par mot de passe
➡️ ou totalement inaccessibles
Documentez votre fichier avec des commentaires
Un robots.txt sans commentaires, c’est comme un frigo sans étiquettes.
# Blocage des pages internes non destinées au public
Disallow: /internal/
Faut-il bloquer les IA et les LLMs ?
Vous avez deux écoles :
→ Ceux qui veulent la visibilité
Ils laissent passer les bots IA, car cela génère :
- citations,
- trafic indirect,
- notoriété.
→ Ceux qui veulent garder le contrôle
Ils bloquent :
- GPTBot
- ClaudeBot
- CCBot
- PerplexityBot
Pour éviter que leurs contenus servent à entraîner des modèles.
👉 À chacun sa stratégie : il n’y a pas une réponse universelle.
Note complémentaire :
Un fichier llms.txt est en cours de standardisation, mais son adoption est encore marginale. Les moteurs IA ne s’y fient pas encore réellement. Nous avons un article sur le sujet.
Que retenir ? robots.txt, c’est un scalpel, pas une tronçonneuse
Avec trois lignes, vous pouvez :
- optimiser votre crawl budget
- protéger votre contenu précieux
- éviter que Google perde son temps
- garder un contrôle sur les bots IA
… ou rendre votre site invisible.
Un bon robots.txt, c’est comme un bon câblage réseau :
👉 personne ne le voit, mais quand c’est mal fait, tout le monde pleure.
Si vous voulez que je jette un œil à votre fichier robots.txt (et éviter la catastrophe),
je suis toujours partant — avec le sourire et un café.
Prêt à concrétiser votre projet ?
Posez nous toutes vos questions et nous vous aiderons à y voir plus clair.




