Outils d'accessibilité

Robots.txt expliqué simplement : syntaxe, bonnes pratiques & impact SEO

Robots.txt expliqué simplement : syntaxe, bonnes pratiques & impact SEO

Ah, robots.txt.
Ce petit fichier de quelques lignes qui peut, selon comment vous le configurez, soit vous sauver un site… soit vous détruire 80 % de votre visibilité sans même lever un sourcil.

Je l’ai vu des dizaines de fois en audit :
➡️ des sites entiers désindexés par une simple ligne mal placée
➡️ des bots IA qui viennent piocher où il ne faut pas
➡️ des crawl budgets gaspillés dans des pages paniers et des filtres interminables

Alors aujourd’hui, je vous explique clairement, calmement, et avec mon humour de vieux briscard, comment fonctionne robots.txt, ce qu’il peut faire… et surtout ce qu’il ne fera jamais.

Robots.txt : le fichier qui dit “toi tu passes, toi tu restes dehors”

Un fichier robots.txt, c’est simplement des règles destinées aux robots d’exploration, comme Googlebot, Bingbot, ou les bots IA récents (GPTBot, ClaudeBot…).

Il sert à indiquer ce qui peut être crawlé et ce qui doit rester à l’écart.

Exemple de bloc simple :

User-agent: *

Disallow: /login/

Allow: /

 

👉 “User-agent” = à qui s’applique la règle
👉 “Allow” / “Disallow” = ce que le robot a le droit de visiter ou non

Important : robots.txt NE bloque PAS l’indexation.
Si une page non crawlable reçoit un lien externe, Google peut quand même la découvrir et l’indexer.

Pour bloquer l’indexation → meta robots noindex.

Pour bloquer totalement → protéger par mot de passe.

Robots.txt, Meta Robots, X-Robots : qui fait quoi ?

Voici un tableau simple qui résume la différence.

Tableau – Les trois outils et leur rôle

Outil

Où ?

Sert à quoi ?

Bloque vraiment l’indexation ?

robots.txt

Racine du site

Indiquer quoi crawler / éviter

❌ Non

meta robots

<head> d’une page

Dire si la page doit être indexée ou non

✔️ Oui

X-Robots-Tag

Headers serveur

Gérer les directives pour PDF / images / fichiers

✔️ Oui

👉 Robots.txt = la douane
👉 Meta robots = le droit d’apparaître dans la vitrine
👉 X-Robots = la même chose pour les fichiers non HTML

Si le sujet vous intéresse, lisez nos articles

Pourquoi robots.txt est essentiel pour votre SEO ?

Parce qu’il contrôle la manière dont les robots consomment vos ressources.

 1. Optimiser votre crawl budget

Sur les gros sites, Googlebot ne va pas tout crawler :
➡️ Trop long
➡️ Trop coûteux
➡️ Pas prioritaire

Robots.txt sert à dire :
“Ignore les pages inutiles pour le SEO.”

Exemples typiques à bloquer :

/cart/

/login/

/checkout/

/search/

 

2. Mieux gérer l'apparence de votre site en recherche

Robots.txt fonctionne en trio avec :

  • votre sitemap (qui montre ce qui est important)
  • vos canonicals (qui évitent les doublons)
  • vos noindex (ce qui doit rester en coulisses)

3. Limiter les bots toxiques ou indésirables

Scrapers, IA, bots agressifs…
La première barrière : robots.txt.

Exemple :

User-agent: GPTBot

Disallow: /

 

Est-ce que ça les empêchera tous ?
Les bots bien élevés, oui.
Les voyous, non.
(Rien ne remplace un bon WAF.)

Comment créer un robots.txt propre et efficace ?

Étape 1 — Décider ce que vous voulez contrôler

Posez-vous la question :
Quelles pages n’ont aucun intérêt pour un internaute qui recherche sur Google ?

Liste fréquente à exclure :

  • pages panier
  • pages login
  • pages de test
  • archives techniques
  • filtres combinés / navigation à facettes

Étape 2 — Cibler ou non certains bots

Si vous voulez bloquer un bot précis :

User-agent: Bingbot

Disallow: /not-for-bing/

Et pour un bot IA :

User-agent: GPTBot

Disallow: /

Étape 3 — Écrire votre fichier dans un éditeur texte

Jamais dans Word.
Jamais dans Pages.
👉 Un simple fichier robots.txt en ASCII.

Exemple de fichier complet :

User-agent: Googlebot

Disallow: /clients/

Disallow: /test/

User-agent: *

Disallow: /archive/

Disallow: /support/

Sitemap: https://www.monsite.com/sitemap.xml

Étape 4 — L’envoyer à la racine du site

Toujours à l’adresse :

https://www.monsite.com/robots.txt

Pas dans un sous-dossier.
Pas dans /blog/.

Étape 5 — Vérifier qu’il est correctement interprété

Utilisez :

  • le rapport robots.txt de Google Search Console

  • l’outil d’inspection d’URL (“Blocked by robots.txt” = problème)

Les meilleures pratiques (du vécu, du terrain)

N’utilisez les wildcards * uniquement si vous savez vraiment ce que vous faites

Exemples dangereux :

Disallow: /*.php

Disallow: /dossier/*.html$

 

On a déjà vu des sites entiers disparaître à cause d’une étoile mal placée.

Ne bloquez jamais /css/, /js/, /assets/

Google doit charger vos ressources pour comprendre votre site.
Si vous bloquez vos scripts → vous cassez votre SEO.

Robots.txt n’est PAS une solution pour cacher des pages sensibles

Les pages privées doivent être :
➡️ en noindex
➡️ protégées par mot de passe
➡️ ou totalement inaccessibles

Documentez votre fichier avec des commentaires

Un robots.txt sans commentaires, c’est comme un frigo sans étiquettes.

# Blocage des pages internes non destinées au public

Disallow: /internal/

 

Faut-il bloquer les IA et les LLMs ?

Vous avez deux écoles :

→ Ceux qui veulent la visibilité

Ils laissent passer les bots IA, car cela génère :

  • citations,
  • trafic indirect,
  • notoriété.

→ Ceux qui veulent garder le contrôle

Ils bloquent :

  • GPTBot
  • ClaudeBot
  • CCBot
  • PerplexityBot

Pour éviter que leurs contenus servent à entraîner des modèles.

👉 À chacun sa stratégie : il n’y a pas une réponse universelle.

Note complémentaire :
Un fichier llms.txt est en cours de standardisation, mais son adoption est encore marginale. Les moteurs IA ne s’y fient pas encore réellement. Nous avons un article sur le sujet.

Que retenir ? robots.txt, c’est un scalpel, pas une tronçonneuse

Avec trois lignes, vous pouvez :

  • optimiser votre crawl budget
  • protéger votre contenu précieux
  • éviter que Google perde son temps
  • garder un contrôle sur les bots IA

… ou rendre votre site invisible.

Un bon robots.txt, c’est comme un bon câblage réseau :
👉 personne ne le voit, mais quand c’est mal fait, tout le monde pleure.

Si vous voulez que je jette un œil à votre fichier robots.txt (et éviter la catastrophe),
je suis toujours partant — avec le sourire et un café.

Prêt à concrétiser votre projet ?

Posez nous toutes vos questions et nous vous aiderons à y voir plus clair.

Dessin d'une fusée qui décolle
Image

Nos experts vous répondent

laurent lacoste
vincent burkic
georges corre

Nous vous accompagnons pour donner vie à vos idées !

Une étroite collaboration, pour que votre projet vous ressemble.

Choix utilisateur pour les Cookies
Nous utilisons des cookies afin de vous proposer les meilleurs services possibles. Si vous déclinez l'utilisation de ces cookies, le site web pourrait ne pas fonctionner correctement.
Tout accepter
Tout décliner
En savoir plus
Analytique
Outils utilisés pour analyser les données de navigation et mesurer l'efficacité du site internet afin de comprendre son fonctionnement.
Google Analytics
Accepter
Décliner
Sauvegarder