Meta Robots et X-Robots cela ne vous dit peut-être rien, et pourtant il est important de bien comprendre la différence entre ces 2 balises qui peuvent avoir un impact sur votre SEO.
Qu'est-ce qu'une balise méta-robots ?
Une balise méta-robots est un morceau de code HTML qui indique aux robots des moteurs de recherche comment explorer, indexer et afficher le contenu d'une page.
Elle se trouve dans la section <head> de la page et peut ressembler à ceci :
<meta name="robots" content="noindex">
La balise méta-robots de l'exemple ci-dessus indique à tous les robots d'exploration des moteurs de recherche de ne pas indexer la page.
Voyons à quoi peuvent servir les balises méta-robots, pourquoi elles sont importantes pour le référencement et comment les utiliser correctement.
Meta Robots vs. Robots.txt
Les balises méta-robots et les fichiers robots.txt ont des fonctions similaires mais servent à des fins différentes.
Un fichier robots.txt est un fichier texte unique qui s'applique à l'ensemble du site. Et indique aux moteurs de recherche les pages à explorer.
Une balise méta-robots s'applique uniquement à la page contenant la balise. Et indique aux moteurs de recherche comment explorer, indexer et afficher les informations de cette page uniquement.
À quoi servent les balises méta robots ?
Les balises méta robots permettent de contrôler la manière dont Google explore et indexe le contenu d'une page. Cela inclut les choix suivants :
- Inclure une page dans les résultats de recherche
- Suivre les liens sur une page
- Indexer les images sur une page
- Afficher les résultats mis en cache de la page sur les pages de résultats des moteurs de recherche (SERP)
- Afficher un extrait de la page sur les SERP
Ci-dessous, nous allons explorer les attributs que vous pouvez utiliser pour indiquer aux moteurs de recherche comment interagir avec vos pages.
Mais d'abord, discutons de l'importance des balises méta robots et de la manière dont elles peuvent affecter le référencement de votre site.
Comment les balises méta robots affectent-elles le référencement ?
Les balises méta robots aident Google et les autres moteurs de recherche à explorer et indexer efficacement vos pages.
En particulier pour les sites volumineux ou fréquemment mis à jour.
Après tout, vous n'avez probablement pas besoin que toutes les pages de votre site soient classées.
Par exemple, vous ne souhaitez probablement pas que les moteurs de recherche indexent :
- Les pages de votre site de test
- Les pages de confirmation, telles que les pages de remerciement
- Les pages d'administration ou de connexion
- Les pages de résultats de recherche internes
- Les pages avec du contenu en double
La combinaison des balises méta robots avec d'autres directives et fichiers, tels que les plans de site et les fichiers robots.txt, peut donc être un élément utile de votre stratégie de référencement technique. En effet, elles peuvent aider à prévenir les problèmes qui pourraient autrement nuire aux performances de votre site Web.
Quelles sont les spécifications de nom et de contenu pour les balises Meta Robots ?
Les balises Meta Robots contiennent deux attributs : nom et contenu. Les deux sont obligatoires.
Attribut Name
Cet attribut indique quel robot d'exploration doit suivre les instructions de la balise.
Comme ceci :
name="crawler"
Si vous souhaitez vous adresser à tous les robots d'exploration, insérez « robots » comme attribut « name ».
Comme ceci :
name="robots"
Remarque : L'attribut name n'est pas sensible à la casse. Ainsi, « robots », « ROBOTS » et « Robots » fonctionneront tous.
Si vous souhaitez limiter l'exploration à des moteurs de recherche spécifiques, l'attribut name vous permet de le faire. Et vous pouvez en choisir autant (ou aussi peu) que vous le souhaitez.
Voici quelques robots d'exploration courants :
- Google : Googlebot (ou Googlebot-news pour les résultats d'actualités)
- Bing : Bingbot (voir la liste de tous les robots d'exploration Bing)
- DuckDuckGo : DuckDuckBot
- Baidu : Baiduspider
- Yandex : YandexBot
Remarque : Bien que les principaux moteurs de recherche respectent vos balises méta-robots, il est possible que d'autres ne le fassent pas. Cela signifie que vous ne devez pas utiliser les balises méta-robots comme mesure de sécurité sur le contenu sensible. Optez plutôt pour une méthode plus sûre comme la protection par mot de passe.
Attribut de contenu
L'attribut « content » contient des instructions pour le robot d'exploration.
Il ressemble à ceci :
content="instruction"
Remarque : Comme son nom, l'attribut content n'est pas sensible à la casse.
Google prend en charge les valeurs « content » suivantes :
- Valeurs de contenu par défaut : Sans balise méta-robots, les robots d'exploration indexeront le contenu et suivront les liens par défaut (à moins que le lien lui-même ne comporte une balise « nofollow »). Cela revient à ajouter la valeur « all » suivante (bien qu'il ne soit pas nécessaire de la spécifier) :
<meta name="robots" content="all"
Ainsi, si vous ne souhaitez pas que la page apparaisse dans les résultats de recherche ou que les moteurs de recherche explorent ses liens, vous devez ajouter une balise meta robots. Avec des valeurs de contenu appropriées.
- Noindex : La valeur meta robots « noindex » indique aux robots d'exploration de ne pas inclure la page dans l'index du moteur de recherche ni de l'afficher dans les SERP.
<meta name="robots" content="noindex">
Sans la valeur noindex, les moteurs de recherche peuvent indexer et diffuser la page dans les résultats de recherche.
Les cas d'utilisation typiques de « noindex » sont les pages de panier ou de paiement sur un site Web de commerce électronique.
- Nofollow : Cela indique aux robots d'exploration de ne pas explorer les liens de la page.
<meta name="robots" content="nofollow">
Google et d'autres moteurs de recherche utilisent souvent des liens sur les pages pour découvrir ces pages liées. Et les liens peuvent aider à transmettre l'autorité d'une page à une autre.
Utilisez la règle nofollow si vous ne souhaitez pas que le robot suive les liens de la page ou leur transmette une quelconque autorité.
Cela peut être le cas si vous n'avez aucun contrôle sur les liens placés sur votre site Web. Par exemple, dans un forum non modéré avec un contenu largement généré par les utilisateurs.
Remarque : Cela n'empêche pas Google de trouver les pages liées, car elles peuvent être liées à d'autres pages et sites Web.
- Noarchive : La valeur de contenu « noarchive » indique à Google de ne pas diffuser une copie de votre page dans les résultats de recherche.
<meta name="robots" content="noarchive">
Si vous ne spécifiez pas cette valeur, Google peut afficher une copie en cache de votre page que les internautes peuvent voir dans les SERP.
Vous pouvez utiliser cette valeur pour le contenu sensible au temps, les documents internes, les pages de destination PPC ou toute autre page que vous ne souhaitez pas que Google mette en cache.
- Noimageindex : Cette valeur indique à Google de ne pas indexer les images de la page.
<meta name="robots" content="noimageindex">
L'utilisation de « noimageindex » peut nuire au trafic organique potentiel provenant des résultats d'images. Et si les utilisateurs peuvent toujours accéder à la page, ils pourront toujours trouver les images. Même avec cette balise en place.
- Notranslate : « Notranslate » empêche Google de proposer des traductions de la page dans les résultats de recherche.
<meta name="robots" content="notranslate">
Si vous ne spécifiez pas cette valeur, Google peut afficher une traduction du titre et de l'extrait d'un résultat de recherche pour les pages qui ne sont pas dans la même langue que la requête de recherche.
Utilisez cette valeur si vous préférez que votre page ne soit pas traduite par Google Translate.
Par exemple, si vous avez une page de produit avec des noms de produits que vous ne souhaitez pas traduire. Ou si vous trouvez que les traductions de Google ne sont pas toujours exactes.
- Nositelinkssearchbox : Cette valeur indique à Google de ne pas générer de champ de recherche pour votre site dans les résultats de recherche.
<meta name="robots" content="nositelinkssearchbox">
Si vous n'utilisez pas cette valeur, Google peut afficher un champ de recherche pour votre site dans les SERP.
Comme ceci :
champ de recherche sur le site « The New York Times » dans les SERP, au-dessus des liens de site
Utilisez cette valeur si vous ne souhaitez pas que le champ de recherche apparaisse.
- Nosnippet : « Nosnippet » empêche Google d'afficher un extrait de texte ou un aperçu vidéo de la page dans les résultats de recherche.
<meta name="robots" content="nosnippet">
Sans cette valeur, Google peut produire des extraits de texte ou de vidéo basés sur le contenu de la page.
La valeur « nosnippet » empêche Google d'utiliser votre contenu comme « entrée directe » pour les aperçus AI. Mais elle empêchera également les méta-descriptions, les extraits enrichis et les aperçus vidéo. Utilisez-la donc avec prudence.
Bien qu'il ne s'agisse pas d'une balise méta robots, vous pouvez utiliser l'attribut « data-nosnippet » pour empêcher l'affichage de sections spécifiques de vos pages dans les résultats de recherche.
- Max-snippet : « Max-snippet » indique à Google la longueur maximale de caractères qu'il peut afficher comme extrait de texte pour la page dans les résultats de recherche.
Cet attribut a deux cas importants à prendre en compte :
0 : exclut votre page des extraits de texte (comme avec « nosnippet »)
-1 : indique qu'il n'y a pas de limite
Par exemple, pour empêcher Google d'afficher un extrait de texte dans les SERP, vous pouvez utiliser :
<meta name="robots" content="max-snippet:0">
Ou, si vous souhaitez autoriser jusqu'à 100 caractères :
<meta name="robots" content="max-snippet:100">
Pour indiquer qu'il n'y a pas de limite de caractères :
<meta name="robots" content="max-snippet:-1">
- Max-image-preview : Cela indique à Google la taille maximale d'une image d'aperçu pour la page dans les SERP.
Il existe trois valeurs pour cette directive :
None : Google n'affichera pas d'image d'aperçu
Standard : Google peut afficher un aperçu par défaut
Large : Google peut afficher une image d'aperçu plus grande
<meta name="robots" content="max-image-preview:large">
- Max-video-preview : Cette valeur indique à Google la longueur maximale que vous souhaitez utiliser pour un extrait vidéo dans les SERP (en secondes).
Comme pour « max-snippet », il existe deux valeurs importantes pour cette directive :
0 : désactive les extraits vidéo de votre page
-1 : indique qu'il n'y a pas de limite
Par exemple, la balise ci-dessous permet à Google de diffuser un aperçu vidéo d'une durée maximale de 10 secondes :
<meta name="robots" content="max-video-preview:10">
Utilisez cette règle si vous souhaitez limiter votre extrait à certaines parties de vos vidéos. Si vous ne le faites pas, Google peut afficher un extrait vidéo de n'importe quelle longueur.
- Indexifembedded : Lorsqu'elle est utilisée avec noindex, cette balise (assez nouvelle) permet à Google d'indexer le contenu de la page s'il est intégré dans une autre page via des éléments HTML tels que des iframes.
(Elle n'aurait aucun effet sans la balise noindex.)
<meta name="robots" content="noindex, indexifembedded">
« Indexifembedded » a été créé en pensant aux éditeurs de médias :
Ils ont souvent des pages de médias qui ne doivent pas être indexées. Mais ils veulent que le média soit indexé lorsqu'il est intégré dans le contenu d'une autre page.
Auparavant, ils auraient utilisé « noindex » sur la page de média. Ce qui l'empêcherait d'être également indexé sur les pages d'intégration. « Indexifembedded » résout ce problème.
Remarque : Tous les moteurs de recherche ne prennent pas en charge cette balise.
- Unavailable_after : La valeur « unavailable_after » empêche Google d'afficher une page dans les SERP après une date et une heure spécifiques.
<meta name="robots" content="unavailable_after: 2024-10-21">
Vous devez spécifier la date et l'heure en utilisant les formats RFC 822, RFC 850 ou ISO 8601. Google ignore cette règle si vous ne spécifiez pas de date/heure. Par défaut, il n'y a pas de date d'expiration pour le contenu.
Vous pouvez utiliser cette valeur pour les pages d'événements à durée limitée, les pages sensibles au temps ou les pages que vous ne considérez plus comme importantes. Cela fonctionne comme une balise noindex temporisée, alors utilisez-la avec prudence. Vous pourriez vous retrouver avec des problèmes d'indexation plus tard.
Combinaison des règles de métabalise robots
Vous pouvez combiner les règles de métabalise robots de deux manières :
- En écrivant plusieurs valeurs séparées par des virgules dans l'attribut « contenu »
- En fournissant deux ou plusieurs métaéléments robots
Plusieurs valeurs à l'intérieur de l'attribut « Contenu »
Vous pouvez mélanger et assortir les valeurs « contenu » que nous venons de décrire. Assurez-vous simplement de les séparer par une virgule. Encore une fois, les valeurs ne sont pas sensibles à la casse.
Par exemple :
<meta name="robots" content="noindex, nofollow">
Cela indique aux moteurs de recherche de ne pas indexer la page ni d'explorer les liens de la page.
Vous pouvez combiner noindex et nofollow en utilisant la valeur « none » :
<meta name="robots" content="none">
Mais certains moteurs de recherche, comme Bing, ne prennent pas en charge cette valeur.
Remarque : Si vous combinez des directives contradictoires ou si l'une est un sous-ensemble de l'autre (comme « nosnippet, max-snippet: -1 »), Google utilisera celle qui est la plus restrictive. Dans cet exemple, la règle nosnippet s'appliquerait.
Deux ou plusieurs éléments méta robots
Utilisez des éléments méta robots distincts si vous souhaitez demander à différents robots d'exploration de se comporter différemment.
Par exemple :
<meta name="robots" content="nofollow">
<meta name="YandexBot" content="noindex">
Cette combinaison demande à tous les robots d'exploration d'éviter d'explorer les liens sur la page. Mais elle indique également à Yandex de ne pas indexer la page.
Erreurs courantes à éviter avec les balises méta-robots
Jetons un œil à certaines erreurs courantes à éviter lors de l'utilisation de balises méta-robots et de balises x-robots :
Utilisation des directives méta-robots sur une page bloquée par Robots.txt
Si vous interdisez l'exploration d'une page dans votre fichier robots.txt, les principaux robots des moteurs de recherche ne l'exploreront pas. Ainsi, toutes les balises méta-robots ou balises x-robots sur cette page seront ignorées. Assurez-vous que les moteurs de recherche peuvent explorer toutes les pages avec des balises méta-robots ou des balises x-robots.
Ajout de directives robots au fichier robots.txt
Bien que cela n'ait jamais été officiellement pris en charge par Google, vous pouviez autrefois ajouter une directive « noindex » au fichier robots.txt de votre site. Ce n'est plus une option, comme l'a confirmé Google. La règle « noindex » dans les balises méta-robots est le moyen le plus efficace de supprimer des URL de l'index lorsque vous autorisez l'exploration.
Supprimer des pages avec une directive Noindex des plans de site
Si vous essayez de supprimer une page de l'index à l'aide d'une directive « noindex », laissez la page dans votre plan de site jusqu'à ce qu'elle soit supprimée.
La suppression de la page avant sa désindexation peut entraîner des retards dans la désindexation.
Ne pas supprimer la directive « Noindex » d'un environnement de test
Empêcher les robots d'explorer les pages de votre site de test est une bonne pratique. Mais il est facile d'oublier de supprimer « noindex » une fois que le site passe en production.
Et les résultats peuvent être désastreux. Les moteurs de recherche peuvent ne jamais explorer et indexer votre site.
Pour éviter ces problèmes, vérifiez que vos balises méta robots sont correctes avant de déplacer votre site d'une plate-forme de test vers un environnement de production.
FAQ
Q : Quand utiliser la balise méta robots ou la balise X-Robots ?
R : Utilisez la balise méta robots pour les pages HTML et la balise x-robots pour les autres ressources non HTML, comme les PDF et les images. Ce n'est pas une exigence technique. Vous pouvez indiquer aux robots d'indexation ce qu'ils doivent faire de vos pages Web via les balises x-robots. Mais il est plus facile d'obtenir le même résultat en implémentant les balises méta robots sur une page Web. Vous pouvez également utiliser les balises x-robots pour appliquer des directives en masse, plutôt qu'au niveau de la page.
Q : Avez-vous besoin d'utiliser à la fois la balise méta robots et la balise X-Robots ?
R : Vous n'avez pas besoin d'utiliser à la fois les balises méta robots et les balises x-robots. Il suffit d'indiquer aux robots d'indexation comment indexer votre page à l'aide d'une balise méta robots ou x-robots. Répéter l'instruction n'augmentera pas les chances que Googlebot ou tout autre robot d'indexation la suive.
Q : Quelle est la manière la plus simple d’implémenter les balises méta robots ?
R : L’utilisation d’un plugin est généralement le moyen le plus simple d’ajouter des balises méta robots à vos pages Web. En effet, cela ne nécessite généralement pas de modifier le code de votre site. Le plugin que vous devez utiliser dépend du système de gestion de contenu (CMS) que vous utilisez. Utilisez correctement les balises méta robots pour éviter les problèmes d’indexation Les balises méta robots garantissent que le contenu dans lequel vous mettez tant d’efforts est indexé. Si les moteurs de recherche n’indexent pas votre contenu, vous ne pouvez pas générer de trafic organique. Il est donc absolument essentiel de bien définir les paramètres de base des balises méta robots (comme noindex et nofollow).
En conclusion
Les balises méta-robots sont un outil puissant pour optimiser l'exploration et l'indexation de votre site web par les moteurs de recherche.
Bien qu'elles puissent sembler techniques, leur bonne utilisation est essentielle pour maîtriser la visibilité de votre contenu et éviter des problèmes d'indexation.
En combinant les balises méta-robots avec d'autres outils de référencement technique, comme le fichier robots.txt ou les plans de site, vous pouvez améliorer l'efficacité de votre stratégie SEO.
Assurez-vous d'appliquer ces balises avec précaution pour maximiser la pertinence de votre site dans les résultats de recherche, tout en évitant que des pages non essentielles ou sensibles soient indexées.