Outils d'accessibilité

Blog

Crawl Budget : les fondamentaux


Vous avez entendu parler de rawl budget mais sans vraiment comprendre de quoi il ressort ? Pas de panique on décrypte tout ça ensemble.

Qu’est-ce que le crawl budget ?

Le budget crawl est une notion clé en SEO. Pourtant, beaucoup de personnes ont du mal à comprendre de quoi il s’agit réellement et donc le négligent.

Le crawl budget est le temps et les ressources que les robots des moteurs de recherche consacrent à l'exploration de votre site Web et à l'indexation de ses pages.

Tous les sites accessibles via le moteur de recherche Google ont été préalablement crawlés, c'est-à-dire qu'un robot a parcouru le site et analysé son contenu. Sans l’existence de ces robots, Google ne serait pas cette gigantesque base de données d’informations que nous connaissons aujourd’hui et utilisons quotidiennement.

Naviguant de lien en lien, les Googlebots surfent en permanence sur le Web, 24h/24 et 7j/7. Ces logiciels autonomes sont constamment à la recherche de nouveaux contenus et de mises à jour. Leur objectif ? Indexer les nouvelles pages et aider le moteur de recherche à les organiser en fonction de leur qualité et de leur pertinence.

Il existe différents types de robots d'exploration Google pour couvrir chaque domaine :

  • Recherche,
  • Mobile,
  • Images,
  • Vidéos…

Les crawl budget affectent-ils le référencement ?

Le crawl budget n'est pas un facteur de classement pour le SEO.

Mais si Googlebot rencontre des erreurs d’exploration qui l’empêchent de lire et d’indexer votre contenu, les chances que vos pages apparaissent sur les pages de résultats des moteurs de recherche (SERP) sont minces. Les Googlebots ont un coût pour Google et donc Google ne va pas les faire tourner en permanence sur un site qu’il aura des difficultés à indexer.

Le dépassement du crawl budget à l'exploration d'un site Web peut entraîner des ralentissements ou des erreurs.

Cela peut conduire à ce que les pages soient indexées tardivement, voire pas du tout, ce qui entraîne un classement inférieur dans les recherches.

Google utilise des centaines de signaux pour décider ou classer vos pages. L'exploration indique si vos pages apparaissent (et non où) et cela n'a rien à voir avec des contenus de qualité.

Comment Google détermine-t-il le crawl budget d’un site web ?

Chaque site Web dispose d'un crawl budget unique contrôlé par deux éléments principaux : la demande d'exploration et la limite d'exploration.

Il est important de comprendre comment ils fonctionnent et ce qui se passe en coulisses.

Demande d'exploration

La demande d'exploration fait référence au désir de Google d'explorer votre site Web.

Deux facteurs affectent cette demande : la popularité et l’obsolescence.

Popularité

Google donne la priorité aux pages avec plus de backlinks ou à celles qui attirent un trafic plus élevé. Ainsi, si des internautes visitent votre site Web ou créent un lien vers celui-ci, l’algorithme de Google reçoit des signaux indiquant que votre site Web mérite des explorations plus fréquentes.

Les backlinks aident particulièrement Google à déterminer quelles pages valent la peine d'être explorées. Si Google remarque que les gens parlent de votre site Web, il souhaite l'explorer davantage pour voir de quoi il s'agit.

Notez que le nombre de backlinks à lui seul n'a pas d'importance : les backlinks doivent être pertinents et provenir de sources faisant autorité.

L’obsolescence

Googlebot n'explorera pas une page qui n'a pas été mise à jour depuis un certain temps.

Google ne revèle pas la fréquence à laquelle le moteur de recherche explorera à nouveau le site Web. Cependant, si l’algorithme remarque une mise à jour générale du site, les robots augmentent temporairement le budget d’exploration.

Par exemple, Googlebot explore fréquemment les sites d’actualités car ils publient du nouveau contenu plusieurs fois par jour.
Dans ce cas, le site Web a une forte demande d’exploration.

D'autres actions pouvant signaler à Google que des modifications doivent être explorées incluent :

  • Changement de nom de domaine : lorsque vous modifiez le nom de domaine de votre site Web, l'algorithme de Google doit mettre à jour son index pour refléter la nouvelle URL. Il explorera le site Web pour comprendre le changement et transmettra les signaux de classement au nouveau domaine.

  • Modification de la structure des URL : si vous modifiez la structure des URL de votre site Web en modifiant la hiérarchie des répertoires ou en supprimant ou en ajoutant des sous-domaines, les robots de Google doivent réexplorer les pages pour indexer correctement les nouvelles URL.

  • Mises à jour du contenu : des mises à jour importantes du contenu de votre site Web, comme la réécriture d'une grande partie de vos pages, l'ajout de nouvelles pages ou la suppression de contenu obsolète, peuvent attirer l'attention de l'algorithme et l'inciter à réexplorer votre site Web.

  • Soumission d'un plan de site XML : la mise à jour de votre plan de site XML et sa soumission à nouveau à Google Search Console peuvent informer Google des modifications à explorer. Ceci est particulièrement utile lorsque vous souhaitez vous assurer que Google indexe rapidement les pages nouvelles ou mises à jour.

Limite de taux d'exploration

La limite de vitesse d'exploration détermine la vitesse à laquelle le bot peut accéder aux pages Web de votre site et les télécharger pour préparer le contenu à diffuser dans les résultats de recherche.

C'est la façon dont Google s'assure que son exploration ne surcharge pas vos serveurs.

La limite d'exploration empêche le bot d'enliser votre site Web avec trop de requêtes, ce qui peut entraîner des problèmes de performances.

Si votre site répond rapidement, Google obtient le feu vert pour augmenter la limite et peut alors utiliser plus de ressources pour l'explorer.

De même, si Google rencontre des erreurs de serveur ou si votre site ralentit, la limite diminuera et Googlebot explorera moins le site Web.

Vous pouvez également modifier la limite d’exploration manuellement, même s’il est important de le faire avec prudence. Google suggère de ne pas limiter la vitesse d'exploration, sauf si votre serveur ralentit.

Pour modifier votre vitesse d'exploration, accédez aux paramètres du site sur la Search Console et ajustez la barre. L’ajustement prend généralement jusqu’à deux jours pour s’appliquer.

Qu’est-ce qui peut ralentir l’exploration de Google ?

Plusieurs éléments influencent directement ou indirectement la fréquence de crawl des robots Google. L’enjeu est d’identifier rapidement ceux qui touchent directement votre site pour agir rapidement.

Parmi les plus fréquents :

  • Les pièges des crawlers : plus ou moins importants, les structures des sites sont souvent pointés du doigt et peuvent sérieusement gêner votre référencement. Ils ralentissent considérablement le travail des robots d’exploration. Par exemple dans le cas où il existe un nombre infini d’URL non pertinentes : ls robots se perdent alors dans les profondeurs de l’architecture et des pages de votre site Web plutôt que de cibler vos pages Web stratégiques. La navigation à facettes ou les URL configurables générées automatiquement en sont de bons exemples. C’est une façon de gaspiller votre budget d’exploration !

  • Fréquence de mise à jour du site Web : imaginons que les Googlebots visitent votre site 4 fois par semaine et trouvent toujours du nouveau contenu à indexer. Si vous arrêtez brusquement de mettre à jour votre site, les robots continueront à le visiter mais ne remarqueront aucune mise à jour lors de leurs visites. Après plusieurs visites infructueuses, ils prendront l’habitude d’explorer moins souvent votre site. En revanche, mettre à jour régulièrement le contenu peut « booster » le crawl de votre site sur cette page.

  • Le temps de chargement d'un site internet : un site lent ne verra que quelques-unes de ses pages explorées à chaque passage d'un robot, tandis qu'un site Web performant verra sa vitesse d'exploration augmenter.

  • Redirections et boucles de redirection : véritables impasses pour les robots, ce type de liens fait perdre beaucoup de budget crawl pour rien !

  • Un niveau d'architecture trop complexe et profond : ce type de problème implique que des pages non pertinentes sont visitées, alors que les plus intéressantes ne le sont pas.

  • Une mauvaise pagination : sur un forum par exemple, la visite d'un robot sur les pages 2, 3, 4, 5 n'est pas forcément utile !

  • Trop de charges JavaScript : longue et fastidieuse pour les serveurs, le crawl du code JavaScript nécessite la récupération de toutes les ressources et s’avère être un véritable puits de crawl budgétaire.

  • Contenu dupliqué : si votre site contient du contenu dupliqué, votre budget de crawl sera consommé par le robot car il passera plusieurs fois sur le même contenu. De même que les contenus de mauvaise qualité, comme les FAQ, consomment inutilement du budget de crawl.

  • Le mobile d’abord : il est important de comparer le passage du Googlebot dédié au mobile avec celui dédié au desktop. Plus que jamais : pensez Mobile First.

Combien d’URL sont explorées sur mon site Web chaque jour ?

Pour savoir précisément combien d’URL sont crawlées par Google, l’analyse des fichiers logs est la meilleure méthode car elle permet de savoir quelle image de votre site est renvoyée aux moteurs de recherche. Cette analyse permet de collecter des informations telles que les pages, catégories et parties du site crawlées, la fréquence de crawl et les informations reçues sur ces différentes pages.

Comme d’habitude, la célèbre Search Console vous fournira également des informations très importantes concernant le crawl de votre site.

Comment optimiser votre budget de crawl ?

Avec tous les éléments précédemment énoncés dans cet article, il existe plusieurs techniques qui, combinées, peuvent améliorer considérablement votre budget de crawl. D’un point de vue SEO, il convient de réfléchir à la manière d’économiser cette précieuse ressource qu’est le budget crawl.

graphique avec une courbe montant et le titre budget

Identifiez les pages qui utilisent inutilement le budget d'exploration

Sur presque tous les sites Web, de nombreuses pages sont explorées par des robots alors que cela n’est pas nécessaire. Ce gaspillage de budget de crawl nuit également aux performances SEO du site.

Grâce à la Search Console, vous pouvez voir le nombre de pages explorées mais non indexées. Ces données offrent un premier aperçu du budget de crawl qui pourrait être consacré à d’autres pages plus importantes et stratégiques. Mais c’est réellement grâce à l’analyse des logs que vous pourrez connaître précisément le volume de budget crawl gaspillé. La technique consiste à comparer le nombre de pages crawlées au nombre total de pages disponibles sur le site sélectionné :

  • Quel pourcentage du site est exploré ?
  • Quelles sont les pages stratégiques pour votre SEO qui ne sont pas crawlées ?
  • Quelles pages Web utilisent un budget d'exploration inutile ?

L’importance du sitemap.xml

Les plans de site XML sont importants pour le référencement car ils permettent à Google de trouver plus facilement les pages de votre site. Ceci est important car Google classe les pages web et pas les sites Web. Sans sitemap c’est comme naviguer sur l'océan sans carte.

Gardez le fichier robots.txt à jour

Pour éviter un gaspillage inutile de budget de crawl, il est important d'indiquer sur le fichier robots.txt toutes les URL à ne pas crawler. Le blocage de certaines URL vous permet de rediriger automatiquement le crawl vers des pages plus utiles.

Toutes les pages contenant la balise ne sont pas indexées, mais elles sont explorées. N'hésitez pas à jeter un œil à toutes ces pages qui ne sont pas volontairement indexées et à les supprimer des robots si nécessaire.

Pour optimiser votre budget crawl, vous devez savoir quelles pages sont visitées par les robots, et lesquelles ne le sont pas. Si votre site n’est pas régulièrement crawlé par les Googlebots, cela implique probablement que beaucoup de vos pages ne sont pas crawlées, elles ne sont donc ni indexées ni classées… Donc invisible pour les internautes : une énorme perte de trafic ! Votre positionnement sur la SERP s’en trouve donc impacté négativement.

Une situation courante, et gênante pour votre référencement, est que les robots indexent trop de pages de qualité moyenne ou faible.

Pour résumer, les 3 règles d’or à retenir pour optimiser votre crawl budgétaire sont :

  • Un contenu unique, original et pertinent,
  • Mises à jour régulières de votre site internet,
  • Une vitesse de chargement optimale de vos pages.

Notre accompagement SEO sur mesure

Afin de naviguer au mieux dans l'univers complexe du SEO, il est vital de ne pas se lancer tête baissée, mais d'analyser la situation dans son ensemble, avant d'entreprendre les bonnes actions.

Contactez-nous pour un audit SEO et une étude approfondie de votre stratégie digitale.


Liens utiles

Suivez-nous

sur les réseaux sociaux

logo du réseau social facebook
logo du réseau social linkedin
logo du réseau social linkedin
5 out of 5 stars
Nombre d'avis : 30
Sauvegarder
Choix utilisateur pour les Cookies
Nous utilisons des cookies afin de vous proposer les meilleurs services possibles. Si vous déclinez l'utilisation de ces cookies, le site web pourrait ne pas fonctionner correctement.
Tout accepter
Tout décliner
En savoir plus
Analytique
Outils utilisés pour analyser les données de navigation et mesurer l'efficacité du site internet afin de comprendre son fonctionnement.
Google Analytics
Accepter
Décliner