Budget de crawl : pourquoi vos pages ne sont pas indexées par Google

Le budget de crawl (ou crawl budget en anglais) désigne le nombre de pages limite que le robot de Google (Googlebot) va indexer sur votre site. John Mueller, Senior Webmaster Trends Analyst chez Google, nous donne les raisons d’un mauvais budget de crawl.

Dans un Google SEO Office Hours (via Hangout), on a demandé à John Mueller, Senior Webmaster Trends Analyst chez Google, pourquoi Google n’indexait que très peu de pages sur certains sites web. En d’autres termes, pourquoi certains sites web avaient un mauvais budget de crawl.

Dans cet article, nous reviendrons sur les explications de Mueller à propos des facteurs qui influencent le nombre de pages indexées sur un site… et pourquoi certaines pages ne sont pas indexées par Google.

Qu’est-ce que le budget de crawl ou crawl budget ?

Le budget de crawl (ou crawl budget en anglais) correspond au niveau d’attention que le robot d’exploration de Google (Googlebot) accorde à votre site web. Il se traduit par les ressources allouées par le Googlebot pour explorer les pages de votre site et la fréquence de ces explorations. Votre budget de crawl détermine ainsi le nombre de pages limite que le robot de Google va explorer sur votre site.

Mais parce que le Web est vaste, Google a pour stratégie d’indexer uniquement les pages Web de meilleure qualité et de ne pas indexer les pages Web de mauvaise qualité.

Selon la page de développeur de Google pour les sites Web très volumineux (avec des millions de pages Web) : « Tout ce qui est exploré (ou crawlé) sur votre site ne sera pas nécessairement indexé ; chaque page doit être évaluée, consolidée et estimée pour déterminer si elle sera indexée après avoir été explorée. »

Qu’est-ce qui détermine le budget de crawl d’un site web ?

Selon John Mueller, il y a deux facteurs principaux qui déterminent le budget de crawl d’un site web : le temps de réponse du serveur qui héberge le site et la qualité du contenu du site.

1- Le temps de réponse du serveur

Selon Mueller, le temps de réponse du serveur est l’un des principaux facteurs qui influencent le budget de crawl d’un site. Si le serveur qui héberge votre site est très lent, le nombre de pages que va indexer Google en sera inévitablement affecté. Vous pouvez voir le temps de réponse de votre serveur dans le Rapport « Statistiques sur l’exploration » de Google.

Le temps de réponse est différent de la vitesse de chargement d’une page. Il permet à Google de crawler un maximum de pages de votre site. Mueller recommande, en moyenne, un temps de réponse du serveur en dessous de 300 à 400 millisecondes.

Un site Web hébergé sur un serveur mutualisé peut avoir du mal à fournir des pages assez rapidement à Google. Notamment parce que d’autres sites sur le même serveur utilisent excessivement les ressources. Ce qui ralentit le serveur pour les milliers d’autres sites hébergés sur ce serveur. Héberger votre site sur un serveur dédié est donc un bon moyen d’optimiser votre budget de crawl.

2- La qualité du contenu du site

Selon John Mueller, une mauvaise qualité du contenu peut également empêcher le robot d’exploration GoogleBot d’explorer un site web.

« L’autre raison principale pour laquelle un site web n’est pas suffisamment exploré est que nous ne sommes pas convaincus de la qualité globale. », dit-il.

Il ne suffit pas de créer un site web avec un million de pages et de le mettre en ligne pour avoir tout de suite un bon référencement. Google n’indexera pas vos pages tant qu’il ne sera pas sûr de la qualité du contenu de ces pages.

« Nous serons un peu plus prudents quant à leur exploration et à leur indexation jusqu’à ce que nous soyons sûrs que la qualité est réellement bonne. », affirme Mueller.

Pensez donc à optimiser le contenu de chacune des pages de votre site web afin d’augmenter leur change d’indexation par Google.

D’autres facteurs qui affectent le nombre de pages explorées par Google

En plus du temps de réponse du serveur et de la qualité du site, il existe d’autres facteurs qui peuvent également affecter le budget de crawl de votre site web :

  • La profondeur de la page : Google prend également en compte la profondeur de vos pages pour déterminer votre budget de crawl. La profondeur d’une page désigne le nombre de clics nécessaires pour atteindre cette page depuis l’accueil du site. Plus une page est “éloignée”, moins elle a de chance d’être explorée par Google.
  • La fréquence des mises à jour : le robot de Google crawlera plus souvent votre site web si vous l’alimentez régulièrement de nouveaux contenus.
  • Les robots malveillants : une autre raison d’un mauvais budget de crawl est que votre serveur est surchargé par des robots malveillants, ce qui ralentit le site Web.

En résumé…

Comme le recommande John Mueller, vous devez vous assurer que le serveur qui héberge votre site fournit les pages Web à une bonne cadence (moins de 300 à 400 millisecondes). Assurez-vous de faire cette vérification en dehors des heures de la nuit. En effet, de nombreux robots d’exploration comme Google explorent les sites tôt le matin. Car il y a généralement moins de visiteurs sur les sites à cette heure-là.

Assurez-vous également que chacune de vos pages web soit de bonne qualité et optimisée pour le SEO. Enfin, si vous en avez les moyens, préférez un serveur dédié à un serveur mutualisé pour l’hébergement de votre site web.

Améliorer le contenu de votre site web pour mieux vous positionner sur Google, ça vous dit ? Découvrez vite notre article sur une technique SEO qui fait ses preuves : l’élagage de contenu !




Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Recevez nos articles chaque mois, comme près de 7000 curieux.

Stratégie de Contenu Web, la revanche de l’éditorial

Paru en 2010 et réédité en 2014, l’ouvrage « La stratégie de contenu Web – la revanche de l’éditorial » est disponible au format e-book. Devenez un pro en content marketing : achetez votre exemplaire !

Études de cas

Retrouvez nos études de cas. Alimentation, banque et assurance, services, logiciel, tourisme, e-commerce, tous les secteurs nous sollictent.

Un conseil, du contenu, un devis? On vous rappelle!

En complétant ce formulaire, vous acceptez de recevoir des informations relatives aux services proposés par Wearethewords. Vous pourrez bien sûr vous désabonner à tout moment.

Écrire pour le web

Notre blog Écrire pour le Web couvre depuis 2006 tous les sujets liés aux contenus et canaux Web! Près de 30.000 sessions par mois.

Formations Wearethewords

Sollicitez nos prestations en assistance éditoriale, pour un ROI immédiat. Découvrez notre offre de formations généralistes ou sur mesure.