Comment le fichier Robots.txt peut-il améliorer votre SEO ?

La Rédaction SEM
février 17, 2022
3:40 pm

Le fichier Robots.txt est un excellent outil pour guider les moteurs de recherche dans l’exploration de votre site web. Découvrez comment utiliser ce fichier (parfois négligé) pour améliorer votre SEO.

L’objectif premier du SEO est d’améliorer la visibilité des pages web pour les mots-clés correspondants. Mais il peut parfois être nécessaire de masquer certaines pages pour ne pas que les moteurs de recherche les référencent. C’est justement là qu’intervient le fichier Robots.txt.

Le fichier Robots.txt permet en effet d’indiquer aux robots des moteurs de recherche comment vous souhaitez qu’ils explorent votre site Web. Ce fichier peut donc avoir un impact positif sur votre SEO, ou au contraire l’impacter négativement.

Nous verrons dans cet article quelques bonnes pratiques du fichier Robots.txt pour améliorer votre référencement.

Qu’est-ce qu’un fichier Robots.txt ?

Robots.txt est le fichier qui contient les zones d’un site Web interdites aux robots des moteurs de recherche. Il répertorie les URL que le webmaster ne souhaite pas que Google ou tout autre moteur de recherche indexe et les empêche de parcourir et référencer les pages sélectionnées.

Lorsqu’un bot trouve un site Web sur Internet, la première chose qu’il fait est de vérifier le fichier robots.txt afin de savoir ce qu’il est autorisé à explorer et ce qu’il doit ignorer lors de l’exploration.

Les fichiers robots.txt sont publics. Il suffit de saisir un domaine racine et d’ajouter /robots.txt à la fin de l’URL et vous verrez le fichier… s’il y en a un ! Il est donc primordial d’éviter d’y lister des informations privées ou sensibles.

A quoi sert Robots.txt en SEO ?

Comme indiqué précédemment, Robots.txt permet de guider les robots des moteurs de recherche lors de l’exploration de votre site web. Il est utile en SEO pour plusieurs raisons :

Il aide à optimiser le budget de crawl, car le robot de recherche ne visitera que ce qui est vraiment pertinent et il fera ainsi un meilleur usage de son temps d’exploration.
Le fichier Robots.txt est un bon moyen de forcer l’indexation de pages précises en les spécifiant.
Il contrôle l’accès des robots d’exploration à certaines zones de votre site.
Il peut protéger des sections entières d’un site Web, car vous pouvez créer des fichiers robots.txt distincts par domaine racine. Un bon exemple est la page des détails de paiement d’un site de vente.
Robots.txt peut également masquer des fichiers qui ne sont pas censés être indexés, tels que des PDF ou certaines images.

Les bonnes pratiques SEO du fichier Robots.txt

Voici quelques conseils pour gérer correctement votre fichier robots.txt et optimiser à travers lui votre SEO :

1- Ne bloquez pas du contenu que vous souhaitez référencer

Vous ne devez pas non plus bloquer des sections de site Web qui doivent être explorées.

2- Gardez à l’esprit que les bots ne suivront pas les liens des pages bloquées par robots.txt

À moins qu’elles ne soient aussi liées à d’autres pages auxquelles les moteurs de recherche peuvent accéder, les ressources bloquées ne seront pas explorées et ne seront peut-être pas indexées.

De plus, aucune valeur de lien ne peut être transmise depuis une page bloquée via Robots.txt. Donc, si vous avez des pages auxquelles vous souhaitez donner autorité via des liens internes, mieux vaut utiliser un autre mécanisme de blocage comme la balise meta robots « Noindex ».

3- N’utilisez pas robots.txt pour empêcher l’affichage de données confidentielles dans les SERPs

En effet, d’autres pages (non bloquées) peuvent être liées directement à la page contenant des informations confidentielles. Et elle peut ainsi être indexée par les moteurs de recherche, malgré la directive de non-indexation du fichier Robots.txt.

Il faut de ce fait utiliser une méthode différente, comme la protection par mot de passe ou la balise meta « noindex », pour empêcher la page d’apparaître dans les résultats de recherche.

4- Indiquez l’URL de votre Sitemap dans votre fichier Robots.txt.

Vous pouvez inclure l’URL de votre Sitemap dans votre fichier robots.txt. Parce que c’est le premier endroit que le Googlebot regarde lorsqu’il explore votre site Web, cela donne au robot une longueur d’avance dans la connaissance de la structure et des pages principales de votre site.

Les limites du fichier Robots.txt

Voyons maintenant quelques aspects qui limitent le fonctionnement du fichier robots.txt :

Certaines pages continueront d’apparaître dans les résultats de recherche : les pages qui sont inaccessibles aux moteurs de recherche à cause du fichier Robots.txt mais qui ont des liens pointant vers elles peuvent toujours apparaître dans les SERPs à partir d’une page explorable.

Un fichier qui ne contient que des directives : Google tient beaucoup compte des directives du fichier Robots.txt. Mais cela ne reste que des directives et elles peuvent être outrepassées.

La taille du fichier est limitée : Google prend en charge une limite de 521 kilo-octets pour les fichiers Robots.txt. Si le contenu dépasse cette taille maximale, il peut l’ignorer. Les autres moteurs de recherche ne disent pas si elles fixent aussi une limite pour ce fichier.

Le Robot.txt est mis en cache 24 heures : Selon Google, le fichier robots.txt est généralement mis en cache jusqu’à 24 heures avant l’actualisation des données. Quelque chose à garder à l’esprit lorsque vous apportez des modifications au fichier.

Pour terminer…

Le fichier Robots.txt peut contribuer à optimiser votre SEO en indiquant aux robots des moteurs de recherches comment explorer les pages de votre site web. Mais attention, une mauvaise directive dans votre fichier Robots.txt peut avoir de lourdes conséquences, comme empêcher certaines pages importantes d’être indexées par Google.

Assurez-vous donc que votre fichier Robots.txt est bien configuré et faites les modifications qu’il faut si nécessaire. Votre référencement n’en sera que meilleur !

Envie d’apprendre d’autres bonnes pratiques pour optimiser votre SEO ? N’hésitez pas à lire notre article sur la cannibalisation de mots clés et ses conséquences néfastes pour le SEO.