Qu'est-ce que Robots.txt ?
Un fichier robots.txt empêche les robots d'exploration, tels que les robots des moteurs de recherche, d'accéder à des URL spécifiques d'un site web. Il peut également être utilisé pour ajuster la vitesse d'exploration de certains robots.
Tous les "bons" robots d'indexation respectent les règles spécifiées dans le fichier robots.txt. Toutefois, il existe de "mauvais" robots non enregistrés, souvent utilisés à des fins de "scraping", qui ignorent totalement le fichier robots.txt.
Le fichier robots.txt doit être utilisé pour réduire/optimiser le trafic des robots d'indexation vers un site web et ne doit pas être utilisé pour contrôler l'indexation des pages web. Même si une URL est interdite dans le fichier robots.txt, elle peut toujours être indexée par Google si elle est découverte via un lien externe.
Syntaxe du fichier Robots.txt
La syntaxe du fichier robots.txt contient les champs suivants :
- user-agent: le robot d'exploration auquel les règles s'appliquent
- disallow: un chemin qui ne doit pas être parcouru
- allow: un chemin qui peut être parcouru (facultatif)
- sitemap: emplacement du fichier sitemap (facultatif)
- crawl-delay: contrôle la vitesse d'exploration (facultatif et non pris en charge par GoogleBot)
Voici un exemple :
User-agent : RanktrackerSiteAudit Disallow : /resources/ Allow : /resources/images/ Crawl-delay : 2 Sitemap : https://example.com/sitemap.xml
Ce fichier robots.txt demande au robot RanktrackerSiteAudit de ne pas explorer les URLs du répertoire "/resources/" à l'exception de celles du répertoire "/resources/images/" et fixe le délai entre les requêtes à 2 secondes.
Pourquoi le fichier Robots.txt est-il important ?
Le fichier robots.txt est important car il permet aux webmasters de contrôler le comportement des robots d'indexation sur leurs sites web, en optimisant le budget d'indexation et en limitant l'indexation des sections du site web qui ne sont pas destinées à être accessibles au public.
De nombreux propriétaires de sites web choisissent de ne pas indexer certaines pages telles que les pages d'auteur, les pages de connexion ou les pages d'un site d'adhésion. Ils peuvent également bloquer l'exploration et l'indexation de ressources à accès limité, comme les PDF ou les vidéos, dont l'accès nécessite un consentement par courrier électronique.
Il convient de noter que si vous utilisez un CMS comme WordPress, la page de connexion /wp-admin/
est automatiquement bloquée et ne peut pas être indexée par les robots d'indexation.
Toutefois, il est important de noter que Google ne recommande pas de se fier uniquement au fichier robots.txt pour contrôler l'indexation des pages. Si vous modifiez une page, par exemple en ajoutant une balise "noindex", assurez-vous que la page n'est pas interdite dans le fichier robots.txt. Sinon, Googlebot ne pourra pas la lire et mettre à jour son index en temps voulu.
FAQ
Que se passe-t-il si je n'ai pas de fichier robots.txt ?
La plupart des sites n'ont pas absolument besoin d'un fichier robots.txt. L'objectif d'un fichier robots.txt est de communiquer des instructions spécifiques aux robots de recherche, mais cela peut ne pas être nécessaire si vous avez un site web plus petit ou un site qui ne contient pas beaucoup de pages que vous devez bloquer pour les robots de recherche.
Cela dit, il n'y a aucun inconvénient à créer un fichier robots.txt et à l'intégrer à votre site web. Cela vous permettra d'ajouter facilement des directives si vous en avez besoin à l'avenir.
Puis-je cacher une page aux moteurs de recherche à l'aide de robots.txt ?
Oui, cacher des pages aux moteurs de recherche est l'une des principales fonctions d'un fichier robots.txt. Vous pouvez le faire avec le paramètre disallow et l'URL que vous souhaitez bloquer.
Toutefois, il est important de noter que le simple fait de cacher une URL à Googlebot à l'aide du fichier robots.txt ne garantit pas qu'elle ne sera pas indexée. Dans certains cas, une URL peut encore être indexée sur la base de facteurs tels que le texte de l'URL lui-même, le texte d'ancrage utilisé dans les liens externes et le contexte de la page externe où l'URL a été découverte.
Comment tester mon fichier robots.txt ?
Vous pouvez valider votre fichier robots.txt et tester le fonctionnement des instructions sur des URL spécifiques à l'aide du testeur robots.txt de Google Search Console ou de validateurs externes, comme celui de Merkle.