!Qu'est-ce que Robot.txt](https://ranktracker-blog.s3.amazonaws.com/2016/Apr/what_is_robot_txt-1461592898726.jpg)
Intro
Le protocole d'exclusion des robots (REP) est un fichier destiné aux webmestres qui sert à donner des instructions aux robots. Ces instructions aident les robots à explorer les pages Web et à les indexer pour divers sites Web. Ce REP est parfois appelé Robots.txt. Il est placé au niveau supérieur du répertoire du serveur Web pour être le plus utile possible. Par exemple : https://www.123abc.com/robots.txt
Les groupes REP sont utilisés comme une norme web qui régule les actions des robots et le comportement d'indexation des moteurs de recherche. Entre 1994 et 1997, le REP original a défini le comportement des robots pour le fichier robots.txt. En 1996, les moteurs de recherche ont pris en charge des balises REP X-robot supplémentaires. Les moteurs de recherche ont traité les liens dont la valeur contenait un "follow" en utilisant un microformat rel-no follow.
Aide-mémoire pour les robots
Pour bloquer totalement les robots d'exploration du Web
Agent utilisateur : *
Disallow : /
Pour bloquer des crawlers web spécifiques dans un dossier cible
Agent utilisateur : Googlebot
Disallow : /no-google/
Pour bloquer l'accès de certains robots d'exploration à une page Web donnée
Agent utilisateur : Googlebot
Disallow : /no-google/blocked-page.html
Agent utilisateur : *
Disallow :
Plan du site : https://www.123abc.com/none-standard-location/sitemap.xml
Exclusion des balises spécifiques du protocole du robot
URI, les balises REP sont appliquées à certaines tâches d'indexation et, dans certains cas, aux moteurs nosnippet, noarchive et noodpquery ou à une requête de recherche. Les ressources étiquetées avec des balises d'exclusion, les moteurs de recherche tels que les listes SERP de Bing montrent ces liens externes comme des URL interdites. Outre les directives des crawlers, certains moteurs de recherche interpréteront différemment les balises REP. Par exemple, Bing affiche parfois les références externes dans ses SERP comme étant interdites. Google prend les mêmes listes et efface les références URL et ODP sur ses SERP. L'idée est que les robots X annulent les directives qui entrent en conflit avec les éléments META.
Microformats
Des facteurs HTML particuliers remplaceront les paramètres de la page dans les directives d'indexation micro-formatées. Cette méthode de programmation requiert des compétences et une maîtrise très fine des serveurs web et du protocole HTTP. Un exemple de ce protocole serait une page de balises X-Robot avec un lien d'élément particulier qui dirait follow puis rel-nofollow. Les indexeurs Robots.txt sont généralement dépourvus de directives, mais il est possible de mettre en place des indexeurs groupés d'URIs qui ont un serveur avec des scripts latéraux au niveau du site.
Correspondance de motifs
Les webmestres peuvent toujours utiliser deux expressions distinctes pour indiquer l'exclusion de pages. Ces deux caractères sont l'astérisque et le signe dollar. L'astérisque indique qu'il peut représenter n'importe quelle combinaison de caractères. Le signe dollar sert à indiquer la fin de l'URL.
Informations non restreintes
Les fichiers robots sont toujours publics. Il est donc important de savoir que n'importe qui peut consulter un fichier robot joint à une page Web. Il s'agit également d'informations accessibles là où le Webmaster bloque les moteurs sur le serveur. Ces fichiers publics laissent l'accès à des données privées de l'utilisateur qui peuvent inclure des données individuelles privées. Il est possible d'ajouter une protection par mot de passe pour empêcher les visiteurs et d'autres personnes de consulter les pages classées qui ne doivent pas être indexées.
Règles supplémentaires
- De simples paramètres méta robots comme index et follow command ne doivent être utilisés que pour empêcher l'indexation et le crawling des pages.
- Les robots dangereux ignoreront très certainement ces commandes et constituent donc un plan de sécurité inutile.
- Chaque URL n'a droit qu'à une seule ligne "disallow".
- Des fichiers robots distincts sont nécessaires pour chaque sous-domaine.
- Les noms de fichiers pour les robots sont sensibles à la casse.
- L'espacement ne sépare pas les paramètres de recherche
Top SEO Tactics : Robot.txt
Blocage de page - il existe plusieurs façons d'empêcher un moteur de recherche d'indexer et d'accéder à une page Web ou à un domaine.
Utilisation de robots pour bloquer des pages
Cette exclusion indique au moteur de recherche de ne pas explorer la page, mais il peut quand même l'indexer pour l'afficher dans les listes SERP.
Blocage des pages sans indexation
Cette méthode d'exclusion indique aux moteurs de recherche qu'ils sont autorisés à visiter la page, mais qu'ils ne peuvent pas afficher l'URL ou enregistrer la page dans leur index. Il s'agit de la méthode d'exclusion préférée.
Pas de lien suivant pour bloquer les pages
Cette tactique n'est pas prise en charge. Les moteurs de recherche peuvent toujours accéder aux pages avec cette commande. Même si le moteur de recherche ne peut pas suivre directement la page, il peut accéder au contenu en utilisant les analyses du navigateur ou d'autres pages liées.
Meta Robots vs. Robots.txt
Un exemple du fichier robots.txt d'un site Web peut aider à clarifier le processus du programme. Dans l'exemple, le fichier robot bloque le répertoire. Lorsque l'on recherche l'URL en question dans Google, on constate que 2760 pages ont été interdites dans le répertoire. Dans cet exemple, le moteur n'a pas exploré les URL, qui n'apparaîtront donc pas comme des listes traditionnelles. Ces pages accumuleront du jus de lien une fois que des liens leur seront attachés. En plus de leur pouvoir de classement, elles commenceront également à gagner en popularité et en confiance en apparaissant dans les recherches. Puisque les pages ne peuvent pas être un avantage pour le site parce qu'elles ne sont pas explorées. La meilleure façon de résoudre ce problème et de ne pas gaspiller la puissance de classement d'une page, il est prudent d'utiliser une autre méthode d'exclusion pour supprimer les pages individuelles. Le codage apparaîtrait comme suit : meta tag cette méthode présenterait de meilleures performances que la méthode précédente.