Qu'est-ce que Googlebot ?
Googlebot est le nom donné aux robots d'exploration de Google qui collectent des informations pour différents services de Google, notamment son index de recherche.
Il existe deux versions principales : Googlebot Desktop et Googlebot Smartphone. Avec l'indexation mobile-first, Googlebot Smartphone est devenu le principal robot d'exploration de l'index de recherche de Google.
Comment fonctionne Googlebot ?
Googlebot parcourt constamment le web pour découvrir de nouvelles pages, envoie les pages pour traitement afin de les ajouter à l'index de recherche, et parcourt à nouveau les pages à la recherche d'informations nouvelles ou mises à jour.
Au cours de ce processus, Googlebot respecte strictement les règles énoncées dans les fichiers robots.txt et les directives destinées aux robots d'indexation sur les pages et les liens.
Pourquoi Googlebot est-il important ?
Googlebot est l'un des principaux outils du moteur de recherche Google. Sans lui, l'ensemble de la recherche (et donc le référencement) n'existerait pas. Si Googlebot ne parcourait pas un site web, celui-ci ne serait pas indexé et visible dans les résultats.
Les professionnels du référencement et les webmasters doivent donc comprendre le fonctionnement de Googlebot. En outre, il est important de s'assurer que le crawler accède correctement au site, sans problème de crawlabilité ou de découvrabilité.
Meilleures pratiques pour un site Web convivial pour les robots d'indexation
Si vous voulez que Googlebot explore correctement votre site web et que les pages soient indexées, vous devez vous assurer que certaines choses sont en place. Comme il ne s'agit pas d'un événement ponctuel, voici quelques-unes des meilleures pratiques à suivre régulièrement pour maintenir un site web "crawl-friendly".
1. Vérifiez votre fichier Robots.txt
Le fichier Robots.txt sur le site web vous permet de contrôler ce qui est exploré. Il communique avec les robots à l'aide de directives d'exploration.
Vous devez vous assurer que votre fichier robots.txt n'empêche pas Googlebot d'explorer les pages/sections de votre site web que vous souhaitez voir indexées.
Ensuite, recherchez les erreurs éventuelles dans le fichier à l'aide des outils de test de robots.txt.
Vous devez vous assurer que le fichier robots.txt est accessible à Googlebot, c'est-à-dire qu'il n'est pas bloqué au niveau du serveur.
2. Soumettre les sitemaps
L'envoi de sitemaps est le moyen le plus simple d'indiquer à Google les pages que vous souhaitez voir explorées et indexées.
La création de sitemaps n'est pas compliquée si vous utilisez un plugin SEO populaire sur WordPress, tel que Yoast ou Rank Math. Ils créeront automatiquement des sitemaps pour vous, que vous pourrez soumettre.
L'URL générée ressemblera à ceci : yourdomainname.com/sitemap_index.html
Pour soumettre une URL sitemap manuellement, vous devez vous rendre sur Google Search Console et cliquer sur "Sitemaps" dans la section "Index" du menu principal.
3. Utiliser les directives du crawler à bon escient
Outre le fichier robots.txt, il existe des directives au niveau des pages qui indiquent aux robots d'exploration quelles pages sont autorisées (ou non) à être explorées.
Vous devez donc vous assurer que les pages que vous souhaitez voir indexées ne comportent pas de directive "noindex". De même, assurez-vous qu'elles n'ont pas de directive "nofollow" si vous voulez que leurs liens sortants soient également explorés.
Vous pouvez utiliser la barre d'outils SEO pour Chrome et Firefox pour vérifier les directives sur vos pages.
4. Fournir des liens internes entre les pages
Un autre moyen simple d'accélérer l'indexation d'une page consiste à la relier à une autre page déjà indexée. Étant donné que Googlebot explore à nouveau les pages, il trouvera le lien interne et l'explorera rapidement.
Outre l'exploration, les liens internes transmettent le "jus de lien" aux pages, augmentant ainsi leur PageRank.
5. Utiliser l'audit de site pour détecter les problèmes de crawlabilité et d'indexabilité
Enfin, vous pouvez utiliser les outils d'audit de site pour détecter les problèmes liés à l'indexation et à l'exploration de vos sites web.
L'audit du site peut vous aider à trouver des pages cassées, des redirections excessives, des chaînes de redirection, des pages noindex, des liens nofollow, des pages orphelines (celles qui n'ont pas de liens internes), et bien d'autres choses encore.
Vous pouvez contrôler gratuitement la santé de votre site web en matière de référencement grâce à des outils tels que l'audit web de Ranktracker.
FAQ
L'exploration et l'indexation sont-elles la même chose ?
Non, il ne s'agit pas de la même chose. L'exploration consiste à découvrir des pages et des liens sur le web. L'indexation consiste à stocker, analyser et organiser le contenu et les liens entre les pages qui ont été découverts lors de l'exploration.
Ce n'est qu'une fois qu'une page est indexée qu'elle peut être affichée en tant que résultat pour les requêtes pertinentes.
Puis-je vérifier si un robot d'exploration qui accède à mon site est bien Googlebot ?
Si vous craignez que des spammeurs ou d'autres personnes mal intentionnées accèdent à votre site web en se faisant passer pour des robots Google, vous pouvez vérifier le robot d'exploration pour voir s'il s'agit bien d'un robot Google.
Quel est le principal moteur de recherche de Googlebot ?
Googlebot Smartphone est aujourd'hui le principal robot d'exploration.
Jeton d'agent utilisateur : Googlebot
Chaîne complète de l'agent utilisateur : Mozilla/5.0 (Linux ; Android 6.0.1 ; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible ; Googlebot/2.1 ; +http://www.google.com/bot.html)
La liste complète des robots Googlebot est disponible ici.