Qu'est-ce qu'un Crawler ?

Chenille

Qu'est-ce qu'un Crawler ?

Un crawler est un programme internet conçu pour parcourir l'internet de manière systématique. Les crawlers sont le plus souvent utilisés par les moteurs de recherche pour découvrir et traiter des pages afin de les indexer et de les faire apparaître dans les résultats de recherche.

Outre les crawlers qui traitent le HTML, certains crawlers spéciaux sont également utilisés pour indexer les images et les vidéos.

Dans le monde réel, les principaux robots d'exploration du web à connaître sont ceux utilisés par les principaux moteurs de recherche du monde : Googlebot, Bingbot, Yandex Bot et Baidu Spider.

Les bons et les mauvais crawlers

Un bon crawler est un robot qui peut aider votre site, principalement en ajoutant votre contenu à un index de recherche ou en vous aidant à auditer votre site web. Les autres caractéristiques d'un bon robot sont qu'il s'identifie lui-même, qu'il suit vos directives et qu'il ajuste sa vitesse d'exploration pour ne pas surcharger votre serveur.

Un mauvais crawler est un robot qui n'apporte aucune valeur ajoutée au propriétaire d'un site web et qui peut avoir des intentions malveillantes. Les mauvais crawlers peuvent ne pas s'identifier, contourner vos directives, créer des charges inutiles sur les serveurs et même voler du contenu et des données.

Types de chenilles

Il existe deux types principaux de robots d'indexation :

Lesrobots d'exploration constante: Ils effectuent des recherches 24 heures sur 24, 7 jours sur 7, pour découvrir de nouvelles pages et recréer des pages plus anciennes (par exemple, Googlebot).
Lesrobots à la demande: Ils explorent un nombre limité de pages et ne le font qu'à la demande (par exemple, le robot Ranktracker Site Audit).

Pourquoi l'exploration de sites Web est-elle importante ?

L'objectif premier d'un robot d'exploration de moteur de recherche est de découvrir le contenu de votre site web et d'ajouter ces informations à l'index de recherche. Si votre site n'est pas exploré, votre contenu n'apparaîtra pas dans les résultats de recherche.

L'exploration des sites web n'est pas un événement ponctuel, c'est une pratique permanente pour les sites web actifs. Les robots recensent régulièrement les sites web pour trouver et ajouter de nouvelles pages à l'index de recherche, tout en mettant à jour leurs informations sur les pages existantes.

Si la plupart des crawlers sont associés aux moteurs de recherche, il en existe d'autres types. Par exemple, le robot Ranktracker Site Audit peut vous aider à voir ce qui ne va pas sur votre site web en termes de référencement.

Comment fonctionnent les crawlers ?

En résumé, un robot d'indexation comme Googlebot découvre les URL de votre site web grâce aux sitemaps, aux liens et aux soumissions manuelles via Google Search Console. Il suivra ensuite les liens "autorisés" sur ces pages.

Il le fait en respectant les règles du fichier robots.txt, ainsi que les attributs "nofollow" des liens et des pages individuelles.

Certains sites web - ceux qui comptent plus d'un million de pages et qui sont mis à jour régulièrement ou ceux dont le contenu de 10 000 pages change quotidiennement - peuvent disposer d'un "budget d'exploration" limité. Il s'agit du temps et des ressources que le robot peut consacrer à un site web au cours d'une seule session.

Priorités du crawl

En raison de la capacité limitée des budgets d'exploration, les robots d'exploration fonctionnent selon un ensemble de priorités d'exploration. Googlebot, par exemple, prend en compte les éléments suivants :

PageRank de l'URL
Fréquence de mise à jour de la (des) page(s)
Si la page est nouvelle ou non

De cette manière, le robot d'exploration peut se concentrer sur l'exploration des pages les plus importantes de votre site.

Versions du crawler pour mobiles et pour ordinateurs de bureau

Googlebot a deux versions principales : Googlebot Desktop et Googlebot Smartphone. Aujourd'hui, Google utilise l'indexation mobile-first, ce qui signifie que son agent pour smartphone est le principal Googlebot utilisé pour l'exploration et l'indexation des pages.

Différentes versions d'un site web peuvent être présentées à ces différents types de robots. Techniquement, le bot s'identifie auprès d'un serveur web en utilisant l'en-tête de requête HTTP User-Agent, ainsi qu'un identifiant unique.

Meilleures pratiques pour un site Web convivial pour les robots d'indexation

Pour vous assurer que votre site web est prêt à être exploré, nous vous recommandons de suivre plusieurs étapes. Suivez-les afin de donner à vos pages clés les meilleures chances d'indexation et de classement.

1. Vérifiez votre fichier Robots.txt

Le fichier robots.txt est le fichier de votre site web qui communique avec ces robots, à l'aide d'une série de directives pour les robots d'indexation. Assurez-vous qu'il n'empêche pas les bons robots d'accéder aux pages ou aux sections que vous souhaitez indexer. Utilisez des outils tels que le testeur robots.txt de Google pour vérifier s'il y a des erreurs.

2. Soumettre des sitemaps

La soumission de votre plan du site est une étape cruciale. Un sitemap répertorie toutes les pages de votre site web que vous souhaitez voir indexées. Dans Google Search Console, vous pouvez soumettre votre sitemap sous Index > Sitemaps. Ce processus est similaire pour d'autres moteurs de recherche, comme Bing Webmaster Tools.

3. Utiliser les directives du crawler à bon escient

Le fichier robots.txt utilise des directives pour indiquer aux robots d'exploration quelles pages sont autorisées ou non à être explorées. Il est important d'autoriser l'exploration des pages importantes de la navigation de votre site. Toute directive au niveau de la page ne sera pas visible si le contenu n'est pas autorisé à être exploré dans votre fichier robots.txt.

4. Fournir des liens internes entre les pages

Les liens internes aident les moteurs de recherche à comprendre le contenu de chaque page et permettent au robot d'exploration de découvrir les pages en premier lieu. Les liens internes vous aident également à déterminer comment le PageRank circule sur votre site.

5. Réduire les 4xx et les redirections inutiles

Les erreurs 4xx signalent à un robot d'indexation que le contenu de cette URL n'existe pas. Utilisez des outils tels que Ranktracker Site Audit pour corriger ces pages ou mettre en place une redirection vers une page vivante. Éliminez également les redirections inutiles et les chaînes de redirection afin de garantir un crawl fluide.

6. Utiliser l'audit de site Ranktracker pour trouver des problèmes de crawlabilité et d'indexabilité

L'outil Ranktracker Site Audit peut vous aider en vérifiant toutes les pages non indexées et les liens non suivis de votre site. Il peut découvrir des pages cassées ou des redirections excessives, y compris des chaînes ou des boucles de redirection, et signaler des pages orphelines.

FAQ

L'exploration et l'indexation sont-elles la même chose ?

Non. Le crawling désigne le processus de découverte de pages web accessibles au public et d'autres contenus. L'indexation fait référence à l'analyse de ces pages par les moteurs de recherche et à leur stockage dans leur index de recherche.

Quels sont les crawlers les plus actifs ?

Les moteurs de recherche les plus populaires sont Googlebot, Bingbot, Yandex Bot et Baidu Spider. Pour plus de détails, consultez l'étude d'Imperva sur le trafic des robots. Il est intéressant de noter qu'AhrefsBot, qui alimente l'ensemble de la base de données de liens, est le deuxième robot d'exploration le plus actif après Googlebot.

Les crawlers nuisent-ils à mon site web ?

Si la plupart des crawlers ne nuisent pas à votre site web, certains crawlers malveillants peuvent le faire. Les crawlers nuisibles peuvent monopoliser votre bande passante, entraînant un ralentissement des pages, et peuvent tenter de voler des données ou de récupérer du contenu sur votre site.

Chenille