Che cos'è un Crawler?

Cingolato

Che cos'è un Crawler?

Un crawler è un programma Internet progettato per navigare sistematicamente in Internet. I crawler sono comunemente usati come mezzo per i motori di ricerca per scoprire ed elaborare le pagine per indicizzarle e mostrarle nei risultati di ricerca.

Oltre ai crawler che elaborano l'HTML, alcuni crawler speciali sono utilizzati anche per indicizzare immagini e video.

Nel mondo reale, i principali web crawler da conoscere sono quelli utilizzati dai principali motori di ricerca del mondo: Googlebot, Bingbot, Yandex Bot e Baidu Spider.

Gattoni buoni e cattivi

Considerate un buon crawler come un bot che può aiutare il vostro sito, principalmente aggiungendo i vostri contenuti a un indice di ricerca o aiutandovi a verificare il vostro sito. Altre caratteristiche di un buon crawler sono il fatto che si identifichi, segua le vostre direttive e regoli la sua velocità di crawling per non sovraccaricare il vostro server.

Un bad crawler è un bot che non aggiunge alcun valore al proprietario di un sito web e può avere un intento malevolo. I crawler cattivi possono non identificarsi, eludere le vostre direttive, creare carichi inutili sui server e persino rubare contenuti e dati.

Tipi di cingolati

Esistono due tipi principali di crawler:

Bot a scansione costante: Eseguono una scansione 24 ore su 24, 7 giorni su 7, per scoprire nuove pagine e riscalare quelle più vecchie (ad esempio, Googlebot).
Bot su richiesta: Eseguono il crawling di un numero limitato di pagine e lo eseguono solo quando richiesto (ad esempio, il bot Ranktracker Site Audit).

Perché il crawling di un sito web è importante?

Lo scopo principale di un crawler dei motori di ricerca è scoprire cosa c'è sul vostro sito web e aggiungere queste informazioni all'indice di ricerca. Se il vostro sito non viene crawlato, i vostri contenuti non appariranno nei risultati di ricerca.

Il crawling dei siti web non è un evento sporadico, ma una pratica continua per i siti web attivi. I bot effettuano regolarmente il recrawling dei siti web per trovare e aggiungere nuove pagine all'indice di ricerca, aggiornando al contempo le informazioni sulle pagine esistenti.

Sebbene la maggior parte dei crawler sia associata ai motori di ricerca, esistono altri tipi di crawler. Ad esempio, il bot Ranktracker Site Audit può aiutarvi a capire cosa non va nel vostro sito web in termini di SEO.

Come funzionano i crawler?

In poche parole, un web crawler come Googlebot scopre gli URL del vostro sito web attraverso sitemap, link e invii manuali tramite Google Search Console. Quindi seguirà i link "consentiti" su quelle pagine.

Lo fa rispettando le regole del robots.txt e gli attributi "nofollow" dei link e delle singole pagine.

Alcuni siti web - quelli con più di 1 milione di pagine aggiornate regolarmente o quelli con 10 mila pagine di contenuti che cambiano quotidianamente - possono avere un "crawl budget" limitato. Si tratta della quantità di tempo e risorse che il bot può dedicare a un sito web in una singola sessione.

Priorità di strisciamento

A causa della capacità limitata dei budget di crawl, i crawler operano in base a una serie di priorità di crawl. Googlebot, ad esempio, considera quanto segue:

PageRank dell'URL
Con quale frequenza vengono aggiornate le pagine
Se la pagina è nuova o meno

In questo modo, il crawler può concentrarsi sulla scansione delle pagine più importanti del sito.

Versioni di crawler per dispositivi mobili e desktop

Googlebot ha due versioni principali: Googlebot Desktop e Googlebot Smartphone. Attualmente Google utilizza l'indicizzazione mobile-first, il che significa che il suo agente per smartphone è il Googlebot principale utilizzato per il crawling e l'indicizzazione delle pagine.

A questi diversi tipi di crawler possono essere presentate versioni diverse di un sito web. Tecnicamente, il bot si identifica con il server web utilizzando l'intestazione della richiesta HTTP User-Agent, insieme a un identificatore unico.

Migliori pratiche per un sito web a prova di strisciante

Per garantire che il vostro sito web sia pronto per il crawling, vi consigliamo di seguire alcuni passaggi. Seguiteli per dare alle vostre pagine chiave le migliori possibilità di indicizzazione e posizionamento.

1. Controllare il file Robots.txt

Il file robots.txt è il file del vostro sito web che comunica con i bot, utilizzando una serie di direttive per i crawler. Assicuratevi che non impedisca ai bot buoni di accedere a pagine o sezioni che volete siano indicizzate. Utilizzate strumenti come il robots.txt tester di Google per verificare la presenza di errori.

2. Presentare le sitemap

L'invio della sitemap è un passo fondamentale. Una sitemap elenca tutte le pagine del vostro sito web che volete siano indicizzate. In Google Search Console, è possibile inviare la sitemap in Indice > Sitemaps. La procedura è simile per altri motori di ricerca, come Bing Webmaster Tools.

3. Usare le direttive del crawler con saggezza

Il file robots.txt utilizza delle direttive per indicare ai crawler quali pagine sono autorizzate o non autorizzate a essere scansionate. È importante consentire il crawling delle pagine importanti della navigazione del sito. Eventuali direttive a livello di pagina non verranno visualizzate se il contenuto non è consentito nel file robots.txt.

4. Fornire collegamenti interni tra le pagine

I link interni aiutano i motori di ricerca a capire l'argomento di ogni pagina e aiutano il crawler a scoprire le pagine in primo luogo. I link interni aiutano anche a definire il flusso di PageRank all'interno del sito.

5. Ridurre i 4xx e i reindirizzamenti non necessari

Gli errori 4xx segnalano a un crawler che il contenuto di quell'URL non esiste. Utilizzate strumenti come Ranktracker Site Audit per correggere queste pagine o impostare un reindirizzamento a una pagina attiva. Inoltre, eliminate i reindirizzamenti non necessari e le catene di reindirizzamento per garantire un crawling senza problemi.

6. Usare Ranktracker Site Audit per trovare problemi di indicizzazione e crawlabilità

Lo strumento Ranktracker Site Audit può essere d'aiuto controllando tutte le pagine noindexed e i link nofollowed del vostro sito. Può individuare eventuali pagine interrotte o reindirizzamenti eccessivi, comprese le catene o i loop di reindirizzamento, e segnalare eventuali pagine orfane.

Domande frequenti

Crawling e indicizzazione sono la stessa cosa?

No. Il crawling si riferisce al processo di scoperta di pagine web e altri contenuti accessibili pubblicamente. L'indicizzazione si riferisce all'analisi di queste pagine da parte dei motori di ricerca e alla loro memorizzazione nell'indice di ricerca.

Quali sono i crawler più attivi?

I crawler dei motori di ricerca più diffusi sono Googlebot, Bingbot, Yandex Bot e Baidu Spider. Per maggiori dettagli, consultate questo studio di Imperva sul traffico dei bot. È interessante notare che AhrefsBot, che alimenta l'intero database dei link, è risultato essere il secondo crawler più attivo dopo Googlebot.

I crawler danneggiano il mio sito web?

Sebbene la maggior parte dei crawler non arrechi danni al vostro sito web, esistono crawler dannosi che possono farlo. I crawler dannosi possono occupare la vostra larghezza di banda, causando un rallentamento delle pagine, e possono tentare di rubare dati o raschiare contenuti dal vostro sito.

Cingolato