Introduzione
Il protocollo di esclusione dei robot (REP) è un file per webmaster utilizzato per istruire i robot. Le istruzioni aiutano i robot a strisciare le pagine web e a indicizzarle per vari siti web. Questo REP è talvolta indicato come Robots.txt. Per essere più utili, sono collocati nel livello superiore della directory del server Web. Ad esempio: i gruppi REP https://www.123abc.com/robots.txt
sono utilizzati come standard web che regola le azioni dei bot e il comportamento di indicizzazione dei motori di ricerca. Tra il 1994 e il 1997, il REP originale ha definito il comportamento dei bot per robots.txt. Nel 1996, i motori di ricerca hanno supportato ulteriori tag X-robot REP. I motori di ricerca gestivano i link il cui valore conteneva un "follow" utilizzando il microformato rel-no follow.
Scheda informativa sui robot
Per bloccare totalmente i web crawler
Agente utente: *
Disallow: /
Per bloccare specifici web crawler da una cartella di destinazione
User-agent: Googlebot
Disallow: /no-google/
Per bloccare specifici web crawler da una pagina web di destinazione
User-agent: Googlebot
Disallow: /no-google/pagina-bloccata.html
Agente utente: *
Disallow:
Sitemap: https://www.123abc.com/none-standard-location/sitemap.xml
Esclusione di tag di protocollo specifici per i robot
I tag URI, REP sono applicati a determinati indicizzatori e, in alcuni casi, ai motori nosnippet, noarchive e noodpquery o a una query di ricerca. Le risorse etichettate con i tag di esclusione, i motori di ricerca come le SERP di Bing mostrano questi collegamenti esterni come URL proibiti. Oltre alle direttive dei crawler, i motori di ricerca specifici interpretano i tag REP in modo diverso. Un esempio di ciò può essere visto nel fatto che Bing a volte elenca i riferimenti esterni nelle sue SERP come proibiti. Google prende gli stessi elenchi e cancella i riferimenti a URL e ODP nelle sue SERP. L'idea è che gli X-Robot ignorino le direttive in conflitto con gli elementi META.
Microformati
Particolari fattori HTML sostituiscono le impostazioni della pagina nelle direttive di indice microformattate. Questo metodo di programmazione richiede competenze e una conoscenza molto approfondita dei server web e del protocollo HTTP. Un esempio di questo protocollo potrebbe essere una pagina di tag X-Robot con un particolare elemento di collegamento che dice follow e poi rel-nofollow. Gli indicizzatori Robots.txt di solito non hanno direttive, ma è possibile impostare indicizzatori di gruppo di URI che hanno un server con script laterali a livello di sito.
Pattern Matching
I webmaster possono ancora utilizzare due espressioni separate per indicare l'esclusione di una pagina. I due caratteri sono l'asterisco e il segno del dollaro. L'asterisco indica che può rappresentare qualsiasi combinazione di caratteri. Il segno del dollaro indica la fine dell'URL.
Informazioni senza restrizioni
I file robot sono sempre pubblici, quindi è importante sapere che chiunque può visualizzare un file robot allegato a una pagina web. Si tratta di informazioni accessibili anche da dove il webmaster blocca i motori sul server. Questi file pubblici lasciano accesso ai dati privati degli utenti che potrebbero includere dati individuali privati. È possibile aggiungere una protezione con password per impedire ai visitatori e ad altri di visualizzare pagine classificate che non dovrebbero essere indicizzate.
Regole aggiuntive
- I semplici parametri meta-robot, come il comando index e follow, devono essere utilizzati solo per impedire l'indicizzazione e il crawling delle pagine.
- I bot pericolosi ignoreranno sicuramente questi comandi e quindi sono un piano di sicurezza inutile.
- Per ogni URL è consentita una sola riga di "disallow".
- Sono richiesti file robots separati per ogni sottodominio.
- I nomi dei file per i bot sono sensibili alle maiuscole e alle minuscole.
- La spaziatura non separa i parametri di ricerca
Tattiche SEO Top: Robot.txt
Blocco della pagina - esistono diversi modi per impedire a un motore di ricerca di indicizzare e accedere a una pagina web o a un dominio.
Utilizzo dei robot per bloccare le pagine
Questa esclusione indica al motore di ricerca di non effettuare il crawling della pagina, ma può comunque indicizzarla e mostrarla nelle SERP.
Blocco delle pagine senza indicizzazione
Questo metodo di esclusione indica ai motori di ricerca che possono visitare la pagina, ma non possono visualizzarne l'URL o salvarla nel proprio indice. È il metodo di esclusione preferito.
Nessun link successivo per bloccare le pagine
Questa non è una tattica supportata. I motori di ricerca possono comunque accedere alle pagine con questo comando. Anche se il motore di ricerca non può seguire direttamente la pagina, può accedere al contenuto utilizzando l'analisi del browser o altre pagine collegate.
Meta Robots vs. Robots.txt
Un esempio di file robots.txt di un sito web può aiutare a chiarire il processo del programma. Nell'esempio il file robot blocca la directory. Quando si cerca l'URL in questione su Google, si scopre che 2760 pagine sono state escluse dalla directory. Nell'esempio, il motore non ha effettuato il crawling degli URL, quindi non appariranno come elenchi tradizionali. Queste pagine accumuleranno link juice una volta che avranno dei link collegati. Oltre al loro potere di posizionamento, inizieranno a guadagnare popolarità e fiducia grazie alla loro comparsa nelle ricerche. Dal momento che le pagine non possono essere un beneficio per il sito perché non vengono scansionate. Il modo migliore per risolvere questo problema e non sprecare il potere di ranking di una pagina è quello di utilizzare un altro metodo di esclusione per rimuovere le singole pagine. La codifica apparirà come: meta tag questo metodo mostrerà prestazioni migliori rispetto al metodo precedente.