Che cos'è il tag X-Robots?
Il tag X-Robots è un componente opzionale dell'intestazione di risposta HTTP che informa i motori di ricerca su come effettuare il crawling e l'indicizzazione di una pagina web. A differenza del tag meta robots, che è riservato alle pagine HTML, il tag X-Robots può essere utilizzato per file non HTML, come immagini, file di testo e PDF.
Ecco un esempio di risposta HTTP con un tag X-Robots:
HTTP/1.1 200 OK Date: Tue, 15 Nov 2022 11:38:17 GMT Content-encoding: gzip (...) X-Robots-Tag: noindex (...)
Perché il tag X-Robots è importante?
Il tag X-Robots è importante perché consente di controllare il modo in cui i motori di ricerca indicizzano e scansionano non solo le pagine HTML, ma anche altri tipi di file. Questa funzionalità è particolarmente utile per la gestione di siti web di grandi dimensioni con una varietà di tipi di contenuti. I vantaggi principali includono:
- Flessibilità: Applicare le direttive a file non HTML come PDF, immagini e video.
- Applicazione globale: Utilizzare il tag per applicare le regole a tutto il sito o a directory e tipi di file specifici.
- Espressioni regolari: Utilizzate modelli avanzati per indirizzare in modo efficiente più URL.
Direttive comuni per X-Robots-Tag
È possibile utilizzare qualsiasi direttiva valida per il tag meta robots con il tag X-Robots. Ecco alcune direttive comunemente utilizzate:
- noindex: Impedisce alla pagina o al file di essere indicizzati dai motori di ricerca.
- nofollow: Impedisce ai motori di ricerca di seguire i link della pagina.
- nessuno: Equivale a "noindex, nofollow".
- noarchive: Impedisce ai motori di ricerca di mostrare una versione in cache della pagina.
- nosnippet: Impedisce ai motori di ricerca di mostrare uno snippet della pagina nei risultati di ricerca.
Ad esempio, per indicare a Googlebot di non indicizzare o seguire alcun link nei file PDF, si può utilizzare:
<Files ~ "\.pdf$"> Intestazione impostata su X-Robots-Tag "noindex, nofollow" </Files>
Come impostare il tag X-Robots
Sul server Apache
È possibile impostare il tag X-Robots nel file .htaccess o nel file httpd.conf. Ecco come applicare una direttiva noindex a tutti i file PDF:
<Files ~ "\.pdf$"> Intestazione impostata X-Robots-Tag "noindex" </Files>
Sul server NGINX
Per NGINX, è possibile aggiungere la direttiva nel file .conf del sito:
location ~* \.pdf$ { add_header X-Robots-Tag "noindex"; }
Impostazione di direttive per crawler specifici
È possibile specificare le direttive per determinati crawler assegnando loro un nome:
Intestazione impostata su X-Robots-Tag "googlebot: noindex, nofollow".
Visualizzazione del tag X-Robots
A differenza del meta tag robots, il tag X-Robots fa parte dell'intestazione della risposta HTTP e non è visibile nel codice HTML. Ecco come visualizzarlo in Google Chrome:
- Caricare l'URL in Google Chrome.
- Fare clic con il pulsante destro del mouse sulla pagina e selezionare "Ispeziona" per aprire gli strumenti per gli sviluppatori.
- Selezionare la scheda "Rete".
- Ricaricare la pagina.
- Selezionate il file in questione nel pannello di sinistra; le intestazioni HTTP, compreso il tag X-Robots, saranno visualizzate nel pannello di destra.
Domande frequenti
È possibile utilizzare il tag X-Robots con le pagine HTML?
Sì, ma è più comunemente usato per i file non HTML. Per le pagine HTML, è più facile usare il tag meta robots all'interno del codice HTML.
Come posso verificare se il mio X-Robots-Tag funziona?
Utilizzate lo strumento Inspect negli strumenti per sviluppatori del browser per controllare le intestazioni delle risposte HTTP. È inoltre possibile utilizzare strumenti online come lo strumento di ispezione degli URL di Google.
Il tag X-Robots può sostituire robots.txt?
No, il tag X-Robots non può sostituire le direttive di robots.txt. Se un URL non è consentito in robots.txt, i motori di ricerca non lo scansioneranno e, di conseguenza, non vedranno le direttive X-Robots-Tag.
Comprendendo e implementando correttamente il tag X-Robots, è possibile ottenere un controllo più preciso sul modo in cui i motori di ricerca interagiscono con i vari tipi di file del sito web, migliorando la SEO e l'esperienza dell'utente.