Vad är Robots.txt?
En robots.txt-fil begränsar webbcrawlers, t.ex. sökmotorrobotar, från att komma åt specifika webbadresser på en webbplats. Den kan också användas för att justera genomsökningshastigheten för vissa web crawlers.
Alla "bra" webbcrawlers följer de regler som anges i filen robots.txt. Det finns dock "dåliga" oregistrerade crawlers, som ofta används för skrapning, som helt bortser från robots.txt-filen.
Filen robots.txt måste användas för att minska/optimera sökrobottrafiken till en webbplats och ska inte användas för att kontrollera indexeringen av webbsidor. Även om en webbadress inte är tillåten i robots.txt kan den fortfarande indexeras av Google om den hittas via en extern länk.
Syntax för Robots.txt
Syntaxen i filen robots.txt innehåller följande fält:
- user-agent: den sökrobot som reglerna gäller för
- disallow: en sökväg som inte får genomsökas
- allow: en sökväg som kan genomsökas (valfritt)
- sitemap: plats för sitemap-filen (valfritt)
- crawl-delay: styr genomsökningshastigheten (valfritt och stöds inte av GoogleBot)
Här är ett exempel:
Användaragent: RanktrackerSiteAudit Tillåt inte: /resources/ Tillåt: /resources/images/ Crawl-delay: 2 Sitemap: https://example.com/sitemap.xml
Denna robots.txt-fil instruerar RanktrackerSiteAudit crawler att inte crawla URL:er i katalogen "/resources/" förutom de i "/resources/images/" och ställer in fördröjningen mellan förfrågningarna till 2 sekunder.
Varför är filen Robots.txt viktig?
Filen robots.txt är viktig eftersom den gör det möjligt för webbansvariga att styra crawlarnas beteende på sina webbplatser, optimera crawlbudgeten och begränsa crawlingen av webbplatsdelar som inte är avsedda för allmän åtkomst.
Många webbplatsägare väljer att inte indexera vissa sidor, t.ex. författarsidor, inloggningssidor eller sidor på en medlemssajt. De kan också blockera genomsökning och indexering av resurser som PDF-filer eller videor som kräver ett e-postmeddelande för att få tillgång till.
Det är värt att notera att om du använder ett CMS som WordPress blockeras inloggningssidan /wp-admin/
automatiskt från att indexeras av sökrobotar.
Det är dock viktigt att notera att Google inte rekommenderar att man enbart förlitar sig på robots.txt-filen för att kontrollera indexeringen av sidor. Och om du gör ändringar på en sida, t.ex. lägger till en "noindex"-tagg, ska du se till att sidan inte är otillåten i robots.txt. Annars kommer Googlebot inte att kunna läsa den och uppdatera sitt index i rätt tid.
Vanliga frågor
Vad händer om jag inte har en robots.txt-fil?
De flesta webbplatser kräver inte absolut en robots.txt-fil. Syftet med en robots.txt-fil är att kommunicera specifika instruktioner till sökrobotar, men det kanske inte är nödvändigt om du har en mindre webbplats eller en webbplats utan många sidor som du behöver blockera från sökrobotarna.
Med det sagt finns det inte heller någon nackdel med att skapa en robots.txt-fil och ha den live på din webbplats. Detta gör det enkelt att lägga till direktiv om du behöver göra det i framtiden.
Kan jag dölja en sida från sökmotorer med hjälp av robots.txt?
Ja, att dölja sidor från sökmotorer är en av de viktigaste funktionerna i en robots.txt-fil. Du kan göra detta med parametern disallow och den webbadress du vill blockera.
Det är dock viktigt att notera att det inte är någon garanti för att en webbadress inte kommer att indexeras bara för att den döljs för Googlebot med hjälp av robots.txt-filen. I vissa fall kan en URL fortfarande indexeras baserat på faktorer som texten i själva URL:en, ankartexten som används i externa länkar och sammanhanget på den externa sidan där URL:en upptäcktes.
Hur testar jag min robots.txt-fil?
Du kan validera din robots.txt-fil och testa hur instruktionerna fungerar på specifika webbadresser med hjälp av robots.txt-testaren i Google Search Console eller med hjälp av externa validerare, som den från Merkle.