Hva er Robots.txt?
En robots.txt-fil hindrer webcrawlere, for eksempel søkemotorroboter, i å få tilgang til bestemte nettadresser på et nettsted. Den kan også brukes til å justere gjennomsøkingshastigheten for enkelte webcrawlere.
Alle "gode" webcrawlere følger reglene som er angitt i robots.txt-filen. Det finnes imidlertid "dårlige", uregistrerte crawlere, som ofte brukes til skraping, og som ser helt bort fra robots.txt-filen.
Filen robots.txt skal brukes til å redusere/optimalisere crawler-trafikken til et nettsted, og den skal ikke brukes til å kontrollere indekseringen av nettsider. Selv om en URL ikke er tillatt i robots.txt, kan den fortsatt indekseres av Google hvis den oppdages via en ekstern lenke.
Syntaks for Robots.txt
Syntaksen i robots.txt-filen inneholder følgende felt:
- user-agent: søkeroboten reglene gjelder for
- disallow: en sti som ikke må gjennomsøkes
- allow: en sti som kan gjennomsøkes (valgfritt)
- områdekart: plassering av områdekartfilen (valgfritt)
- crawl-delay: kontrollerer gjennomsøkingshastigheten (valgfritt og støttes ikke av GoogleBot)
Her er et eksempel:
User-agent: RanktrackerSiteAudit Tillater ikke: /resources/ Tillat: /resources/images/ Crawl-delay: 2 Sitemap: https://example.com/sitemap.xml
Denne robots.txt-filen instruerer RanktrackerSiteAudit-crawleren om ikke å gjennomsøke URL-adresser i "/resources/"-katalogen, bortsett fra de i "/resources/images/", og setter forsinkelsen mellom forespørslene til 2 sekunder.
Hvorfor er Robots.txt-filen viktig?
Robots.txt-filen er viktig fordi den gjør det mulig for webansvarlige å kontrollere atferden til crawlere på nettsidene deres, optimalisere gjennomsøkingsbudsjettet og begrense gjennomsøkingen av deler av nettstedet som ikke er ment for offentlig tilgang.
Mange nettstedseiere velger å ikke indeksere visse sider, for eksempel forfattersider, påloggingssider eller sider på et medlemsnettsted. De kan også blokkere gjennomsøking og indeksering av ressurser som PDF-filer eller videoer som krever at man melder seg på via e-post for å få tilgang.
Det er verdt å merke seg at hvis du bruker et CMS som WordPress, blir innloggingssiden /wp-admin/
automatisk blokkert fra å bli indeksert av crawlere.
Det er imidlertid viktig å merke seg at Google ikke anbefaler å stole utelukkende på robots.txt-filen for å kontrollere indekseringen av sider. Og hvis du gjør endringer på en side, for eksempel legger til en "noindex"-tag, må du sørge for at siden ikke er forbudt i robots.txt. Ellers vil ikke Googlebot kunne lese den og oppdatere indeksen i tide.
Vanlige spørsmål
Hva skjer hvis jeg ikke har en robots.txt-fil?
De fleste nettsteder trenger ikke absolutt en robots.txt-fil. Formålet med en robots.txt-fil er å kommunisere spesifikke instruksjoner til søkeroboter, men det er ikke sikkert at dette er nødvendig hvis du har et mindre nettsted eller et nettsted uten mange sider som du trenger å blokkere fra søkerobotene.
Når det er sagt, er det heller ingen ulempe med å opprette en robots.txt-fil og ha den live på nettstedet ditt. Dette vil gjøre det enkelt å legge til direktiver hvis du trenger å gjøre det i fremtiden.
Kan jeg skjule en side fra søkemotorer ved hjelp av robots.txt?
Ja. Å skjule sider fra søkemotorer er en av de viktigste funksjonene til en robots.txt-fil. Du kan gjøre dette med disallow-parameteren og URL-adressen du ønsker å blokkere.
Det er imidlertid viktig å merke seg at det å skjule en URL fra Googlebot ved hjelp av robots.txt-filen ikke er noen garanti for at den ikke blir indeksert. I noen tilfeller kan en nettadresse fortsatt bli indeksert basert på faktorer som teksten i selve nettadressen, ankerteksten som brukes i eksterne lenker, og konteksten til den eksterne siden der nettadressen ble oppdaget.
Hvordan tester jeg robots.txt-filen min?
Du kan validere robots.txt-filen din og teste hvordan instruksjonene fungerer på bestemte nettadresser ved hjelp av robots.txt-testeren i Google Search Console eller ved hjelp av eksterne validatorer, for eksempel den fra Merkle.