Wat is Robots.txt?
Een robots.txt-bestand beperkt webcrawlers, zoals zoekmachine-bots, in de toegang tot specifieke URL's op een website. Het kan ook worden gebruikt om de crawlsnelheid voor sommige webcrawlers aan te passen.
Alle "goede" webcrawlers houden zich aan de regels in het robots.txt-bestand. Er zijn echter "slechte" ongeregistreerde crawlers, die vaak worden gebruikt voor scraping-doeleinden en die het robots.txt-bestand volledig negeren.
Het robots.txt-bestand moet worden gebruikt om crawlerverkeer naar een website te beperken/optimaliseren en mag niet worden gebruikt om het indexeren van webpagina's te regelen. Zelfs als een URL niet is toegestaan in robots.txt, kan deze nog steeds worden geïndexeerd door Google als deze wordt ontdekt via een externe link.
Syntaxis van Robots.txt
De syntaxis van het robots.txt-bestand bevat de volgende velden:
- user-agent: de crawler waarop de regels van toepassing zijn
- disallow: een pad dat niet mag worden gecrawld
- allow: een pad dat kan worden gecrawld (optioneel)
- sitemap: locatie van het sitemap-bestand (optioneel)
- crawl-delay: regelt de crawlsnelheid (optioneel en niet ondersteund door GoogleBot)
Hier is een voorbeeld:
Gebruiker-agent: RanktrackerSiteAudit Disallow: /resources/ Allow: /resources/images/ Crawlvertraging: 2 Sitemap: https://example.com/sitemap.xml
Dit robots.txt bestand instrueert RanktrackerSiteAudit crawler niet om URLs in de "/resources/" directory te crawlen behalve die in "/resources/images/" en stelt de vertraging tussen de verzoeken in op 2 seconden.
Waarom is het bestand Robots.txt belangrijk?
Het robots.txt-bestand is belangrijk omdat het webmasters in staat stelt het gedrag van crawlers op hun websites te controleren, het crawlbudget te optimaliseren en het crawlen te beperken van websiteonderdelen die niet bedoeld zijn voor publieke toegang.
Veel website-eigenaren kiezen ervoor om bepaalde pagina's niet te indexeren, zoals auteurspagina's, aanmeldingspagina's of pagina's binnen een lidmaatschapssite. Ze kunnen ook het crawlen en indexeren blokkeren van gated bronnen zoals PDF's of video's waarvoor een opt-in per e-mail nodig is om toegang te krijgen.
Het is de moeite waard om op te merken dat als je een CMS zoals WordPress gebruikt, de /wp-admin/
inlogpagina automatisch wordt geblokkeerd om door crawlers te worden geïndexeerd.
Het is echter belangrijk om op te merken dat Google niet aanbeveelt om alleen op het robots.txt-bestand te vertrouwen om het indexeren van pagina's te controleren. En als u wijzigingen aanbrengt aan een pagina, zoals het toevoegen van een "noindex"-tag, zorg er dan voor dat de pagina niet is uitgeschakeld in de robots.txt. Anders kan Googlebot de pagina niet lezen en zijn index niet tijdig bijwerken.
FAQs
Wat gebeurt er als ik geen robots.txt-bestand heb?
Voor de meeste sites is een robots.txt-bestand niet absoluut noodzakelijk. Het doel van een robots.txt-bestand is om specifieke instructies door te geven aan zoekrobots, maar dit is misschien niet nodig als je een kleinere website hebt of een website zonder veel pagina's die je moet blokkeren voor de zoekcrawlers.
Dat gezegd hebbende, is er ook geen nadeel aan het maken van een robots.txt-bestand en het live op je website te zetten. Dit maakt het gemakkelijk om richtlijnen toe te voegen als je dat in de toekomst nodig hebt.
Kan ik een pagina verbergen voor zoekmachines met robots.txt?
Ja. Pagina's verbergen voor zoekmachines is een van de belangrijkste functies van een robots.txt-bestand. Je kunt dit doen met de disallow parameter en de URL die je wilt blokkeren.
Het is echter belangrijk op te merken dat het simpelweg verbergen van een URL voor Googlebot met behulp van het robots.txt-bestand niet garandeert dat deze niet wordt geïndexeerd. In sommige gevallen kan een URL nog steeds worden geïndexeerd op basis van factoren zoals de tekst van de URL zelf, de anchor-tekst die wordt gebruikt in externe links en de context van de externe pagina waarop de URL is ontdekt.
Hoe test ik mijn robots.txt-bestand?
U kunt uw robots.txt-bestand valideren en testen hoe de instructies werken op specifieke URL's met behulp van de robots.txt-tester in Google Search Console of met behulp van externe validators, zoals die van Merkle.