Intro
In een recente LinkedIn-post stelde Google-analist Gary Illyes de traditionele aanpak van het plaatsen van robots.txt-bestanden op het rootdomein ter discussie. Hij introduceerde een alternatieve methode waarbij deze bestanden worden gecentraliseerd op Content Delivery Networks (CDN's), wat flexibiliteit en een beter beheer biedt.
Belangrijkste inzichten:
- Robots.txt Flexibiliteit:
-
Het robots.txt-bestand hoeft zich niet op het hoofddomein te bevinden (bijvoorbeeld example.com/robots.txt).
-
Websites kunnen robots.txt-bestanden hebben die zowel op de primaire website als op een CDN worden gehost.
- Gecentraliseerd beheer van Robots.txt:
-
Door robots.txt op een CDN te hosten, kunnen websites hun crawlrichtlijnen centraliseren en stroomlijnen.
-
Een site kan bijvoorbeeld robots.txt hosten op https://cdn.example.com/robots.txt en verzoeken van https://www.example.com/robots.txt doorsturen naar dit gecentraliseerde bestand.
- Voldoen aan bijgewerkte normen:
- Crawlers die zich houden aan RFC9309 zullen de omleiding volgen en het gecentraliseerde robots.txt-bestand voor het oorspronkelijke domein gebruiken.
Praktische voordelen:
1. Gecentraliseerd beheer:
- Het consolideren van robots.txt-regels op één locatie vereenvoudigt het onderhoud en de updates van uw webaanwezigheid.
2. Verbeterde consistentie:
- Eén bron voor robots.txt-regels vermindert het risico op tegenstrijdige richtlijnen tussen de hoofdsite en het CDN.
3. Verbeterde flexibiliteit:
- Deze methode is vooral gunstig voor websites met complexe architecturen, meerdere subdomeinen of uitgebreid gebruik van CDN's.
Terugblikken op 30 jaar Robots.txt
Nu het Robots Exclusion Protocol (REP) 30 jaar bestaat, benadrukken Illyes' inzichten de voortdurende evolutie van webstandaarden. Hij laat zelfs doorschemeren dat de manier waarop crawl-richtlijnen worden beheerd in de toekomst kan veranderen, waarbij hij suggereert dat de traditionele bestandsnaam "robots.txt" misschien niet altijd nodig is.
Hoe deze aanpak te implementeren:
1. Maak een gecentraliseerd robots.txt-bestand:
- Host uw uitgebreide robots.txt-bestand op uw CDN (bijv. https://cdn.example.com/robots.txt).
2. Redirects instellen:
- Configureer je hoofddomein om robots.txt-aanvragen om te leiden naar het CDN-bestand.
3. Zorgen voor naleving:
- Zorg ervoor dat je setup voldoet aan RFC9309 zodat crawlers die aan de regels voldoen de redirect correct zullen volgen.
Conclusie
Gary Illyes' richtlijnen voor het centraliseren van robots.txt-bestanden op CDN's biedt een moderne aanpak voor het beheren van crawlrichtlijnen. Deze methode verbetert de flexibiliteit, consistentie en het beheergemak, vooral voor sites met complexe infrastructuren. Het omarmen van deze strategie kan het beheer van uw site stroomlijnen en mogelijk uw SEO-inspanningen verbeteren.