Was ist Robots.txt?
Eine robots.txt-Datei verhindert, dass Web-Crawler, z. B. Suchmaschinen-Bots, auf bestimmte URLs einer Website zugreifen können. Sie kann auch verwendet werden, um die Crawling-Geschwindigkeit für einige Web-Crawler anzupassen.
Alle "guten" Webcrawler halten sich an die in der robots.txt-Datei festgelegten Regeln. Es gibt jedoch "böse" unregistrierte Crawler, die oft zu Scraping-Zwecken eingesetzt werden und die robots.txt-Datei völlig missachten.
Die robots.txt-Datei muss verwendet werden, um den Crawler-Verkehr zu einer Website zu reduzieren/optimieren, und sie sollte nicht verwendet werden, um die Indizierung von Webseiten zu steuern. Selbst wenn eine URL in der robots.txt-Datei verboten ist, kann sie dennoch von Google indiziert werden, wenn sie über einen externen Link entdeckt wird.
Syntax von Robots.txt
Die Syntax der robots.txt-Datei enthält die folgenden Felder:
- User-Agent: der Crawler, für den die Regeln gelten
- disallow: ein Pfad, der nicht gecrawlt werden darf
- allow: ein Pfad, der gecrawlt werden kann (optional)
- sitemap: Speicherort der Sitemap-Datei (optional)
- crawl-delay: steuert die Crawling-Geschwindigkeit (optional und von GoogleBot nicht unterstützt)
Hier ist ein Beispiel:
Benutzer-Agent: RanktrackerSiteAudit Disallow: /resources/ Allow: /resources/images/ Crawl-Verzögerung: 2 Sitemap: https://example.com/sitemap.xml
Diese robots.txt-Datei weist den RanktrackerSiteAudit-Crawler an, URLs im Verzeichnis "/resources/" nicht zu crawlen, außer denen in "/resources/images/", und setzt die Verzögerung zwischen den Anfragen auf 2 Sekunden.
Warum ist die Datei Robots.txt wichtig?
Die robots.txt-Datei ist wichtig, weil sie es Webmastern ermöglicht, das Verhalten von Crawlern auf ihren Websites zu steuern, das Crawl-Budget zu optimieren und das Crawlen von Website-Bereichen einzuschränken, die nicht für den öffentlichen Zugang bestimmt sind.
Viele Website-Besitzer entscheiden sich dafür, bestimmte Seiten wie Autorenseiten, Anmeldeseiten oder Seiten innerhalb einer Mitgliederseite nicht zu indizieren. Sie können auch das Crawling und die Indizierung von Gated-Ressourcen wie PDFs oder Videos blockieren, für deren Zugriff eine E-Mail-Zustimmung erforderlich ist.
Wenn Sie ein CMS wie WordPress verwenden, wird die Anmeldeseite /wp-admin/
automatisch für die Indizierung durch Crawler gesperrt.
Es ist jedoch wichtig zu beachten, dass Google nicht empfiehlt, sich ausschließlich auf die robots.txt-Datei zu verlassen, um die Indizierung von Seiten zu steuern. Wenn Sie Änderungen an einer Seite vornehmen, wie z. B. das Hinzufügen eines "noindex"-Tags, stellen Sie sicher, dass die Seite nicht in der robots.txt-Datei verboten ist. Andernfalls kann der Googlebot die Seite nicht lesen und seinen Index nicht rechtzeitig aktualisieren.
FAQs
Was passiert, wenn ich keine robots.txt-Datei habe?
Die meisten Websites benötigen nicht unbedingt eine robots.txt-Datei. Der Zweck einer robots.txt-Datei besteht darin, den Suchrobotern bestimmte Anweisungen mitzuteilen. Dies ist jedoch nicht unbedingt erforderlich, wenn Sie eine kleinere Website oder eine Website ohne viele Seiten haben, die Sie für die Suchcrawler sperren müssen.
Es gibt aber auch keinen Nachteil, eine robots.txt-Datei zu erstellen und sie auf Ihrer Website zu speichern. Dies erleichtert das Hinzufügen von Richtlinien, falls Sie dies in Zukunft benötigen.
Kann ich eine Seite mit robots.txt vor Suchmaschinen verbergen?
Ja. Das Verbergen von Seiten vor Suchmaschinen ist eine der Hauptfunktionen einer robots.txt-Datei. Sie können dies mit dem disallow-Parameter und der URL, die Sie blockieren möchten, tun.
Es ist jedoch wichtig zu beachten, dass das einfache Verstecken einer URL vor Googlebot mithilfe der robots.txt-Datei keine Garantie dafür ist, dass sie nicht indiziert wird. In einigen Fällen kann eine URL aufgrund von Faktoren wie dem Text der URL selbst, dem in externen Links verwendeten Ankertext und dem Kontext der externen Seite, auf der die URL entdeckt wurde, dennoch indexiert werden.
Wie kann ich meine robots.txt-Datei testen?
Sie können Ihre robots.txt-Datei validieren und testen, wie die Anweisungen für bestimmte URLs funktionieren, indem Sie den robots.txt-Tester in der Google Search Console oder externe Validatoren wie den von Merkle verwenden.