Intro
Das Robots Exclusion Protocol (REP) ist eine Webmaster-Datei, die dazu dient, Robotern Anweisungen zu geben. Die Anweisungen helfen den Robots, Webseiten zu crawlen und sie für verschiedene Websites zu indizieren. Dieses REP wird manchmal auch als Robots.txt bezeichnet. Sie werden auf der obersten Ebene des Webserververzeichnisses platziert, um möglichst nützlich zu sein. Beispiel: https://www.123abc.com/robots.txt
REP-Gruppen werden als Web-Standard verwendet, der Bot-Aktionen und das Indizierungsverhalten von Suchmaschinen regelt. Zwischen 1994 und 1997 definierte das ursprüngliche REP das Bot-Verhalten für robots.txt. Im Jahr 1996 unterstützten die Suchmaschinen zusätzliche REP X-robot-Tags. Suchmaschinen behandelten Links, deren Wert ein "follow" enthielt, mit einem Mikroformat rel-no follow.
Roboter-Spickzettel
So blockieren Sie Webcrawler vollständig
Benutzer-Agent: *
Nicht zulassen: /
So blockieren Sie bestimmte Web-Crawler für einen Zielordner
Benutzer-Agent: Googlebot
Nicht zulassen: /no-google/
So blockieren Sie bestimmte Web-Crawler von einer Ziel-Webseite
Benutzer-Agent: Googlebot
Nicht zulassen: /kein-google/blockierte-seite.html
Benutzer-Agent: *
Nicht zulassen:
Sitemap: https://www.123abc.com/none-standard-location/sitemap.xml
Ausschluss spezifischer Roboter-Protokoll-Tags
URI, REP-Tags sind auf bestimmte Indexer Aufgabe, und in einigen Fällen nosnippet, noarchive und noodpquery Motoren oder eine Suchanfrage angewendet. Ressourcen, die mit Ausschluss-Tags versehen sind, werden von Suchmaschinen wie Bing in den SERP-Listen als verbotene URLs angezeigt. Neben den Crawler-Richtlinien werden REP-Tags von bestimmten Suchmaschinen unterschiedlich interpretiert. Ein Beispiel dafür ist, dass Bing manchmal externe Verweise in seinen SERPs als verboten auflistet. Google nimmt die gleichen Einträge und löscht die URL- und ODP-Verweise in seinen SERPs. Der Gedanke ist, dass X-Robots Richtlinien, die mit META-Elementen in Konflikt stehen, außer Kraft setzen würden.
Mikroformate
Bestimmte HTML-Faktoren setzen die Seiteneinstellungen in mikroformatierten Indexanweisungen außer Kraft. Diese Art der Programmierung erfordert Fähigkeiten und ein sehr gutes Verständnis von Webservern und dem HTTP-Protokoll. Ein Beispiel für dieses Protokoll wäre eine Seite mit X-Robot-Tags mit einem bestimmten Element-Link, auf dem follow und dann rel-nofollow steht. Robots.txt-Indexer haben in der Regel keine Direktiven, aber es ist möglich, Gruppen-Indexer für URIs einzurichten, die einen Server mit seitlichen Skripten auf Site-Ebene haben.
Mustervergleich
Webmaster können immer noch zwei separate Ausdrücke verwenden, um den Ausschluss von Seiten zu bezeichnen. Die beiden Zeichen sind das Sternchen und das Dollarzeichen. Das Sternchen bedeutet, dass eine beliebige Kombination von Zeichen stehen kann. Das Dollarzeichen steht für das Ende der URL.
Uneingeschränkte Informationen
Roboterdateien sind immer öffentlich, daher ist es wichtig zu wissen, dass jeder eine an eine Webseite angehängte Roboterdatei einsehen kann. Es handelt sich auch um zugängliche Informationen, wenn der Webmaster die Suchmaschinen auf dem Server blockiert. Diese öffentlichen Dateien ermöglichen den Zugriff auf private Benutzerdaten, die auch private persönliche Daten enthalten können. Es ist möglich, einen Passwortschutz hinzuzufügen, um Besucher und andere davon abzuhalten, geheime Seiten, die nicht indiziert werden sollen, einzusehen.
Zusätzliche Regeln
- Einfache Meta-Robot-Parameter wie index und follow-Befehl sollten nur verwendet werden, um die Indizierung und das Crawling von Seiten zu verhindern.
- Gefährliche Bots werden diese Befehle mit Sicherheit ignorieren und sind daher ein nutzloser Sicherheitsplan.
- Jede URL darf nur eine "disallow"-Zeile enthalten.
- Für jede Subdomain sind separate Robots-Dateien erforderlich.
- Bei den Dateinamen für die Bots wird zwischen Groß- und Kleinschreibung unterschieden.
- Die Suchparameter werden nicht durch Leerzeichen getrennt.
Top SEO-Taktiken: Robot.txt
Page Blocking - es gibt mehrere Möglichkeiten, die Indizierung und den Zugriff einer Suchmaschine auf eine Webseite oder Domain zu verhindern.
Robots zum Blockieren von Seiten verwenden
Dieser Ausschluss weist die Suchmaschine an, die Seite nicht zu crawlen, aber sie kann die Seite dennoch indizieren, um sie in den SERP-Listen anzuzeigen.
Keine Indexierung von Seiten blockieren
Diese Ausschlussmethode teilt Suchmaschinen mit, dass sie die Seite besuchen dürfen, aber sie dürfen die URL nicht anzeigen oder die Seite für ihren Index speichern. Dies ist die bevorzugte Methode des Ausschlusses.
Kein folgender Link zum Sperren von Seiten
Dies ist eine nicht unterstützte Taktik. Suchmaschinen können mit diesem Befehl dennoch auf Seiten zugreifen. Auch wenn die Suchmaschine der Seite nicht direkt folgen kann, kann sie über die Browseranalyse oder andere verlinkte Seiten auf den Inhalt zugreifen.
Meta Robots vs. Robots.txt
Ein Beispiel für die robots.txt-Datei einer Website kann helfen, den Prozess des Programms zu verdeutlichen. In diesem Beispiel blockiert die Robots-Datei das Verzeichnis. Wenn die betreffende URL in Google gesucht wird, zeigt sich, dass 2760 Seiten aus dem Verzeichnis verbannt wurden. In diesem Beispiel hat die Maschine die URLs nicht gecrawlt, so dass sie nicht wie herkömmliche Einträge erscheinen. Diese Seiten werden Link-Saft ansammeln, sobald sie mit Links versehen sind. Zusätzlich zu ihrer Ranking-Power werden sie auch an Popularität und Vertrauen gewinnen, wenn sie in Suchanfragen auftauchen. Da die Seiten keinen Nutzen für die Website haben können, weil sie nicht gecrawlt werden. Um dieses Problem zu beheben und keine Ranking-Power auf einer Seite zu verschwenden, ist es ratsam, eine andere Ausschlussmethode zu verwenden, um die einzelnen Seiten zu entfernen. Die Kodierung würde wie folgt aussehen: meta tag diese Methode würde eine bessere Leistung als die vorherige Methode aufweisen.