Intro
Robots Exclusion Protocol (REP) to plik dla webmasterów, który jest używany do instruowania robotów. Instrukcje te pomagają robotom w indeksowaniu stron internetowych dla różnych witryn. Ten REP jest czasami określany jako Robots.txt. Są one umieszczane na najwyższym poziomie katalogu serwera WWW, aby były najbardziej użyteczne. Na przykład: https://www.123abc.com/robots.txt
Grupy REP są używane jako standard sieciowy, który reguluje działania botów i zachowanie indeksowania przez wyszukiwarki. W latach 1994-1997 oryginalny REP definiował zachowanie botów dla robots.txt. W 1996 r. wyszukiwarki obsługiwały dodatkowe znaczniki REP X-robot. Wyszukiwarki obsługiwały linki, których wartość zawierała "follow", używając mikroformatu rel-no follow.
Arkusz informacyjny o robotach
Aby całkowicie zablokować roboty indeksujące
User-agent: *
Disallow: /
Aby zablokować określone roboty indeksujące z folderu docelowego
User-agent: Googlebot
Disallow: /no-google/
Aby zablokować określone roboty indeksujące na docelowej stronie internetowej
User-agent: Googlebot
Disallow: /no-google/blocked-page.html
User-agent: *
Disallow:
Sitemap: https://www.123abc.com/none-standard-location/sitemap.xml
Znaczniki protokołów wykluczających specyficzne roboty
Znaczniki URI, REP są stosowane do określonych zadań indeksera, a w niektórych przypadkach do silników nosnippet, noarchive i noodpquery lub do zapytania wyszukiwania. W przypadku zasobów oznaczonych znacznikami wykluczenia, wyszukiwarki takie jak Bing SERP listingi pokazują te linki zewnętrzne jako niedozwolone adresy URL. Poza dyrektywami crawlerów poszczególne wyszukiwarki różnie interpretują znaczniki REP. Przykładem tego może być fakt, że Bing czasami wyświetla w swoich SERP-ach listę zewnętrznych odnośników jako zakazane. Google wykorzystuje te same listy i usuwa z SERP-ów adresy URL i odnośniki ODP. Zakłada się, że X-Roboty będą unieważniać dyrektywy, które są sprzeczne z elementami META.
Mikroformaty
Poszczególne czynniki HTML będą unieważniać ustawienia strony w dyrektywach mikroformatów indeksu. Ta metoda programowania wymaga umiejętności i bardzo dobrej znajomości serwerów WWW i protokołu HTTP. Przykładem takiego protokołu może być strona zawierająca znaczniki X-Robot z określonym elementem link, który mówi follow, a następnie rel-nofollow. W indekserach robots.txt zwykle brakuje dyrektyw, ale możliwe jest ustawienie grupowych indekserów URI, które mają serwer ze skryptami bocznymi na poziomie witryny.
Dopasowywanie wzorców
Webmasterzy nadal mogą używać dwóch oddzielnych wyrażeń do oznaczania wykluczenia strony. Te dwa znaki to gwiazdka i znak dolara. Gwiazdka oznacza, że może reprezentować dowolną kombinację znaków. Znak dolara służy do oznaczania końca adresu URL.
Informacje bez ograniczeń
Pliki robotów są zawsze publiczne, więc ważne jest, aby mieć świadomość, że każdy może zobaczyć plik robota dołączony do strony internetowej. Jest to również dostępna informacja, gdzie Webmaster blokuje silniki na serwerze. Te publiczne pliki pozostawiają dostęp do prywatnych danych użytkownika, które mogą zawierać prywatne dane indywidualne. Możliwe jest dodanie ochrony hasłem, aby uniemożliwić odwiedzającym i innym osobom przeglądanie stron niejawnych, które nie powinny być indeksowane.
Dodatkowe zasady
- Proste parametry meta-robota, takie jak polecenie index i follow, powinny być używane tylko do zapobiegania indeksowaniu i indeksowaniu stron.
- Niebezpieczne boty z pewnością zignorują te polecenia i jako takie są bezużytecznym planem bezpieczeństwa.
- Każdy adres URL ma prawo do tylko jednej linii "disallow".
- Oddzielne pliki robotów są wymagane dla każdej subdomeny.
- W nazwach plików dla robotów rozróżniana jest wielkość liter.
- Spacje nie oddzielają parametrów wyszukiwania.
Top SEO Tactics: Robot.txt
Blokowanie stron - istnieje kilka sposobów na uniemożliwienie wyszukiwarce indeksowania i dostępu do strony lub domeny.
Używanie robotów do blokowania stron
To wykluczenie mówi wyszukiwarce, aby nie indeksowała strony, ale może ona nadal indeksować stronę, aby pokazać ją w listach SERP.
Blokowanie stron bez indeksowania
Ta metoda wykluczenia mówi wyszukiwarkom, że mogą one odwiedzać stronę, ale nie mogą wyświetlić adresu URL lub zapisać strony do swojego indeksu. Jest to preferowana metoda wykluczenia.
Brak możliwości blokowania stron za pomocą linków śledzących
Ta taktyka nie jest wspierana. Wyszukiwarki nadal mogą uzyskać dostęp do stron z tym poleceniem. Nawet jeśli wyszukiwarka nie może bezpośrednio podążać za stroną, może uzyskać dostęp do jej zawartości za pomocą analityki wyszukiwarki lub innych powiązanych stron.
Meta Robots vs. Robots.txt
Przykład pliku robots.txt strony internetowej może pomóc w wyjaśnieniu działania programu. W tym przykładzie plik robots blokuje katalog. Gdy dany adres URL jest wyszukiwany w Google, okazuje się, że 2760 stron nie zostało dopuszczonych do katalogu. W tym przykładzie silnik nie indeksował adresów URL, więc nie będą one wyświetlane jak tradycyjne listy. Strony te będą gromadzić link juice, gdy zostaną do nich dołączone linki. Oprócz mocy rankingowej, zaczną one również zdobywać popularność i zaufanie dzięki pojawianiu się w wyszukiwaniach. Ponieważ strony te nie mogą przynosić korzyści witrynie, ponieważ nie są indeksowane. Najlepszym sposobem na rozwiązanie tego problemu i uniknięcie zmarnowania mocy rankingowej strony jest użycie innej metody wykluczenia, aby usunąć poszczególne strony. Kodowanie wyglądałoby tak: meta tag Ta metoda wykazałaby się lepszą wydajnością niż poprzednia.