Въведение
Протоколът за изключване на роботи (REP) е файл за уебмастъри, който се използва за инструктиране на роботите. Инструкциите помагат на роботите да обхождат уеб с траници и да ги индексират за различни уебсайтове. Този REP понякога се нарича Robots.txt. Те се поставят в горното ниво на директорията на уеб сървъра, за да бъдат най-полезни. Например: https: //www.123abc.com/robots.txt
Групите РЕП се използват като уеб стандарт, който регулира действията на ботовете и поведението им при индексиране от търсачките. В периода 1994-1997 г. първоначалната група REP определя поведението на ботовете за robots.txt. През 1996 г. търсачките поддържат допълнителни тагове REP X-robot. Търсачките обработваха връзки, чиято стойност съдържаше "follow", като използваха микроформат rel-no follow.
Контролен лист за роботи
Пълно блокиране на уеб обхождащите устройства
Агент на потребителя: * Disallow: /
Блокиране на определени уеб обхождащи програми от целева папка
Агент на потребителя: Googlebot Disallow: /no-google/
Блокиране на определени уеб обхождащи програми от целева уеб страница
Агент на потребителя: Googlebot Disallow: /no-google/blocked-page.html User-agent: * Disallow:
Карта на сайта: https://www.123abc.com/none-standard-location/sitemap.xml
Етикети на протокола за специфични роботи за изключване
URI, таговете REP се прилагат към определени задачи на индексиращите устройства, а в някои случаи и към двигателите nosnippet, noarchive и noodpquery или към заявка за търсене. Ресурси, маркирани с тагове за изключване, търсачките, като например списъците на Bing SERP, показват тези външни връзки като забранени URL адреси. Освен директивите за обхождане специфичните търсачки ще тълкуват REP таговете по различен начин. Пример за това може да се види в начина, по който Bing понякога изписва външните препратки в своите SERP като забранени. Google взема същите списъци и изтрива URL и ODP препратките в своите SERP. Мисълта е, че X-Robots ще отмени директивите, които са в противоречие с META елементите.
Микроформати
Конкретни фактори на HTML ще имат предимство пред настройките на страницата в директивите за микроформатиран индекс. Този метод на програмиране изисква умения и много добро познаване на уеб сървърите и протокола HTTP. Пример за този протокол би бил страница с тагове X-Robot с конкретен елемент връзка, които казват follow, а след това rel-nofollow. В индексиращите файлове Robots.txt обикновено липсват директиви, но е възможно да се зададат групови индексиращи файлове на URI, които имат сървър със странични скриптове на ниво сайт.
Съвпадение на шаблони
Уебмастърите все още могат да използват два отделни израза за обозначаване на изключването на страници. Двата символа са звездичка и знак за долар. Звездичката означава, че може да представлява всяка комбинация от знаци. Знакът за долар е за обозначаване на края на URL адреса.
Неограничена информация
Файловете на роботи са винаги публични, така че е важно да знаете, че всеки може да види файл на робот, прикачен към уеб страница. Достъпна е и информацията откъде уебмастърът блокира двигателите на сървъра. Тези публични файлове оставят достъп до частни потребителски данни, които могат да включват лични данни на отделни лица. Възможно е да се добави защита с парола, за да се попречи на посетителите и други лица да разглеждат класифицирани страници, които не трябва да се индексират.
Допълнителни правила
- Простите параметри на мета робота като командата index и follow трябва да се използват само за предотвратяване на индексирането и обхождането на страници.
- Опасните ботове със сигурност ще игнорират тези команди и като такива са безполезен план за сигурност.
- Всеки URL адрес има право само на един ред "disallow".
- За всеки поддомейн са необходими отделни файлове с роботи
- Имената на файловете за ботовете са чувствителни към малки и големи букви
- Разстоянието не разделя параметрите за търсене
Топ тактики за SEO: Robot.txt
Блокиране на страници - има няколко начина да се попречи на търсачката да индексира и да получи достъп до дадена уеб страница или домейн.
Използване на роботи за блокиране на страници
Това изключване забранява на търсачката да обхожда страницата, но тя все пак може да я индексира и да я по каже в списъците на SERP.
Без блокиране на индексната страница
Този метод на изключване указва на търсачките, че им е позволено да посещават страницата, но не им е позволено да показват URL адреса или да запазват страницата в своя индекс. Това е предпочитаният метод на изключване.
Не следвайте връзка за блокиране на страници
Това не е подкрепяна тактика. Търсачките все още имат достъп до страници с тази команда. Дори ако търсачката не може да проследи директно страницата, тя може да получи достъп до съдържанието, като използва анализите на браузъра или други свързани страници.
Meta Robots срещу Robots.txt
Пример за файл robots.txt на уебсайт може да помогне за изясняване на процеса на работа на програмата. В примера файлът за роботи блокира директорията. Когато конкретният URL адрес се търси в Google, се вижда, че 2760 страници са забранени за достъп до директорията. В примера двигателят не е обхождал URL адресите, така че те няма да се появят като традиционни списъци. Тези страници ще натрупат сок от връзки, след като към тях бъдат прикачени връзки. В допълнение към силата на класирането им, те ще започнат да придобиват популярност и доверие от появата си в търсенията. Тъй като страниците не могат да бъдат от полза за сайта, защото не се обхождат. Най-добрият начин да решите този проблем и да нямате пропиляна сила за класиране на дадена страница, е разумно да използвате друг метод за изключване, за да премахнете отделните страници. Кодирането ще се появи като: мета таг този метод ще покаже по-добра ефективност от предишния метод.