Įvadas
Robotų pašalinimo protokolas (REP) - tai žiniatinklio valdytojo failas, naudojamas robotams nurodyti. Šie nurodymai padeda robotams naršyti tinklalapius ir indeksuoti įvairias svetaines. Šis REP kartais vadinamas Robots.txt. Kad būtų naudingiausi, jie dedami į aukščiausio lygio žiniatinklio serverio katalogą. Pavyzdžiui: https: //www.123abc.com/robots.txt
REP grupės naudojamos kaip žiniatinklio standartas, reguliuojantis robotų veiksmus ir paieškos sistemų indeksavimo elgesį. Nuo 1994 iki 1997 m. originalioje REP grupėje buvo apibrėžtas robotų elgesys robots.txt. 1996 m. paieškos sistemos palaikė papildomas REP X-robotų žymas. Paieškos sistemos tvarkė nuorodas, kurių reikšmėje buvo "follow", naudodamos mikroformatą rel-no follow.
Robotų suvestinė
Visiškai užblokuoti žiniatinklio naršykles
Vartotojo agentas: Uždrausti: * Uždrausti: /
Konkrečių žiniatinklio naršyklių blokavimas tiksliniame aplanke
Vartotojo agentas: Googlebot Uždrausti: /no-google/
Konkrečių žiniatinklio naršyklių blokavimas tiksliniame tinklalapyje
Vartotojo agentas: Googlebot Uždrausti: /no-google/blocked-page.html Vartotojo agentas: * uždrausti:
Svetainės žemėlapis: https://www.123abc.com/none-standard-location/sitemap.xml
Specifinės robotų protokolo žymos
URI, REP žymos taikomos tam tikrai indeksavimo užduočiai, o kai kuriais atvejais nosnippet, noarchive ir noodpquery varikliams arba paieškos užklausai. Išteklius, pažymėtus pašalinimo žymomis, paieškos sistemos, pavyzdžiui, "Bing" SERP sąrašai, rodo šias išorines nuorodas kaip draudžiamus URL. Be šliaužiklių direktyvų, konkrečios paieškos sistemos REP žymas interpretuoja skirtingai. To pavyzdys - "Bing" kartais savo SERP sąrašuose išorines nuorodas pateikia kaip draudžiamas. "Google" paima tuos pačius sąrašus ir savo SERP ištrina URL ir ODP nuorodas. Manoma, kad "X-Robots" panaikins direktyvas, kurios prieštarauja META elementams.
Mikroformatai
Tam tikri HTML veiksniai bus viršesni už puslapio nustatymus mikroformato rodyklės direktyvose. Šis programavimo būdas reikalauja įgūdžių ir labai gero žiniatinklio serverių ir HTTP protokolo išmanymo. Šio protokolo pavyzdys būtų puslapis su X-Robot žymėmis, kuriame yra tam tikro elemento nuoroda, kurioje sakoma follow, tada rel-nofollow. Robots.txt indeksuotojams paprastai trūksta direktyvų, tačiau galima nustatyti grupinius URI indeksatorius, kurie turi serverį su šoniniais scenarijais svetainės lygmeniu.
Pavyzdžių atitikimas
Tinklalapių valdytojai vis dar gali naudoti dvi atskiras išraiškas puslapio pašalinimui žymėti. Šie du simboliai yra žvaigždutė ir dolerio ženklas. Žvaigždutė reiškia, kad gali reikšti bet kokį simbolių derinį. Dolerio ženklas reiškia URL adreso pabaigą.
Neribota informacija
Robotų failai visada yra vieši, todėl svarbu žinoti, kad prie tinklalapio pridėtą roboto failą gali peržiūrėti bet kas. Taip pat prieinama informacija, iš kur žiniatinklio valdytojas serveryje blokuoja variklius. Šie vieši failai palieka prieigą prie privačių naudotojo duomenų, tarp kurių gali būti ir privatūs asmens duomenys. Galima pridėti apsaugą slaptažodžiu, kad lankytojai ir kiti asmenys negalėtų peržiūrėti įslaptintų puslapių, kurie neturėtų būti indeksuojami.
Papildomos taisyklės
- Paprasti metarobotų parametrai, tokie kaip indeksavimo ir sekimo komanda, turėtų būti naudojami tik siekiant užkirsti kelią puslapio indeksavimui ir nuskaitymui.
- Pavojingi robotai tikrai ignoruos šias komandas, todėl jos yra nenaudingas saugumo planas.
- Kiekvienam URL adresui leidžiama naudoti tik vieną eilutę "uždrausti".
- Kiekviename subdomene reikia atskirų robotų failų
- Botų failų pavadinimuose didžiosios raidės yra jautrios
- Tarpai neatskiria paieškos parametrų
Geriausios SEO taktikos: Robot.txt
Puslapio blokavimas - yra keletas būdų, kaip neleisti paieškos sistemai indeksuoti ir pasiekti tinklalapio ar domeno.
Robotų naudojimas puslapiams blokuoti
Šia išimtimi paieškos sistemai nurodoma puslapio neliesti, tačiau ji vis tiek gali jį indeksuoti ir rodyti SERP sąrašuose.
Nėra rodyklės puslapio blokavimo
Šis pašalinimo būdas nurodo paieškos sistemoms, kad joms leidžiama aplankyti puslapį, tačiau jos negali rodyti URL adreso arba išsaugoti puslapio savo rodyklėje. Tai pageidaujamas pašalinimo metodas.
Nėra sekančios nuorodos į blokavimo puslapius
Tai nėra remiama taktika. Paieškos sistemos vis tiek gali pasiekti puslapius su šia komanda. Net jei paieškos sistema negali tiesiogiai sekti puslapio, ji gali pasiekti turinį naudodamasi naršyklės analitika arba kitais susietais puslapiais.
Meta Robots vs. Robots.txt
Svetainės robots.txt failo pavyzdys gali padėti paaiškinti programos procesą. Pavyzdyje robotų faile blokuojamas katalogas. Atlikus konkretaus URL paiešką "Google" paieškos sistemoje, rodoma, kad 2760 puslapių buvo neleista įtraukti į katalogą. Pavyzdyje variklis neperskaito URL adresų, todėl jie nebus rodomi kaip tradiciniai sąrašai. Šie puslapiai kaups nuorodų syvus, kai prie jų bus prijungtos nuorodos. Be reitingavimo galios, jie taip pat pradės įgyti populiarumą ir pasitikėjimą dėl to, kad bus rodomi paieškose. Kadangi puslapiai negali būti naudingi svetainei, nes jie nėra peržiūrimi. Geriausias būdas ištaisyti šią problemą ir neturėti iššvaistytos puslapio reitingavimo galios, protinga naudoti kitą pašalinimo būdą, kad pašalintumėte atskirus puslapius. Kodavimas atrodytų taip: metažyma šis metodas pasižymėtų geresniu našumu nei ankstesnis metodas.