Uvod
Protokol o izključitvi robotov (REP) je datoteka spletnega skrbnika, ki se uporablja za navodila robotom. Navodila pomagajo robotom pri pregledovanju spletnih strani in njihovem indeksiranju za različna spletna mesta. Ta REP se včasih imenuje Robots.txt. Da bi bili najbolj uporabni, se namestijo na najvišjo raven imenika spletnega strežnika. Na primer: https: //www.123abc.com/robots.txt
Skupine REP se uporabljajo kot spletni standard, ki ureja delovanje robotov in obnašanje iskalnikov pri indeksiranju. Med letoma 1994 in 1997 je prvotna skupina REP opredelila obnašanje botov za robots.txt. Leta 1996 so iskalniki podprli dodatne oznake REP X-robot. Iskalniki so povezave, katerih vrednost je vsebovala "follow", obravnavali z mikroobliko rel-no follow.
Robot Cheat Sheet
Popolno blokiranje spletnih pregledovalnikov
User-agent: * Prepovedati: /
Blokiranje določenih spletnih brskalnikov iz ciljne mape
User-agent: Googlebot Disallow: /no-google/
Blokiranje določenih spletnih brskalnikov na ciljni spletni strani
User-agent: Googlebot Disallow: /no-google/blocked-page.html User-agent: * Prepovedati:
Kazalo: https://www.123abc.com/none-standard-location/sitemap.xml
Posebne oznake protokola robota za izključitev
URI, oznake REP se uporabljajo za določeno nalogo indeksatorja, v nekaterih primerih pa tudi za motorje nosnippet, noarchive in noodpquery ali iskalno poizvedbo. Viri, označeni z oznakami izključitve, iskalniki, kot so Bingovi seznami SERP, te zunanje povezave prikažejo kot prepovedane URL-je. Poleg direktiv za pobrskalnike bodo posamezni iskalniki različno razlagali oznake REP. Primer tega je, da Bing včasih zunanje povezave na svojih spletnih straneh SERP navede kot prepovedane. Google vzame iste sezname in izbriše povezave URL in ODP v svojih spletnih straneh SERP. Misel je, da bi X-Roboti preglasili direktive, ki so v nasprotju z elementi META.
Mikroformati
Določeni dejavniki HTML bodo prevladali nad nastavitvami strani v mikrooblikovanih direktivah indeksa. Ta način programiranja zahteva spretnosti in zelo dobro poznavanje spletnih strežnikov in protokola HTTP. Primer tega protokola bi bila stran z oznakami X-Robot z določenim elementom povezave, ki pravijo follow in nato rel-nofollow. Indeksatorji Robots.txt običajno nimajo direktiv, vendar je mogoče nastaviti skupinske indeksatorje URI, ki imajo strežnik s stranskimi skriptami na ravni spletnega mesta.
Ujemanje vzorcev
Spletni skrbniki lahko še vedno uporabljajo dva ločena izraza za označevanje izključitve strani. Ta dva znaka sta zvezdica in znak dolarja. Zvezdica pomeni, da lahko predstavlja katero koli kombinacijo znakov. Znak dolarja označuje konec naslova URL.
Neomejene informacije
Robotske datoteke so vedno javne, zato se morate zavedati, da si lahko robotsko datoteko, priloženo spletni strani, ogleda vsakdo. Dostopne so tudi informacije o tem, kje v strežniku spletni skrbnik blokira motorje. Te javne datoteke puščajo dostop do zasebnih podatkov uporabnikov, ki lahko vključujejo zasebne podatke posameznikov. Možno je dodati zaščito z geslom, da obiskovalcem in drugim osebam preprečite ogled zaupnih strani, ki se ne bi smele indeksirati.
Dodatna pravila
- Enostavne parametre metarobota, kot sta ukaz index in follow, lahko uporabite le za preprečevanje indeksiranja in pregledovanja strani.
- Nevarni boti bodo te ukaze zagotovo ignorirali in so kot taki neuporaben varnostni načrt.
- Za vsak URL je dovoljena le ena vrstica "disallow".
- Za vsako poddomeno so potrebne ločene datoteke robotov
- Imena datotek za bote so občutljiva na velike in male črke.
- Razmiki ne ločujejo iskalnih parametrov
Vrhunske taktike SEO: Robot.txt
Blokiranje strani - obstaja več načinov, kako iskalniku preprečiti indeksiranje in dostop do spletne strani ali domene.
Uporaba robotov za blokiranje strani
S to izključitvijo iskalniku naročite, naj ne preiskuje strani, vendar jo lahko še vedno indeksira in prikaže na seznamu SERP.
Brez blokiranja indeksne strani
Ta način izključitve sporoča iskalnikom, da lahko obiščejo stran, vendar ne smejo prikazati naslova URL ali shraniti strani v svoj indeks. To je najprimernejši način izključitve.
Ni naslednje povezave do blokiranih strani
To ni podprta taktika. Iskalniki lahko še vedno dostopajo do strani s tem ukazom. Tudi če iskalnik ne more neposredno slediti strani, lahko do vsebine dostopa s pomočjo analitike brskalnika ali drugih povezanih strani.
Meta roboti proti Robots.txt
Primer datoteke robots.txt spletnega mesta lahko pomaga pojasniti postopek programa. V tem primeru datoteka robota blokira imenik. Pri iskanju določenega naslova URL v Googlu se prikaže, da je bilo iz imenika onemogočenih 2760 strani. V primeru motor ni prebrskal naslovov URL, zato ti ne bodo prikazani kot običajni seznami. Te strani bodo pridobile sok povezav, ko bodo nanje priključene povezave. Poleg uvrstitvene moči bodo začele pridobivati tudi priljubljenost in zaupanje zaradi pojavljanja v iskanju. Ker strani ne morejo biti koristne za spletno mesto, saj se ne preiskujejo. Najboljši način za odpravo te težave in preprečitev zapravljanja uvrstitvene moči strani je pametno uporabiti drugo metodo izključitve za odstranitev posameznih strani. Kodiranje bi bilo prikazano kot: meta oznaka ta metoda bi izkazovala boljšo učinkovitost kot prejšnja metoda.