Mis on Robots.txt?
Robots.txt-faili abil piiratakse veebilehe roomikutele, näiteks otsingumootorite robotitele, juurdepääs veebilehe konkreetsetele URL-dele. Seda saab kasutada ka mõnede veebimatkurite roomamiskiiruse reguleerimiseks.
Kõik "head" veebilehitsejad järgivad robots.txt failis sätestatud reegleid. Siiski on olemas "halvad" registreerimata roomajad, mida kasutatakse sageli kraapimise eesmärgil ja mis eirab robots.txt faili täielikult.
Robots.txt faili tuleb kasutada selleks, et vähendada/optimeerida roomikute liiklust veebisaidile ja seda ei tohiks kasutada veebilehtede indekseerimise kontrollimiseks. Isegi kui URL on robots.txt failis keelatud, võib Google seda siiski indekseerida, kui see avastatakse välise lingi kaudu.
Robots.txt süntaks
Robots.txt faili süntaks sisaldab järgmisi välju:
- user-agent: roomik, mille suhtes reeglid kehtivad
- disallow: tee, mida ei tohi läbida
- allow: tee, mida saab läbida (valikuline)
- sitemap: asukoha kaardifaili asukoht (valikuline)
- crawl-delay: kontrollib roomamise kiirust (valikuline ja ei toeta GoogleBot)
Siin on üks näide:
Kasutaja-agent: RanktrackerSiteAudit Disallow: /Allow: /resources/images/ Crawl-delay: 2 Sitemap: https://example.com/sitemap.xml
See robots.txt fail juhendab RanktrackerSiteAudit'i roomikut mitte roomata URL-i kataloogis "/resources/", välja arvatud need, mis asuvad kataloogis "/resources/images/" ja määrab päringute vahelise viivituse 2 sekundiks.
Miks on Robots.txt fail oluline?
Robots.txt-fail on oluline, sest see võimaldab veebimeistritel kontrollida roomikute käitumist oma veebisaidil, optimeerida roomamise eelarvet ja piirata selliste veebisaidi osade roomamist, mis ei ole mõeldud avalikuks juurdepääsuks.
Paljud veebisaidi omanikud otsustavad mitteindekseerida teatud lehekülgi, näiteks autorilehti, sisselogimislehti või liikmeskonna saidi lehekülgi. Nad võivad blokeerida ka selliste piiratud ressursside nagu PDF- või videomaterjalid, millele juurdepääsuks on vaja e-posti nõusolekut, roomamise ja indekseerimise.
Väärib märkimist, et kui kasutate CMS-i nagu WordPress, blokeeritakse /wp-admin/
sisselogimisleht automaatselt roomikute poolt indekseerimise eest.
Siiski on oluline märkida, et Google ei soovita lehekülgede indekseerimise kontrollimisel tugineda ainult robots.txt failile. Ja kui teete lehel muudatusi, näiteks lisate sildi "noindex", veenduge, et leht ei ole robots.txt failis keelatud. Vastasel juhul ei saa Googlebot seda lugeda ja oma indeksit õigeaegselt uuendada.
KKK
Mis juhtub, kui mul ei ole robots.txt faili?
Enamik saite ei nõua robots.txt faili tingimata. Robots.txt-faili eesmärk on edastada otsinguprogrammide robotitele konkreetseid juhiseid, kuid see ei pruugi olla vajalik, kui teil on väiksem veebisait või kui teil ei ole palju lehekülgi, mida on vaja otsinguprogrammide eest blokeerida.
Seda arvestades ei ole robots.txt-faili loomisel ja selle kasutamisel teie veebisaidil ka mingeid puudusi. See muudab direktiivide lisamise lihtsaks, kui teil on vaja seda tulevikus teha.
Kas ma saan lehte robots.txt abil otsingumootorite eest varjata?
Jah. Lehekülgede varjamine otsingumootorite eest on robots.txt faili üks peamisi funktsioone. Seda saate teha disallow-parameetriga ja URL-iga, mida soovite blokeerida.
Siiski on oluline märkida, et URL-i lihtne varjamine Googlebot'i eest robots.txt faili abil ei garanteeri, et seda ei indekseerita. Mõningatel juhtudel võib URL-i siiski indekseerida selliste tegurite alusel nagu URL-i enda tekst, välislinkides kasutatud ankrutekst ja selle välise lehe kontekst, kus URL-i avastati.
Kuidas testida oma robots.txt faili?
Saate oma robots.txt-faili valideerida ja testida, kuidas juhised toimivad konkreetsete URL-ide puhul, kasutades Google Search Console'i robots.txt testijat või väliseid valideerijaid, näiteks Merkle'i valideerija.