Kas ir Robots.txt?
Robots.txt fails ierobežo tīmekļa pārlūku, piemēram, meklētājprogrammu robotu, piekļuvi konkrētiem vietnes URL adresātiem. To var arī izmantot, lai dažiem tīmekļa pārlūkošanas rīkiem pielāgotu pārlūkošanas ātrumu.
Visi "labie" tīmekļa pārlūkošanas rīki ievēro robots.txt failā norādītos noteikumus. Tomēr ir "slikti" nereģistrēti tīmekļa pārlūkošanas rīki, kurus bieži izmanto izspiešanas nolūkos un kuri pilnībā ignorē robots.txt failu.
Robots.txt fails ir jāizmanto, lai samazinātu/optimizētu tīmekļa vietnes pārlūku datplūsmu, un to nedrīkst izmantot, lai kontrolētu tīmekļa lapu indeksēšanu. Pat ja URL ir aizliegts robots.txt failā, to joprojām var indeksēt Google, ja tas tiek atklāts, izmantojot ārējo saiti.
Robots.txt sintakse
Robots.txt faila sintakse ietver šādus laukus:
- user-agent: pārlūks, uz kuru attiecas noteikumi.
- disallow: ceļš, kuru nedrīkst pārmeklēt.
- allow: ceļš, ko var pārmeklēt (nav obligāti).
- sitemap: vietnes kartes faila atrašanās vieta (nav obligāti)
- crawl-delay: kontrolē pārlūkošanas ātrumu (nav obligāti un GoogleBot to neatbalsta).
Lūk, piemērs:
Lietotāja aģents: RanktrackerSiteAudit Aizliegt: /resources/ Atļaut: /resources/images/ Crawl-delay: 2 Sitemap: https://example.com/sitemap.xml
Šis robots.txt fails uzdod RanktrackerSiteAudit pārlūkošanas iekārtai nelauzt URL adresātus direktorijā "/resources/", izņemot tos, kas atrodas direktorijā "/resources/images/", un nosaka 2 sekunžu aizkavi starp pieprasījumiem.
Kāpēc ir svarīgs Robots.txt fails?
Failam robots.txt ir liela nozīme, jo tas ļauj tīmekļa vietņu administratoriem kontrolēt tīmekļa pārlūkprogrammu darbību savās vietnēs, optimizējot pārlūkošanas budžetu un ierobežojot to vietnes sadaļu pārlūkošanu, kuras nav paredzētas publiskai piekļuvei.
Daudzi vietņu īpašnieki izvēlas neindeksēt noteiktas lapas, piemēram, autoru lapas, pieteikšanās lapas vai lapas dalības vietnē. Viņi var arī bloķēt tādu slēgto resursu, piemēram, PDF failu vai videoklipu, kuru piekļuvei nepieciešama e-pasta piekrišana, pārlūkošanu un indeksēšanu.
Jāatzīmē, ka, ja izmantojat CMS, piemēram, WordPress, /wp-admin/
pieteikšanās lapa tiek automātiski bloķēta no pārlūku indeksēšanas.
Tomēr ir svarīgi atzīmēt, ka Google neiesaka paļauties tikai uz robots.txt failu, lai kontrolētu lapu indeksēšanu. Un, ja veicat izmaiņas lapā, piemēram, pievienojat birku "noindex", pārliecinieties, ka robots.txt failā šī lapa nav aizliegta. Pretējā gadījumā Google robots nevarēs to izlasīt un savlaicīgi atjaunināt savu indeksu.
Biežāk uzdotie jautājumi
Kas notiek, ja man nav robots.txt faila?
Lielākajā daļā vietņu robots.txt fails nav obligāti nepieciešams. Robots.txt faila mērķis ir paziņot konkrētus norādījumus meklēšanas robotiem, taču tas var nebūt nepieciešams, ja jums ir mazāka vietne vai vietne, kurā nav daudz lappušu, kuras nepieciešams bloķēt no meklēšanas rāpuļiem.
Ņemot to vērā, nav arī nekādu trūkumu, ja izveidojat robots.txt failu un ievietojat to savā vietnē. Tas atvieglos direktīvu pievienošanu, ja tas būs nepieciešams nākotnē.
Vai varu paslēpt lapu no meklētājprogrammām, izmantojot robots.txt?
Jā, viena no galvenajām robots.txt faila funkcijām ir paslēpt lapas no meklētājprogrammām. To var izdarīt, izmantojot parametru disallow un URL, ko vēlaties bloķēt.
Tomēr ir svarīgi atzīmēt, ka, vienkārši paslēpjot URL no Google robots.txt faila, netiek garantēts, ka tas netiks indeksēts. Dažos gadījumos URL joprojām var tikt indeksēts, pamatojoties uz tādiem faktoriem kā paša URL teksts, ārējās saitēs izmantotais enkurteksts un ārējās lapas konteksts, kurā URL tika atklāts.
Kā pārbaudīt robots.txt failu?
Robots.txt failu varat pārbaudīt un pārbaudīt, kā instrukcijas darbojas konkrētos URL, izmantojot robots.txt testeri Google meklēšanas konsolē vai ārējos validatorus, piemēram, Merkle validatoru.