Kas ir kāpurķēde?
Pārmeklētājs ir interneta programma, kas paredzēta sistemātiskai interneta pārlūkošanai. Pārmeklētājus visbiežāk izmanto kā līdzekli, ar kura palīdzību meklētājprogrammas atrod un apstrādā lapas, lai tās indeksētu un parādītu meklēšanas rezultātos.
Papildus pārlūkprogrammām, kas apstrādā HTML, dažas īpašas pārlūkprogrammas tiek izmantotas arī attēlu un videoklipu indeksēšanai.
Reālajā pasaulē galvenie tīmekļa pārlūkošanas rīki, kas jāzina, ir tie, kurus izmanto pasaules populārākās meklētājprogrammas: Googlebot, Bingbot, Yandex Bot un Baidu Spider.
Labie un sliktie rāpuļi
Domājiet par labu pārlūku kā par robotu, kas var palīdzēt jūsu vietnei, galvenokārt pievienojot jūsu saturu meklēšanas indeksam vai palīdzot jums veikt vietnes revīziju. Citas laba pārlūkošanas rīka pazīmes ir tādas, ka tas identificē sevi, ievēro jūsu norādījumus un pielāgo pārlūkošanas ātrumu, lai nepārslogotu jūsu serveri.
Slikts rāpotājs ir robots, kas vietnes īpašniekam nesniedz nekādu pievienoto vērtību un var būt ļaunprātīgs. Sliktie rāpotāji var neidentificēt sevi, apiet jūsu norādījumus, nevajadzīgi noslogot serverus un pat zagt saturu un datus.
Loka kāpurķēžu veidi
Ir divu veidu pārmeklētāji:
- Pastāvīgi pārmeklējoši roboti: Tie veic pārlūkošanu 24 stundas diennaktī, 7 dienas nedēļā, 7 dienas nedēļā, lai atklātu jaunas lapas un pārlasītu vecākas lapas (piemēram, Googlebot).
- Pieprasījuma roboti: Tie pārlūko ierobežotu lapu skaitu un veic pārlūkošanu tikai pēc pieprasījuma (piemēram, Ranktracker Site Audit bot).
Kāpēc tīmekļa vietnes pārmeklēšana ir svarīga?
Galvenais meklētājprogrammas pārlūka mērķis ir uzzināt, kas ir jūsu vietnē, un pievienot šo informāciju meklēšanas indeksam. Ja jūsu vietne netiek pārmeklēta, jūsu saturs netiks parādīts meklēšanas rezultātos.
Tīmekļa vietņu pārmeklēšana nav tikai vienreizējs pasākums - tā ir pastāvīga prakse aktīvām tīmekļa vietnēm. Roboti regulāri pārlūko vietnes, lai atrastu un pievienotu jaunas lapas meklēšanas indeksam, vienlaikus atjauninot informāciju par esošajām lapām.
Lai gan lielākā daļa rāpotāju ir saistīti ar meklētājprogrammām, ir arī cita veida rāpotāji. Piemēram, Ranktracker Site Audit robots var palīdzēt jums noskaidrot, kas nav kārtībā ar jūsu vietni no SEO viedokļa.
Kā darbojas rāpuļi?
Īsāk sakot, tīmekļa pārlūks, piemēram, Google robots, atklās jūsu vietnes URL, izmantojot vietņu kartes, saites un manuālos iesniegumus, izmantojot Google meklēšanas konsolu. Pēc tam tas sekos "atļautajām" saitēm šajās lapās.
Tas tiek darīts, ievērojot robots.txt noteikumus, kā arī visus "nofollow" atribūtus saitēs un atsevišķās lapās.
Dažām vietnēm - tām, kurās ir vairāk nekā 1 miljons regulāri atjauninātu lapu vai kurās ir 10 tūkstoši lapu ar saturu, kas mainās katru dienu, - var būt ierobežots "pārlūkošanas budžets". Tas attiecas uz laiku un resursiem, ko robots var veltīt vietnei vienas sesijas laikā.
Pārmeklēšanas prioritātes
Tā kā pārlūkošanas budžetu kapacitāte ir ierobežota, pārlūkošanas rīki darbojas, izmantojot pārlūkošanas prioritāšu kopumu. Piemēram, Googlebot ņem vērā:
- URL adresāta PageRank
- Cik bieži tiek atjaunināta(-as) lapa(-as)
- Vai lapa ir vai nav jauna
Šādā veidā pārlūks var koncentrēties uz svarīgāko vietnes lapu pārlūkošanu vispirms.
Mobilā un darbvirsmas pārlūka versijas
Googlebot ir divas galvenās versijas: Googlebot Desktop un Googlebot Smartphone. Mūsdienās Google izmanto indeksēšanu, kas orientēta uz mobilajām ierīcēm, un tas nozīmē, ka tā viedtālruņa aģents ir galvenais Googlebots, kas tiek izmantots lapu pārlūkošanai un indeksēšanai.
Šiem dažādiem pārlūkošanas rīku veidiem var tikt piedāvātas dažādas vietnes versijas. Tehniski robots identificē sevi tīmekļa serverim, izmantojot HTTP pieprasījuma galveni User-Agent (lietotāja aģents) un unikālu identifikatoru.
Labākā prakse, lai izveidotu ērtu un ērtu tīmekļa vietni
Lai nodrošinātu, ka jūsu vietne ir gatava pārlūkošanai, mēs iesakām veikt vairākus soļus. Ievērojiet tos, lai jūsu galvenajām lapām būtu vislabākās iespējas indeksēties un ierindoties.
1. Pārbaudiet savu Robots.txt failu
Robots.txt fails ir jūsu vietnes fails, kas sazinās ar šiem robotiem, izmantojot vairākas rāpošanas rīku direktīvas. Pārliecinieties, ka tas neaizliedz labajiem robotiem piekļuvi lapām vai sadaļām, kuras vēlaties indeksēt. Izmantojiet tādus rīkus kā Google robots.txt testeris, lai pārbaudītu, vai nav pie ļautas kļūdas.
2. Sniegt vietņu kartes
Sites kartes iesniegšana ir ļoti svarīgs solis. Vietnes kartē ir uzskaitītas visas jūsu vietnes lapas, kuras vēlaties indeksēt. Google meklēšanas konsolē varat iesniegt vietnes karti sadaļā Indekss > Vietnes kartes. Šis process ir līdzīgs arī citās meklētājprogrammās, piemēram, Bing Webmaster Tools.
3. Pārdomāti izmantojiet Rīkotāja direktīvas
Faili robots.txt izmanto direktīvas, lai norādītu, kuras lapas ir atļauts vai aizliegts pārmeklēt. Ir svarīgi atļaut pārlūkot svarīgas vietnes navigācijas lapas. Jebkuras lapas līmeņa direktīvas netiks pamanītas, ja robots.txt failā būs aizliegts pārmeklēt saturu.
4. Nodrošiniet iekšējās saites starp lapām
Iekšējā sasaiste palīdz meklētājprogrammām saprast, par ko ir katra lapa, un palīdz pārlūkiem vispirms atklāt lapas. Iekšējās saites arī palīdz veidot PageRank plūsmu visā vietnē.
5. Samaziniet 4xx un nevajadzīgu pāradresāciju skaitu
4xx kļūdas rāpu meklētājam signalizē, ka saturs šajā URL adresē neeksistē. Izmantojiet tādus rīkus kā Ranktracker Site Audit, lai labotu šīs lapas, vai iestatiet pāradresāciju uz reālu lapu. Novērsiet arī nevajadzīgus novirzienus un novirzīšanas ķēdes, lai nodrošinātu netraucētu pārlūkošanu.
6. Izmantojiet Ranktracker Site Audit, lai atrastu pārlūkojamības un indeksējamības problēmas
Ranktracker Site Audit rīks var palīdzēt, pārbaudot visas neindeksificētās lapas un nesekojošās saites jūsu vietnē. Tas var atklāt visas bojātās lapas vai pārmērīgas novirzīšanas, tostarp novirzīšanas ķēdes vai cilpas, kā arī norādīt uz visām bāreņu lapām.
Biežāk uzdotie jautājumi
Vai pārlūkošana un indeksēšana ir viens un tas pats?
Nē. Pārmeklēšana ir publiski pieejamu tīmekļa lapu un cita satura atklāšanas process. Indeksēšana attiecas uz meklētājprogrammām, kas analizē šīs lapas un saglabā tās savā meklēšanas indeksā.
Kādi ir aktīvākie kāpurķēžu lietotāji?
Populārākie meklētājprogrammu pārlūkošanas rīki ir Googlebot, Bingbot, Yandex Bot un Baidu Spider. Lai iegūtu sīkāku informāciju, skatiet šo Imperva Bot datplūsmas pētījumu. Interesanti, ka AhrefsBot, kas nodrošina visu saišu datubāzi, ir otrais aktīvākais rāpotājs pēc Googlebot.
Vai rāpuļi kaitē manai vietnei?
Lai gan vairums rāpotāju nenodara kaitējumu jūsu vietnei, ir slikti rāpotāji, kas to var nodarīt. Ļaunprātīgi pārlūki var aizņemt jūsu joslas platumu, izraisot lapu darbības palēnināšanos, un var mēģināt nozagt datus vai noplūkt saturu no jūsu vietnes.