Mi az a Crawler?
A crawler egy olyan internetes program, amelyet az internet szisztematikus böngészésére terveztek. A lánctalpasokat leggyakrabban arra használják, hogy a keresőmotorok felfedezzék és feldolgozzák az oldalakat, hogy indexeljék és megjelenítsék azokat a keresési eredményekben.
A HTML-t feldolgozó lánctalpasok mellett néhány speciális lánctalpas programot használnak képek és videók indexelésére is.
A való világban a világ vezető keresőmotorjai által használt webkúszókat kell ismerni: Googlebot, Bingbot, Yandex Bot és Baidu Spider.
Jó vs. Rossz kúszók
Gondoljon egy jó lánctalpasra úgy, mint egy robotra, amely segítheti webhelyét, elsősorban azáltal, hogy hozzáadja tartalmát a keresési indexhez, vagy segít a webhely auditálásában. A jó lánctalpas program további jellemzői közé tartozik, hogy azonosítja magát, követi az Ön utasításait, és úgy állítja be a lánctalálási sebességét, hogy ne terhelje túl a szerverét.
A rossz lánctalpas egy olyan robot, amely nem nyújt hozzáadott értéket a webhely tulajdonosának, és rosszindulatú szándékkal is rendelkezhet. A rossz lánctalpasok elmulaszthatják azonosítani magukat, megkerülhetik az Ön utasításait, felesleges terhelést okozhatnak a szervereken, és akár tartalmat és adatokat is ellophatnak.
A lánctalpasok típusai
A lánctalpasoknak két fő típusa van:
- Folyamatosan kúszó botok: Ezek a bots a nap 24 órájában új oldalakat fedeznek fel, és a régebbieket újra feltérképezik (pl. Googlebot).
- On-demand botok: Ezek korlátozott számú oldalt vizsgálnak át, és csak kérésre végeznek átvizsgálást (pl. Ranktracker Site Audit bot).
Miért fontos a weboldal feltérképezése?
A keresőmotorok lánctalpasainak elsődleges célja, hogy kiderítsék, mi található a weboldalán, és ezt az információt hozzáadják a keresőindexhez. Ha webhelyét nem láncolják fel, akkor tartalma nem jelenik meg a keresési eredményekben.
A webhelyek feltérképezése nem csak egyszeri esemény - az aktív webhelyek esetében folyamatos gyakorlat. A robotok rendszeresen újra feltérképezik a webhelyeket, hogy új oldalakat találjanak és adjanak hozzá a keresési indexhez, miközben frissítik a meglévő oldalakra vonatkozó információkat.
Bár a legtöbb lánctalpas program a keresőmotorokhoz kapcsolódik, más típusú lánctalpas programok is léteznek. A Ranktracker Site Audit bot például segíthet megnézni, hogy mi a baj a webhelyével a SEO szempontjából.
Hogyan működnek a lánctalpasok?
Dióhéjban, egy webkúszó, mint például a Googlebot felfedezi a weboldal URL-címeit a sitemapok, linkek és a Google Search Console-on keresztül történő kézi bejegyzések segítségével. Ezután követni fogja az "engedélyezett" linkeket ezeken az oldalakon.
Mindezt a robots.txt szabályok, valamint a linkeken és az egyes oldalakon található "nofollow" attribútumok tiszteletben tartása mellett teszi.
Egyes weboldalak - azok, amelyek több mint 1 millió oldallal rendelkeznek, amelyeket rendszeresen frissítenek, vagy azok, amelyek 10 ezer oldalnyi tartalmat tartalmaznak, és naponta változnak - korlátozott "feltérképezési költségvetéssel" rendelkezhetnek. Ez arra az idő- és erőforrás-mennyiségre utal, amelyet a robot egy munkamenetben egy webhelyre fordíthat.
Crawl prioritások
A lánctalálási költségvetések korlátozott kapacitása miatt a lánctalálók a lánctalálási prioritások alapján működnek. A Googlebot például a következőket veszi figyelembe:
- Az URL oldalrangja
- Milyen gyakran frissül(nek) az oldal(ak)
- Az oldal új-e vagy sem
Ily módon a lánctalpas program először a webhely legfontosabb oldalainak feltérképezésére összpontosíthat.
Mobil vs. asztali Crawler verziók
A Googlebotnak két fő változata van: Googlebot Desktop és Googlebot Smartphone. Manapság a Google a mobil-első indexelést alkalmazza, ami azt jelenti, hogy az okostelefonos ügynök az elsődleges Googlebot, amelyet az oldalak feltérképezésére és indexelésére használnak.
A weboldal különböző változatai megjeleníthetők a különböző típusú lánctalpasok számára. Technikailag a robot a HTTP-kérelem User-Agent fejlécével és egy egyedi azonosítóval azonosítja magát a webkiszolgálóval szemben.
A legjobb gyakorlatok a csúszómászó-barát weboldalhoz
Ahhoz, hogy webhelye készen álljon a feltérképezésre, több lépést is ajánlunk. Kövesse őket, hogy a legfontosabb oldalai a legjobb esélyt kapják az indexelésre és a rangsorolásra.
1. Ellenőrizze a Robots.txt fájlt
A robots.txt fájl az a fájl a webhelyén, amely a lánctalpasok irányelveinek segítségével kommunikál ezekkel a botokkal. Győződjön meg róla, hogy ez nem tiltja meg a jó botok számára, hogy olyan oldalakat vagy részeket látogassanak meg, amelyeket indexelni szeretne. A hibák ellenőrzéséhez használjon olyan eszközöket, mint a Google robots.txt tesztelője.
2. Sitemapok beküldése
Az oldaltérkép beküldése kritikus lépés. Az oldaltérkép felsorolja weboldalának minden olyan oldalát, amelyet indexelni szeretne. A Google Search Console-ban az Oldaltérképet az Index > Oldaltérképek menüpontban küldheti be. Ez a folyamat más keresőmotorok, például a Bing Webmaster Tools esetében is hasonló.
3. Használja okosan a lánctalpas irányelveket
A robots.txt fájl direktívák segítségével mondja meg a lánctalpasoknak, hogy mely oldalakat szabad vagy nem szabad láncolni. Fontos, hogy engedélyezze a webhelye navigációjában található fontos oldalak feltérképezését. Az oldalszintű irányelvek nem lesznek láthatóak, ha a robots.txt fájlban a tartalom feltérképezése nem engedélyezett.
4. Belső linkek biztosítása az oldalak között
A belső hivatkozás segít a keresőmotoroknak megérteni, hogy az egyes oldalak miről szólnak, és segíti a lánctalpasokat abban, hogy egyáltalán felfedezzék az oldalakat. A belső hivatkozások azt is segítik, hogy a PageRank hogyan áramlik a webhelyen.
5. 4xx-ek és felesleges átirányítások csökkentése
A 4xx hibák azt jelzik a lánctalpasoknak, hogy a tartalom az adott URL-címen nem létezik. Használjon olyan eszközöket, mint a Ranktracker Site Audit, hogy kijavítsa ezeket az oldalakat, vagy állítson be átirányítást egy élő oldalra. A zökkenőmentes lánctalpas feltérképezés érdekében szüntesse meg a felesleges átirányításokat és átirányítási láncokat is.
6. Használja a Ranktracker Site Auditot a feltérképezhetőségi és indexálhatósági problémák megtalálásához
A Ranktracker Site Audit eszköz segíthet az összes indexeletlen oldal és a nem követett linkek ellenőrzésével. Felfedezhet bármilyen törött oldalt vagy túlzott átirányítást, beleértve az átirányítási láncokat vagy hurkokat, és rámutathat az árva oldalakra.
GYIK
A kúszás és az indexelés ugyanaz?
Nem. A kúszás a nyilvánosan elérhető weboldalak és egyéb tartalmak feltárásának folyamatát jelenti. Az indexelés arra utal, hogy a keresőmotorok elemzik ezeket az oldalakat és tárolják azokat a keresőindexükben.
Melyek a legaktívabb lánctalpasok?
A legnépszerűbb keresőmotor-lánctalpasok közé tartozik a Googlebot, a Bingbot, a Yandex Bot és a Baidu Spider. További részletekért nézze meg ezt az Imperva Bot Traffic tanulmányt. Érdekes módon a Googlebot után a második legaktívabb lánctalpasnak az AhrefsBot bizonyult, amely a teljes linkadatbázist táplálja.
A lánctalpasok ártanak a weboldalamnak?
Míg a legtöbb lánctalpas nem okoz kárt a weboldalának, vannak rossz lánctalpasok, amelyek igen. A kártékony lánctalpasok lefoglalhatják a sávszélességet, ami az oldalak lassulását okozza, és megpróbálhatnak adatokat lopni vagy tartalmat lekaparni a webhelyéről.