Slovník SEO / Crawler

Crawler

Co je to Crawler?

Crawler je internetový program určený k systematickému procházení internetu. Crawlery se nejčastěji používají jako prostředek vyhledávačů k objevování a zpracování stránek pro jejich indexaci a zobrazení ve výsledcích vyhledávání.

Kromě crawlerů, které zpracovávají HTML, se některé speciální crawlery používají také k indexování obrázků a videí.

Ve skutečném světě je třeba znát hlavně webové vyhledávače, které používají přední světové vyhledávače: Googlebot, Bingbot, Yandex Bot a Baidu Spider.

Dobří a špatní lezci

Představte si dobrý crawler jako bota, který může pomoci vašemu webu, především tím, že přidá váš obsah do indexu vyhledávání nebo vám pomůže s auditem webu. Dalšími znaky dobrého crawleru je, že se sám identifikuje, řídí se vašimi pokyny a upravuje rychlost procházení tak, aby nepřetěžoval váš server.

Špatný crawler je bot, který majiteli webu nepřináší žádnou přidanou hodnotu a může mít nekalé úmysly. Špatné crawlery se mohou neidentifikovat, obcházet vaše pokyny, zbytečně zatěžovat servery a dokonce krást obsah a data.

Typy pásových vozidel

Existují dva hlavní typy crawlerů:

  1. Neustále prolézající roboti: Ty provádějí procházení 24 hodin denně, 7 dní v týdnu, aby objevily nové stránky a znovu procházely ty starší (např. Googlebot).
  2. Boti na vyžádání: Tyto boty procházejí omezený počet stránek a provádějí procházení pouze na vyžádání (např. bot Ranktracker Site Audit).

Proč je procházení webových stránek důležité?

Hlavním účelem vyhledávače je zjistit, co je na vašich webových stránkách, a přidat tyto informace do indexu vyhledávání. Pokud váš web není procházen, váš obsah se ve výsledcích vyhledávání nezobrazí.

Procházení webových stránek není jen jednorázová akce - u aktivních webových stránek se jedná o trvalou praxi. Boti pravidelně prohledávají webové stránky, aby našli a přidali nové stránky do indexu vyhledávání a zároveň aktualizovali informace o stávajících stránkách.

Většina crawlerů je spojena s vyhledávači, ale existují i jiné typy crawlerů. Například robot Ranktracker Site Audit vám pomůže zjistit, co je na vašem webu špatně z hlediska SEO.

Jak fungují crawlery?

Stručně řečeno, webový crawler, jako je Googlebot, objeví adresy URL na vašich webových stránkách prostřednictvím map stránek, odkazů a ručního odeslání prostřednictvím služby Google Search Console. Poté bude sledovat "povolené" odkazy na těchto stránkách.

Přitom respektuje pravidla souboru robots.txt a atributy "nofollow" na odkazech a jednotlivých stránkách.

Některé webové stránky - ty s více než 1 milionem stránek, které jsou pravidelně aktualizovány, nebo ty s 10 tisíci stránkami obsahu, který se denně mění - mohou mít omezený "rozpočet na procházení". Tím se rozumí množství času a prostředků, které může robot věnovat webové stránce během jedné relace.

Priority procházení

Vzhledem k omezené kapacitě rozpočtů na procházení pracují prolézací programy podle sady priorit procházení. Googlebot například zohledňuje následující:

  • PageRank adresy URL
  • Jak často jsou stránky aktualizovány
  • Zda je stránka nová, nebo ne

Tímto způsobem se může vyhledávač zaměřit na procházení nejdůležitějších stránek vašeho webu jako první.

Mobilní vs. desktopové verze prohlížeče Crawler

Googlebot má dvě hlavní verze: Googlebot Desktop a Googlebot Smartphone. V současné době Google používá indexování podle mobilních zařízení, což znamená, že jeho agent pro chytré telefony je primárním agentem Googlebot používaným pro procházení a indexování stránek.

Těmto různým typům procházení mohou být prezentovány různé verze webových stránek. Technicky se bot identifikuje webovému serveru pomocí hlavičky požadavku HTTP User-Agent spolu s jedinečným identifikátorem.

Osvědčené postupy pro webové stránky vhodné pro lezce

Chcete-li zajistit, aby byly vaše webové stránky připraveny na procházení, doporučujeme provést několik kroků. Postupujte podle nich, abyste klíčovým stránkám poskytli co nejlepší šanci na indexaci a umístění.

1. Zkontrolujte soubor Robots.txt

Soubor robots.txt je soubor na vašich webových stránkách, který komunikuje s těmito roboty pomocí řady směrnic pro roboty. Ujistěte se, že nebrání dobrým robotům v přístupu na stránky nebo do sekcí, které chcete indexovat. Ke kontrole chyb použijte nástroje, jako je tester robots.txt společnosti Google.

2. Odesílání map stránek

Odeslání mapy webu je důležitým krokem. Mapa stránek obsahuje seznam všech stránek vašeho webu, které chcete indexovat. V konzole Google Search Console můžete mapu stránek odeslat v části Index > Sitemaps. Tento proces je podobný i u jiných vyhledávačů, například u nástroje Bing Webmaster Tools.

3. Moudré používání směrnic pro crawler

Soubor robots.txt pomocí směrnic určuje, které stránky mají být procházeny a které ne. Je důležité povolit procházení důležitých stránek v navigaci webu. Jakékoli směrnice na úrovni stránek se nezobrazí, pokud je obsah v souboru robots.txt zakázán ke procházení.

4. Vnitřní odkazy mezi stránkami

Vnitřní propojení pomáhá vyhledávačům pochopit, o čem jednotlivé stránky jsou, a pomáhá vyhledávači stránky především objevit. Vnitřní odkazy také pomáhají utvářet tok PageRanku po celém webu.

5. Snížení počtu 4xx a zbytečných přesměrování

Chyby 4xx signalizují prohledávači, že obsah na dané adrese URL neexistuje. K opravě těchto stránek použijte nástroje jako Ranktracker Site Audit nebo nastavte přesměrování na živou stránku. Také odstraňte zbytečná přesměrování a řetězce přesměrování, abyste zajistili bezproblémové procházení.

6. Použití nástroje Ranktracker Site Audit k nalezení problémů s procházením a indexovatelností

Nástroj Ranktracker Site Audit vám pomůže zkontrolovat všechny neindexované stránky a nesledované odkazy na vašem webu. Může odhalit všechny nefunkční stránky nebo nadměrné přesměrování, včetně řetězců nebo smyček přesměrování, a upozornit na osiřelé stránky.

Nejčastější dotazy

Je procházení a indexování totéž?

Ne. Procházením se rozumí proces vyhledávání veřejně přístupných webových stránek a dalšího obsahu. Indexování znamená, že vyhledávače tyto stránky analyzují a ukládají je do svého vyhledávacího indexu.

Jaké jsou nejaktivnější prohlížeče?

Mezi nejoblíbenější vyhledávače patří Googlebot, Bingbot, Yandex Bot a Baidu Spider. Další podrobnosti najdete v této studii Imperva Bot Traffic. Zajímavé je, že AhrefsBot, který pohání celou databázi odkazů, byl zjištěn jako druhý nejaktivnější crawler po Googlebotovi.

Poškozují moje webové stránky crawlery?

Zatímco většina crawlerů nepředstavuje pro vaše webové stránky žádnou škodu, existují špatné crawlery, které mohou. Škodlivé crawlery mohou využívat šířku pásma, což způsobuje zpomalení stránek, a mohou se pokoušet krást data nebo vyškrabávat obsah z vašeho webu.

SEO pro místní firmy

Lidé už nevyhledávají místní podniky ve Zlatých stránkách. Používají Google. Naučte se, jak získat více zakázek z organického vyhledávání pomocí našich průvodců SEO pro místní firmy.

Začněte používat Ranktracker zdarma!

Zjistěte, co brání vašim webovým stránkám v hodnocení

Získejte bezplatný účetNebo se přihlaste pomocí svých přihlašovacích údajů
Začněte používat Ranktracker zdarma!