Mi az a Robots.txt?
A robots.txt fájl korlátozza a webes lánctalpasok, például a keresőmotorok botjai számára, hogy hozzáférjenek a weboldal bizonyos URL-címeihez. Arra is használható, hogy beállítsa egyes webes lánctalpasok lánctalálási sebességét.
Minden "jó" webkúszó betartja a robots.txt fájlban meghatározott szabályokat. Vannak azonban "rossz", nem regisztrált lánctalpasok, amelyeket gyakran kaparási célokra használnak, és amelyek teljesen figyelmen kívül hagyják a robots.txt fájlt.
A robots.txt fájlt arra kell használni, hogy csökkentse/optimalizálja a lánctalpasok forgalmát a weboldalon, és nem szabad a weboldalak indexelésének ellenőrzésére használni. Még ha egy URL-cím a robots.txt fájlban le is van tiltva, a Google akkor is indexelheti, ha egy külső hivatkozáson keresztül fedezik fel.
A Robots.txt szintaxisa
A robots.txt fájl szintaxisa a következő mezőket tartalmazza:
- user-agent: a lánctalpas, akire a szabályok vonatkoznak
- disallow: olyan útvonal, amelyet nem szabad feltérképezni
- allow: egy olyan útvonal, amely feltérképezhető (opcionális)
- sitemap: a sitemap fájl helye (opcionális)
- crawl-delay: szabályozza a lánctalálási sebességet (opcionális és a GoogleBot nem támogatja)
Íme egy példa:
Felhasználó-ügynök: RanktrackerSiteAudit Disallow: /Allow: /resources/images/ Crawl-delay: 2 Sitemap: https://example.com/sitemap.xml
Ez a robots.txt fájl utasítja a RanktrackerSiteAudit crawlerét, hogy a "/resources/" könyvtárban található URL-eket ne kutassa fel, kivéve a "/resources/images/" könyvtárban találhatóakat, és a kérések közötti késleltetést 2 másodpercre állítja be.
Miért fontos a Robots.txt fájl?
A robots.txt fájl azért fontos, mert lehetővé teszi a webmesterek számára, hogy szabályozzák a lánctalpasok viselkedését a webhelyeiken, optimalizálják a lánctalpas költségvetésüket, és korlátozzák a webhely nem nyilvános hozzáférésre szánt részeinek lánctalálását.
Sok weboldal-tulajdonos úgy dönt, hogy bizonyos oldalakat, például a szerzői oldalakat, bejelentkezési oldalakat vagy a tagsági oldalakon belüli oldalakat nem indexeli. Blokkolhatják az olyan zárt erőforrások, például PDF-ek vagy videók feltérképezését és indexelését is, amelyekhez a hozzáféréshez e-mailes bejelentkezés szükséges.
Érdemes megjegyezni, hogy ha olyan CMS-t használsz, mint a WordPress, a /wp-admin/
bejelentkezési oldal automatikusan blokkolva van a lánctalpasok általi indexeléstől.
Fontos azonban megjegyezni, hogy a Google nem ajánlja, hogy kizárólag a robots.txt fájlra hagyatkozzon az oldalak indexelésének ellenőrzésére. Ha pedig változtatásokat hajt végre egy oldalon, például "noindex" címkét ad hozzá, győződjön meg róla, hogy az oldal nincs tiltva a robots.txt fájlban. Ellenkező esetben a Googlebot nem fogja tudni elolvasni és időben frissíteni az indexét.
GYIK
Mi történik, ha nincs robots.txt fájlom?
A legtöbb webhely nem feltétlenül igényel robots.txt fájlt. A robots.txt fájl célja, hogy konkrét utasításokat közöljön a keresőrobotokkal, de erre nem feltétlenül van szükség, ha kisebb webhelye van, vagy ha nincs sok olyan oldala, amelyet el kell zárnia a keresőrobotok elől.
Ezzel együtt nincs hátránya annak sem, ha létrehoz egy robots.txt fájlt, és azt a weboldalán élesíti. Ez megkönnyíti a direktívák hozzáadását, ha a jövőben szükség lesz rá.
Elrejthetek egy oldalt a keresőmotorok elől a robots.txt használatával?
Igen. Az oldalak elrejtése a keresőmotorok elől a robots.txt fájl egyik elsődleges funkciója. Ezt a disallow paraméterrel és a blokkolni kívánt URL-címmel teheti meg.
Fontos azonban megjegyezni, hogy egy URL-cím egyszerű elrejtése a Googlebot elől a robots.txt fájl segítségével nem garantálja, hogy az nem lesz indexelve. Bizonyos esetekben egy URL még mindig indexelhető olyan tényezők alapján, mint például maga az URL szövege, a külső linkekben használt horgonyzó szöveg, valamint annak a külső oldalnak a kontextusa, ahol az URL-t felfedezték.
Hogyan tesztelhetem a robots.txt fájlomat?
A Google Search Console robots.txt tesztelőjének segítségével vagy külső validátorok, például a Merkle által kínált validátor segítségével ellenőrizheti a robots.txt fájlt, és tesztelheti, hogy az utasítások hogyan működnek bizonyos URL-címeken.