Robots.txt nedir?
Bir robots.txt dosyası, arama motoru botları gibi web tarayıcılarının bir web sitesindeki belirli URL'lere erişmesini kısıtlar. Bazı web tarayıcılarının tarama hızını ayarlamak için de kullanılabilir.
Tüm "iyi" web tarayıcıları robots.txt dosyasında belirtilen kurallara uyar. Ancak, genellikle kazıma amacıyla kullanılan ve robots.txt dosyasını tamamen göz ardı eden "kötü" kayıtsız tarayıcılar vardır.
Robots.txt dosyası, bir web sitesine gelen tarayıcı trafiğini azaltmak/optimize etmek için kullanılmalıdır ve web sayfalarının dizine eklenmesini kontrol etmek için kullanılmamalıdır. Bir URL robots.txt'de izin verilmemiş olsa bile, harici bir bağlantı aracılığıyla keşfedilirse Google tarafından dizine eklenebilir.
Robots.txt Sözdizimi
Robots.txt dosyasının sözdizimi aşağıdaki alanları içerir:
- user-agent: kuralların uygulandığı tarayıcı
- disallow: taranmaması gereken bir yol
- allow: taranabilecek bir yol (isteğe bağlı)
- sitemap: site haritası dosyasının konumu (isteğe bağlı)
- crawl-delay: tarama hızını kontrol eder (isteğe bağlıdır ve GoogleBot tarafından desteklenmez)
İşte bir örnek:
Kullanıcı aracısı: RanktrackerSiteAudit Disallow: /resources/ Allow: /resources/images/ Crawl-delay: 2 Site Haritası: https://example.com/sitemap.xml
Bu robots.txt dosyası RanktrackerSiteAudit tarayıcısına "/resources/" dizinindeki URL'leri "/resources/images/" dizinindekiler hariç taramaması talimatını verir ve istekler arasındaki gecikmeyi 2 saniye olarak ayarlar.
Robots.txt Dosyası Neden Önemlidir?
Robots.txt dosyası önemlidir, çünkü web yöneticilerinin web sitelerindeki tarayıcıların davranışlarını kontrol etmelerini, tarama bütçesini optimize etmelerini ve genel erişim için tasarlanmamış web sitesi bölümlerinin taranmasını kısıtlamalarını sağlar.
Birçok web sitesi sahibi, yazar sayfaları, giriş sayfaları veya üyelik sitesi içindeki sayfalar gibi belirli sayfaları indekslememeyi tercih eder. Ayrıca, PDF'ler veya videolar gibi erişmek için e-posta ile katılım gerektiren kapılı kaynakların taranmasını ve dizine eklenmesini de engelleyebilirler.
WordPress gibi bir CMS kullanıyorsanız, /wp-admin/
giriş sayfasının tarayıcılar tarafından dizine eklenmesinin otomatik olarak engellendiğini belirtmek gerekir.
Ancak, Google'ın sayfaların dizine eklenmesini kontrol etmek için yalnızca robots.txt dosyasına güvenilmesini önermediğini unutmamak önemlidir. Bir sayfada "noindex" etiketi eklemek gibi değişiklikler yapıyorsanız, sayfanın robots.txt dosyasında izin verilmediğinden emin olun. Aksi takdirde Googlebot sayfayı okuyamaz ve dizinini zamanında güncelleyemez.
SSS
Bir robots.txt dosyam yoksa ne olur?
Çoğu site kesinlikle bir robots.txt dosyası gerektirmez. Bir robots.txt dosyasın ın amacı, arama botlarına belirli talimatları iletmektir, ancak daha küçük bir web siteniz varsa veya arama tarayıcılarından engellemeniz gereken çok fazla sayfa yoksa bu gerekli olmayabilir.
Bununla birlikte, bir robots.txt dosyası oluşturmanın ve web sitenizde canlı olarak bulundurmanın da bir dezavantajı yoktur. Bu, ileride ihtiyaç duymanız halinde yönerge eklemenizi kolaylaştıracaktır.
Robots.txt kullanarak bir sayfayı arama motorlarından gizleyebilir miyim?
Evet. Sayfaları arama motorlarından gizlemek robots.txt dosyasının birincil işlevlerinden biridir. Bunu disallow parametresi ve engellemek istediğiniz URL ile yapabilirsiniz.
Ancak, robots.txt dosyasını kullanarak bir URL'yi Googlebot'tan gizlemenin dizine eklenmeyeceğini garanti etmediğini unutmamak önemlidir. Bazı durumlarda, URL'nin metni, harici bağlantılarda kullanılan bağlantı metni ve URL'nin keşfedildiği harici sayfanın bağlamı gibi faktörlere bağlı olarak bir URL yine de dizine eklenebilir.
Robots.txt dosyamı nasıl test edebilirim?
Google Search Console'daki robots.txt test aracını veya Merkle gibi harici doğrulayıcıları kullanarak robots.txt dosyanızı doğrulayabilir ve talimatların belirli URL'lerde nasıl çalıştığını test edebilirsiniz.