Giriş
Robots Exclusion Protocol (REP), robotlara talimat vermek için kullanılan bir Webmaster dosyasıdır. Talimatlar, robotların web sayfalarını taramasına ve çeşitli web siteleri için dizine eklemesine yardımcı olur. Bu REP bazen Robots.txt olarak da adlandırılır. En kullanışlı olması için web sunucusu dizininin en üst seviyesine yerleştirilirler. Örneğin: https://www.123abc.com/robots.txt
REP grupları, bot eylemlerini ve arama motoru indeksleme davranışını düzenleyen bir web standardı olarak kullanılır. 1994 ve 1997 yılları arasında orijinal REP, robots.txt için bot davranışını tanımladı. 1996 yılında, arama motorları ek REP X-robot etiketlerini destekledi. Arama motorları, rel-no follow mikroformatını kullanarak değerin bir "follow" i çerdiği bağlantıları işledi.
Robot Hile Sayfası
Web Tarayıcılarını Tamamen Engellemek İçin
Kullanıcı aracısı: *
İzin verme: /
Belirli web tarayıcılarını bir hedef klasörden engellemek için
Kullanıcı aracısı: Googlebot
İzin verme: /no-google/
Hedef web sayfasından belirli web tarayıcılarını engellemek için
Kullanıcı aracısı: Googlebot
İzin verme: /no-google/blocked-page.html
Kullanıcı aracısı: *
İzin verme:
Site Haritası: https://www.123abc.com/none-standard-location/sitemap.xml
Dışlamaya Özel Robot Protokolü Etiketleri
URI, REP etiketleri belirli indeksleyici görevlerine ve bazı durumlarda nosnippet, noarchive ve noodpquery motorlarına veya bir arama sorgusuna uygulanır. Dışlama etiketleri ile etiketlenmiş kaynaklar, Bing SERP listeleri gibi arama motorları bu harici bağlantıları yasaklı URL'ler olarak gösterir. Tarayıcı direktiflerinin yanı sıra belirli arama motorları REP etiketlerini farklı şekilde yorumlayacaktır. Bunun bir örneği, Bing'in bazen SERP'lerinde dış referansları nasıl yasak olarak listelediğinde görülebilir. Google aynı listeleri alır ve SERP'lerindeki URL ve ODP referanslarını siler. X-Robotların META öğeleriyle çakışan yönergeleri geçersiz kılacağı düşünülmektedir.
Mikroformatlar
Belirli HTML faktörleri, mikro biçimli dizin yönergelerindeki sayfa ayarlarını geçersiz kılacaktır. Bu programlama yöntemi beceri ve web sunucuları ile HTTP protokolünü çok iyi kavramayı gerektirir. Bu protokolün bir örneği, belirli bir öğe bağlantısına sahip X-Robot etiketlerinden oluşan ve önce follow sonra rel-nofollow diyen bir sayfa olabilir. Robots.txt dizinleyicileri genellikle yönergelerden yoksundur, ancak site düzeyinde taraflı komut dosyalarına sahip bir sunucusu olan URI'lerin grup dizinleyicilerini ayarlamak mümkündür.
Desen Eşleştirme
Web yöneticileri, sayfa hariç tutmayı belirtmek için hala iki ayrı ifade kullanabilir. Bu iki karakter yıldız ve dolar işaretidir. Yıldız işareti, herhangi bir karakter kombinasyonunu temsil edebileceğini belirtir. Dolar işareti URL'nin sonunu belirtmek içindir.
Kısıtlanmamış Bilgiler
Robot dosyaları her zaman herkese açıktır, bu nedenle bir web sayfasına eklenmiş bir robot dosyasını herkesin görüntüleyebileceğinin farkında olmak önemlidir. Webmaster'ın motorları sunucu üzerinde nereden engellediği de erişilebilir bir bilgidir. Bu herkese açık dosyalar, özel bireysel verileri içerebilecek özel kullanıcı verilerine erişim sağlar. Ziyaretçilerin ve diğerlerinin indekslenmemesi gereken gizli sayfaları görüntülemesini engellemek için şifre koruması eklemek mümkündür.
Ek Kurallar
- index ve follow komutu gibi basit meta robot parametreleri sadece sayfanın indekslenmesini ve taranmasını önlemek için kullanılmalıdır.
- Tehlikeli botlar bu komutları kesinlikle görmezden gelecektir ve bu nedenle işe yaramaz bir güvenlik planıdır.
- Her URL için yalnızca bir "disallow" satırına izin verilir.
- Her alt alan adı için ayrı robot dosyaları gereklidir
- Botlar için dosya adları büyük/küçük harfe duyarlıdır
- Aralıklar arama parametrelerini ayırmıyor
En İyi SEO Taktikleri: Robot.txt
Sayfa Engelleme - bir arama motorunun bir web sayfasını veya alan adını indekslemesini ve erişmesini engellemenin birkaç yolu vardır.
Sayfaları Engellemek için Robotları Kullanma
Bu dışlama, arama motoruna sayfayı taramamasını söyler, ancak yine de SERP listelerinde göstermek için sayfayı dizine ekleyebilir.
Dizin Sayfası Engellemesi Yok
Bu dışlama yöntemi, arama motorlarına sayfayı ziyaret etmelerine izin verildiğini, ancak URL'yi görüntülemelerine veya sayfayı dizine kaydetmelerine izin verilemeyeceğini söyler. Bu tercih edilen dışlama yöntemidir.
Sayfaları Engellemek için Aşağıdaki Bağlantı Yok
Bu desteklenen bir taktik değildir. Arama motorları bu komutla sayfalara erişmeye devam edebilir. Arama motoru sayfayı doğrudan takip edemese bile, tarayıcı analizlerini veya diğer bağlantılı sayfaları kullanarak içeriğe erişebilir.
Meta Robotlar vs. Robots.txt
Bir web sitesinin robots.txt dosyasının bir örneği, programın sürecini netleştirmeye yardımcı olabilir. Örnekte robot dosyası dizini engelliyor. Söz konusu URL Google'da arandığında, dizinde 2760 sayfaya izin verilmediği görülmektedir. Örnekte, motor URL'leri taramamıştır, bu nedenle geleneksel listelemeler gibi görünmeyeceklerdir. Bu sayfalar, kendilerine bağlantı eklendiğinde bağlantı suyu biriktirecektir. Sıralama güçlerine ek olarak, aramalarda göründükleri için popülerlik ve güven de kazanmaya başlayacaklar. Sayfalar taranmadığı için siteye bir fayda sağlayamaz. Bu sorunu çözmenin ve bir sayfanın sıralama gücünü boşa harcamamanın en iyi yolu, sayfaları tek tek kaldırmak için başka bir dışlama yöntemi kullanmaktır. Kodlama şu şekilde görünecektir: meta etiketi bu yöntem önceki yöntemden daha iyi performans sergileyecektir.