Intro
Robots Exclusion Protocol (REP) adalah file Webmaster yang digunakan untuk menginstruksikan robot. Instruksi tersebut membantu robot merayapi halaman web dan mengindeksnya untuk berbagai situs web. REP ini kadang-kadang disebut sebagai Robots.txt. Mereka ditempatkan di tingkat atas direktori server web agar paling berguna. Sebagai contoh: https://www.123abc.com/robots.txt
kelompok REP digunakan sebagai standar web yang mengatur tindakan bot dan perilaku pengindeksan mesin pencari. Antara tahun 1994 dan 1997, REP asli mendefinisikan perilaku bot untuk robots.txt. Pada tahun 1996, mesin pencari mendukung tag REP X-robot tambahan. Mesin pencari menangani tautan di mana nilainya mengandung "follow" menggunakan microformat rel-no follow.
Lembar contekan robot
Untuk Memblokir crawler web secara total
Agen-pengguna: * Disallow: /
Untuk Memblokir crawler web tertentu dari folder target
Agen-pengguna: Googlebot Disallow: /no-google/
Untuk Memblokir crawler web tertentu dari halaman web target
Agen-pengguna: Googlebot Disallow: /no-google/blocked-page.html User-agent: * Disallow:
Sitemap: https://www.123abc.com/none-standard-location/sitemap.xml
Pengecualian Tag Protokol Robot Khusus
URI, tag REP diterapkan pada tugas pengindeks tertentu, dan dalam beberapa kasus nosnippet, noarchive dan noodpquery mesin atau kueri pencarian. Sumber daya yang ditandai dengan tag pengecualian, mesin telusur seperti daftar Bing SERP menunjukkan tautan eksternal ini sebagai URL terlarang. Selain arahan perayap, mesin pencari tertentu akan menafsirkan tag REP secara berbeda. Contoh dari hal ini dapat dilihat pada bagaimana Bing terkadang akan mencantumkan referensi luar pada SERP mereka sebagai terlarang. Google mengambil daftar yang sama dan menghapus URL dan referensi ODP pada SERP mereka. Pemikirannya adalah bahwa X-Robots akan mengesampingkan arahan yang bertentangan dengan elemen META.
Microformats
Faktor HTML tertentu akan mengesampingkan pengaturan halaman dalam arahan indeks berformat mikro. Metode pemrograman ini membutuhkan keterampilan dan pemahaman yang sangat tajam tentang server web dan protokol HTTP. Contoh dari protokol ini adalah halaman tag X-Robot dengan tautan elemen tertentu yang mengatakan follow kemudian rel-nofollow. Pengindeks Robots.txt biasanya tidak memiliki arahan, tetapi dimungkinkan untuk mengatur pengindeks kelompok URI yang memiliki server dengan skrip sisi pada tingkat situs.
Pencocokan Pola
Webmaster masih dapat menggunakan dua ekspresi terpisah untuk menunjukkan pengecualian halaman. Dua karakter tersebut adalah tanda bintang dan tanda dolar. Tanda bintang menunjukkan bahwa dapat mewakili kombinasi karakter apa pun. Tanda dolar adalah untuk menunjukkan akhir URL.
Informasi Tidak Terbatas
File robot selalu bersifat publik, jadi penting untuk menyadari bahwa siapa pun dapat melihat file robot yang dilampirkan ke halaman web. Ini juga merupakan informasi yang dapat diakses di mana Webmaster memblokir mesin dari pada server. File publik ini meninggalkan akses ke data pengguna pribadi yang dapat mencakup data pribadi individu. Dimungkinkan untuk menambahkan proteksi kata sandi untuk menjaga pengunjung dan orang lain agar tidak melihat halaman rahasia yang tidak boleh diindeks.
Aturan Tambahan
- Parameter meta robot sederhana seperti perintah index dan follow hanya boleh digunakan untuk mencegah pengindeksan dan perayapan halaman.
- Bot berbahaya pasti akan mengabaikan perintah-perintah ini dan karena itu merupakan rencana keamanan yang tidak berguna.
- Setiap URL hanya diperbolehkan satu baris "disallow".
- File robot terpisah diperlukan pada setiap subdomain
- Nama file untuk bot sensitif huruf besar-kecil
- Spasi tidak memisahkan parameter pencarian
Taktik SEO Teratas: Robot.txt
Pemblokiran Halaman - ada beberapa cara untuk mencegah mesin pencari mengindeks dan mengakses halaman web atau domain.
Menggunakan Robot untuk Memblokir halaman
Pengecualian ini memberi tahu mesin pencari untuk tidak merayapi halaman, tetapi mungkin masih mengindeks halaman untuk menampilkannya dalam daftar SERP.
Tidak ada Pemblokiran Halaman Indeks
Metode pengecualian ini memberi tahu mesin pencari bahwa mereka diizinkan untuk mengunjungi halaman, tetapi mereka tidak diizinkan untuk menampilkan URL atau menyimpan halaman untuk indeksnya. Ini adalah metode pengecualian yang lebih disukai.
Tidak Ada Tautan Berikut untuk Memblokir Halaman
Ini bukan taktik yang didukung. Mesin pencari masih bisa mengakses halaman dengan perintah ini. Bahkan jika mesin pencari tidak dapat secara langsung mengikuti halaman, mesin pencari dapat mengakses konten menggunakan analisis browser atau halaman tertaut lainnya.
Meta Robots vs Robots.txt
Contoh file robots.txt situs web dapat membantu memperjelas proses program. Dalam contoh tersebut, file robot memblokir direktori. Ketika URL tertentu dicari di Google, akan terlihat bahwa 2760 halaman telah dilarang dari direktori. Dalam contoh tersebut, mesin belum merayapi URL, sehingga tidak akan muncul seperti daftar tradisional. Halaman-halaman ini akan mengakumulasi jus tautan setelah mereka memiliki tautan yang melekat padanya. Selain kekuatan peringkat mereka, mereka juga akan mulai mendapatkan popularitas dan kepercayaan dari muncul dalam pencarian. Karena halaman-halaman tersebut tidak dapat bermanfaat bagi situs karena tidak dirayapi. Cara terbaik untuk memperbaiki masalah ini dan tidak menyia-nyiakan kekuatan peringkat pada halaman, adalah bijaksana untuk menggunakan metode pengecualian lain untuk menghapus masing-masing halaman. Pengkodean akan muncul sebagai: meta tag metode ini akan menunjukkan kinerja yang lebih baik daripada metode sebelumnya.