Mengenal Robot.txt dan cara Setting yang Benar

Sebagian blogger mungkin sudah mengenal apa itu robots.txt dan bagaimana cara setting yang benar yang telah bertebaran di dunia maya. Secara detail saya akan membahas kembali secara lengkap. Apa sebenarnya robots.txt? apakah perlu di setting? bagaimana kalau saya biarkan saja? mungkin masih banyak pertanyaan lain yang perlu anda ketahui.

Untuk lebih memahami pengertian dan cara kerja robots.txt, supaya anda lebih mengerti, akan saya buat sebuah soal tanya jawab yang akan lebih mudah anda pahami.

Apa sebenarnya robots.txt?

Robots.txt adalah perintah bagi robot mesin pencarian web/blog untuk menelusuri atau tidak menelusuri halaman pada blog yang kita olah. Boleh dikatakan robots.txt adalah filter blog kita dari mesin pencarian.

Apakah setiap blog mempunyai robots.txt?

Semua blog sudah mempunyai robots.txt yang diberikan secara default oleh blogger. Secara default robots.txt pada blog akan tampak seperti ini:

User-agent: Mediapartners-Google
Disallow: 
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://your_blog_NAME/feeds/posts/default?orderby=UPDATED

Untuk melihat robots.txt secara default, silahkan ketik dengan http://your_blog_NAME.blogspot.com/robots.txt

Bagaimana memahami Kode ini?

User-agent: Mediapartners-Google - Robot Google Adsense merayapi blog kita.

Disallow: - Tidak diperbolehkan/mematikan.

User-agent: * - Semua Robot Search Engine dan termasuk mesin pencarian.

Disallow: /search - Tidak diperbolehkan merayapi folder search dan seterusnya, misalnya (/search/label) Atau (search/search?updated)

Allow: / - Mengizinkan semua halaman untuk dirayapi, kecuali yang tertulis pada Disallow di atas. Tanda (/) kurang lebih artinya nama blog.

Sitemap: http://your_blog_NAME/feeds/posts/default?orderby=UPDATED - SiteMap atau alamat feed blog kita.

Mengapa Label/Category tidak dimasukan ke dalam mesin pencarian?

Dengan penulisan kode default Disallow: /search, artinya perayapan untuk label seperti alamat http://your_blog_NAME.blogspot.com/search/label/NAMA LABEL, nantinya tidak akan dirayapi oleh mesin pencarian karena Label bukan URL yang real menuju satu halaman tertentu.

Bagaimana cara mencegah robot pada halaman tertentu?

Untuk mencegah google merayapi halaman tertentu di blog, misalnya blog tidak ingin halaman about me di index oleh mesin pencarian. Untuk URL about me pada blog misalnya: http://your_blog_NAME.blogspot.com/p/about.html

Maka untuk robots.txt, silahkan copy kode defaut di atas, dan tambahkan halaman yang tidak diperbolehkan, hasilnya akan seperti ini:

User-agent: Mediapartners-Google
Disallow: 
User-agent: *
Disallow: /search
Disallow: /p/about.html
Allow: /
Sitemap: http://your_blog_NAME/feeds/posts/default?orderby=UPDATED

Cara edit robots.txt?

Untuk menambahkan atau edit robots.txt, masuk ke Setelan >> Preferensi Penelusuran, pada Robots.txt klik Edit kemudian klik Ya, kemudian tulis kode robots.txt yang diinginkan >> Simpan Perubahan.

Saya tidak pernah setting robots.txt, dan harus bagaimana?

Tidak jadi masalah, blog tetap akan dirayapi oleh robot-robot mesin pencari karena seperti saya sebutkan sebelumnya, setiap blog sudah mempunyai robots.txt default.

Penting:

Hati-hati dengan penggunaan robots.txt, apabila salah penulisan bisa jadi blog diabaikan oleh mesin pencarian.