- Pengenalan dan Fungsi Perintah Robots.txt dan Pengaruhnya pada SEO, bagi yang belum baca, simak terlebih dahulu sebelum membaca bagian ini.
- Case Study dan Penggunaan Robots.txt pada Blogger, yang sedang sobat baca pada halaman ini
Case Study Robots.txt pada Blogger
Setelah sobat mengetahui beberapa hal mengenai perintah robots.txt, saya
akan coba presentasikan beberapa hal sebagai upaya melihat efektivitas penggunaan robots.txt pada Blogger.
Sebelumnya, perlu saya sampaikan bagi yang belum tahu, sobat dapat
mengakses fitur ini melalui dashboard > settings > search
preferences dan lihat bagian bawah pada custom robots.txt. (Note: Jangan
melakukan editing dahulu sebelum sobat tahu betul apa yang harus
dituliskan).
Sebagai latar belakang, robots.txt sudah terbuat secara otomatis;
mengandung perintah default yang sudah diset oleh Blogger. Sobat bisa
melihat robots.txt dengan mengakses Google Webmaster Tools, dan lihat
pada sub halaman "crawler access". Atau yang lebih mudah, lihat aja
langsung file nya dengan menambahkan nama file robots.txt di belakang url blog. http://blogmu.blogspot.com/robots.txt, contoh : http://buka-rahasia.blogspot.com/robots.txt. Secara default seperti ini baris-baris perintahnya:
User-agent: Mediapartners-GoogleDisallow:
User-agent: *Disallow: /searchAllow:
Sitemap: http://buka-rahasia.blogspot.com/feeds/posts/default?orderby=updated
Kelompok baris pertama adalah user agent milik adsense; digunakan
sebagai perintah untuk mengijinkan robot crawler adsense untuk
mengindeks website/blog. Fungsinya untuk mengetahui isi web/blog, agar
iklan yang ditampilkan lebih relevan, dan ini tidak sama/berkaitan
dengan crawler Google search engine. Bagi yang menggunakan adsense di
Blogger, tentun ini menguntungkan dan jangan dihapus. Terus bagi yang
menggunakan adsense di WordPress (self hosted, bukan yg gratisan
wordpress.com, itu mah ga boleh pasang iklan, hehe), Joomla, Drupal,
dll, tambahkan perintah ini untuk mempermudah crawler adsense.
Kelompok baris kedua adalah perintah untuk seluruh crawler SE. Kita lihat disitu ada /search, sebuah direktori yang berisi label Blogger, yang memang lebih baik tidak diindeks.
Dan kelompok baris ketiga adalah sitemap (feed yang ditambah perintah orderby, berisi list dari update-update terbaru), yg membantu mempercepat pengindeksan.
Kelompok baris kedua adalah perintah untuk seluruh crawler SE. Kita lihat disitu ada /search, sebuah direktori yang berisi label Blogger, yang memang lebih baik tidak diindeks.
Dan kelompok baris ketiga adalah sitemap (feed yang ditambah perintah orderby, berisi list dari update-update terbaru), yg membantu mempercepat pengindeksan.
Case study yang saya lakukan khusus pada label. Label menjadi
"halaman terlarang" untuk diindeks karena bukan merupakan halaman riil
dan dapat menyebabkan duplikasi, efeknya tentu tidak baik bagi SEO. Kasus ini juga terjadi pada halaman arsip (archive).
Method
1. Menggunakan rel=nofollow pada label.
Saya menghilangkan pelarangan terhadap indeks label ( /search), dan kembali menggunakan rel=nofollow pada label, seperti yang pernah saya sampaikan dulu.
2. Menghilangkan rel=nofollow pada label, dan kembali menggunakan
perintah pelarangan indeks label pada robots.txt 9mengembalikan pada
setting semula)
Setelah beberapa waktu dan setelah mendapatkan hasil dari metode
pertama, saya kembali menggunakan perintah pelarangan indeks label, dan
menghilangkan rel=nofollow label.
3. Menggunakan rel=nofollow label sekaligus pelarangan indeks pada robots.txt (Disallow: /search).
Setelah mendapatkan hasil dari cara kedua, saya menggunakan kedua perintah nofollow dan disallow pada robots.txt.
Results
Hasil dari ketiga metode percobaan tersebut cukup berbeda:
1. Dengan menggunakan rel=nofollow saja pada label, error yang muncul
pada Webmaster Tools masih saja ada, dari sekitar 90 error pada saat
crawling, pengurangannya tidak signifikan, hanya sekitar 10-15 saja
dalam waktu satu minggu, itupun tidak menghindarkan adanya halaman label
yang masih terindeks.
2. Dengan menggunakan pelarangan pada robots.txt, tanpa rel=nofollow,
pengurangan error crawl lumayan berkurang, dari sisa di atas (sekitar
65-80 label), sisanya sekitar 30-40 saja hanya kurang dari satu minggu.
3. Dan yang terakhir, dengan penggunaan keduanya, hasilnya jauh sangat
signifikan, hingga ini saya tulis hasilnya= 0! tidak ada lagi yang
menjadi masalah pada crawl errors pada Webmaster Tools, dan semuanya
hanya dalam waktu singkat.
Kesimpulan
Seperti yang sudah disampaikan dalam forum-forum webmaster dan oleh
search engine seperti Google sendiri, menggunakan robots.txt tidak serta
merta dapat langsung melarang indeks. Bahkan kadang-kadang, "suka-suka gue lah...," kata Google. Misalnya, sobat melarang satu halaman untuk diindeks, namun halaman tersebut punya backlink
banyak (backlink bisa dari halaman web sendiri/internal link, atau web
lain/external link), maka dia tetap akan ditampilkan dengan anchor text
sesuai dengan backlink yang diindeks Google. Nah dengan penggunaan dua
perintah sekaligus, setidaknya kita bisa menghilangkan sisa-sisa
backlink yang masih follow di halaman blog sendiri. Dengan
demikian, jika sobat mencantumkan link label di halaman tertentu, dan
dia follow, maka masih diperhitungkan oleh Google dan masuk pada crawl
error. Bahkan meskipun kita sudah menggunakan Disallow pada robot txt.
So, jika ingin label tidak diindeks, untuk memaksimalkan SEO, gunakan
juga rel=nofollow pada label.
Asumsi ini tentunya juga berlaku pada halaman-halaman lain dimana sobat
tidak ingin search engine mengindeksnya (arsip misalnya).
Cara Mengedit dan Mengisi Custom Robots.txt
a. Seperti yang sampaikan di atas, akses robots.txt editor melalui
dashboard > settings > search preferences > crawlers and
indexing > custom robots.txt, klik edit.
b. Kemudian klik yes, isikan perintah robots.txt sesuai dengan yang sobat inginkan, dan save.
Penting: Jika memang sobat tidak punya kebutuhan untuk
melarang indeks pada halaman tertentu, jangan melakukan apapun. Jika
ingin mengembalikan seperti semula (default robots.txt dari Blogger),
kembalikan dengan memilih "no" dan save.
Sebenarnya pelarangan indeks sangat penting, kita dapat mengontrol
halaman-halaman seperti label (ini sudah diset secara default), dan
arsip, yang jelas menyebabkan duplikasi konten. Jika sobat tidak nyaman
dengan menggunakan robots.txt untuk menghentikan indeks arsip, saya
sarankan menggunakan meta indeks/content untuk menghindari duplikasi karena arsip, caranya jauh lebih mudah.
Saya melihat penggunaan robots.txt yang digabung dengan beberapa cara lain, contohnya penggunaan rel=nofollow, cukup memberikan hasil pencarian berkualitas dan traffic yang jauh lebih tinggi. Dan saya harap juga demikian pada blog sobat.
Salam hangat.
0 Responses So Far:
Posting Komentar