Sekitar lebih dari satu bulan yang lalu, Blogger memperkenalkan fitur search preferences, untuk mengatur berbagai setting optimasi SEO secara
on page. Salah satu yang paling penting adalah pengaturan/kostumisasi
robots.txt. Bukan berarti fitur lain dari search preferences tidak
penting, namun semuanya sudah dicover dengan hack yang jauh-jauh hari
sudah kita lakukan, yaitu dengan penggunaan meta tags, yang fungsinya sama dan sampai saat ini jauh lebih efektif.
Artikel ini terdiri dari dua bagian:
Artikel ini terdiri dari dua bagian:
- Pengenalan dan Fungsi Perintah Robots.txt, yang sedang sobat baca pada halaman ini, dan
- Case Study dan Penggunaan Robots.txt pada Blogger.
Introduction to Robots.txt Functions
Setelah hampir satu bulan mencoba, kini saatnya saya menyampaikan secuil
presentasi mengenai fitur custom robots.txt Blogger ini.
Sebelumnya, jika masih ada dari sobat yang masih kurang familiar dengan
robots.txt, akan saya berikan gambaran sedikit. Penggunaan robots.txt
adalah untuk memberikan informasi pada robot crawler - baik milik search
engine, aggregator, maupun robot-robot pengindeks yang lain - bahwa
suatu website, direktori, atau file/halaman web tertentu TIDAK BOLEH
diindeks. Sebagai contoh, sobat tidak ingin beberapa halaman blog (misal
about, sitemap, label, dll) diindeks oleh search engine, maka sobat
dapat menggunakan perintah \pada robots.txt agar beberapa halaman
tersebut tidak diindeks. Maka sebenarnya penggunaan awal dari robots.txt
adalah untuk melarang, DISALLOW, baru kemudian pada perkembangannya ada
perintah mengijinkan, ALLOW.
Sebelum ada fitur robots.txt, kita menggunakan meta indeks untuk mengatur ini (noindex, nofollow). Namun setelah fitur custom robots.txt blogger diperkenalkan, kita dapat dengan mudah mengontrol pengindeks-an.
Robots.txt pada dasarnya berisi dua baris perintah, yang pertama adalah
identitas user agent (crawler, robot perayap), dan kedua adalah perintah
pelarangan.
user-agent: *
Disallow:
Perintah di atas diterjemahkan sebagai berikut: User Agent diisi dengan
tanda bintang yang berarti mengacu kepada SEMUA crawler, baik milik
search engine maupun yang lain, misalnya: feed agregator (bahkan robot
autoblog!). Sedangkan Disallow tidak diisi/kosong berarti semua, baik
root direktori, sub direktori, dan file, BOLEH diakses oleh crawler.
Jika ingin melarang crawler mengakses website, maka kita memberikan perintah dengan tanda / (slash), yang berarti robot crawler tidak boleh mengakses seluruh isi web/blog.
user-agent: *
Disallow: /
Namun jika ingin melarang indeks pada direktori atau halaman tertentu,
kita tuliskan tanda / diikuti dengan nama direktorinya. Contoh misalnya
sobat tidak ingin crawler mengindeks semua halaman statis maka
penulisannya adalah:
user-agent: *
Disallow: /p (sesuai dengan nama direktori halaman statis Blogger)
Allow: /
Allow: / ditambahkan untuk mengizinkan crawler mengizinkan root
directory, direktori lain, dan halaman lain diindeks. Arti dari perintah
di atas adalah crawler boleh mengindeks semua kecuali halaman-halaman
statis. Sebenarnya Allow: / tidak ditambahkan pun tidak masalah, namun
untuk memastikan, Google kemudian memperkenalkan dan merekomendasikan
perintah tersebut.
Jika ingin mengacu pada robot crawler milik SE tertentu yang tidak boleh
mengindeks, sedangkan yang lain boleh, sobat harus menambahkan nama
user-agentnya, pada baris lain. Contoh ini akan menggunakan Googlebot,
milik Google.
user-agent: *
Disallow:
user-agent: GooglebotYup, tentunya sekarang sobat bisa dengan mudah mengartikan perintah robots.txt di atas.
Disallow: /p
Allow: /
Baca Juga Kelanjutan bagian Pertama Di bagian Kedua disini
sumber
0 Responses So Far:
Posting Komentar