Meningkatkan SEO Blog Wordpress Dengan Robots.Txt
Pernah dengar istilah robots.txt? Menurut Wikipedia:
The robots exclusion standard, also known as the Robots Exclusion Protocol or robots.txt protocol is a convention to prevent cooperating web spiders and other web robots from accessing all or part of a website which is, otherwise, publicly viewable. Robots are often used by search engines to categorize and archive web sites, or by webmasters to proofread source code. A robots.txt file on a website will function as a request that specified robots ignore specified files or directories in their search.
Dengan kata lain, ibaratnya seorang guide, robots.txt ini berfungsi untuk mengarahkan crawler mesin pencari pada saat ia melakukan kerjanya. Dengan robots.txt, kita dapat menentukan file / direktori mana yg boleh diakses dan mana yg tidak boleh. Kita bahkan bisa mengatur, crawler mana yg boleh mengakses situs kita dana mana yg tidak boleh.
Jika Anda menggunakan platform blog Wordpress (jangan lupa ikuti polling yg ada di sidebar ya), Anda bisa memanfaatkan si robots.txt ini untuk proses SEO blog Anda dan (semoga) meningkatkan SERP-nya. Beberapa hal yg bisa kita lakukan dengan robots.txt di blog WP antara lain:
- Mematikan akses crawler ke direktori wp-admin dan wp-include.
Kedua direktori tersebut berisi file2 pendukung Wordpress dan tidak ada gunanya untuk dilalui oleh crawler. - Menghindari / menghilangkan supplemental result di Google yg diakibatkan oleh duplicate content.
Beberapa fitur WP sebenarnya menghasilkan supplemental result di Google, seperti comments feed dan trackback url. Untuk menghindarinya (atau menghilangkannya jika sudah terlanjur ter-index dan tercatat sebagai supp.), kita dapat mencegah crawler untuk mengakses alamat tersebut. - Menghindari / menghilangkan supplemental result di Google yg diakibatkan oleh dynamic page.
Yg dimaksud dynamic page di sini adalah halaman yg mengandung lebih dari 1 karakter ‘?’ (tanda tanya) di URL-nya. Jika mungkin dulu Anda khilaf dan lupa mengaktifkan permalink misalnya, maka halaman2 artikel blog Anda akan penuh dengan karakter tersebut dan sayangnya, tidak akan bermakna apa2 di mesin pencari.
Untuk mulai menggunakan robots.txt, yg Anda lakukan cukup dengan membuat file dengan nama tersebut dan letakkan pada root domain / sub-domain Anda. Jika blog Anda terletak pada sub-direktori, misal: http://www.namadomain.com/blog, Anda tetap harus meletakkan robots txt tersebut pada http://www.namadomain.com.
Untuk menentukan crawler yg ingin diatur:
[code]User-agent: namacrawler[/code]
Contoh nama crawler:
- Googlebot — crawler search engine Google
- Googlebot-Image — crawler image search Google
- Mediapartners-Google* — crawler Google AdSense
- * — semua crawler diperbolehkan
Untuk mencegah akses ke direktori tertentu:
[code]Disallow: /namadirektori/[/code]
Misal, untuk mencegah akses ke direktori internal Wordpress:
[code]Disallow: /wp-admin/
Disallow: /wp-includes/[/code]
Untuk mencegah akses ke comments feed dan trackback:
[code]Disallow: */feed/
Disallow: */trackback/[/code]
Untuk mencegah akses ke dynamic page:
[code]Disallow: /*?*
Disallow: /*?[/code]
Sekarang, mari kita coba padukan semuanya menjadi satu.
[code]# This rule means it applies to all user-agents
User-agent: *
# Disallow all directories and files within
Disallow: /wp-admin/
Disallow: /wp-includes/
# The Googlebot is the main search bot for google
User-agent: Googlebot
# Disallow Google from parsing indididual post feeds and trackbacks..
Disallow: */feed/
Disallow: */trackback/
# Disallow all files with ? in url
Disallow: /*?*
Disallow: /*?
# The Googlebot-Image is the image bot for google
User-agent: Googlebot-Image
# Allow Everything
Allow: /*
# This is the ad bot for google
User-agent: Mediapartners-Google*
# Allow Everything
Allow: /*[/code]
Selamat mencoba :)
Bacaan terkait:
- Controlling how search engines access and index your website
- WordPress and phpBB robots.txt
- Writing A Good Robots.Txt
PS:
(1) Gambar diambil dari http://www.therobotlab.com/sony-aibo-shop/images/aibo-robot.jpg






wow.. mantab :)
tapi koq gak di lengkapin sekalian mas? kenapa return, dsb gak ada? atau itu cukup di meta aja?
soalnya setauku yg essential sih yg allow/disallow itu aja. Ntar aku pelajari dulu lagi deh, kalo emang penting juga (dan pengaruh ke crawler), aku updet tulisannya :)
Yippy… akhirnya si robot dibahas juga…aku sebelumnya gak begitu paham gimana ngatur si robot ini. Soalnya kadang waktu lihat lognya… dia masuk ke mana-mana… wah mengganggu privasiku nih…
Sekarang aku bisa bilang… robot dilarang masuk lebih jauh… he he :) Trims Om atas infonya
waks,kok aku masih bingung ya? aku belum berani main robot-robotan, eh robot.txt
biarlah google meng-crawl semua isi situsku,daripada salah script malah nanti jadi berabe
dari tadi pagi udah bolak-balik ngunjungi blognya om cosa, pingin kalo ada artikel baru bisa kasih comment pertama kali, eh kecolongan juga, masih blom bisa yang pertama.
pernah om aku pasang robot di blog ku, aku gak tahu apa dan bagaimana itu si robot. akhirnya muncul juga si robot di blognya om cosa
saya juga dah beberapa kali mencoba mempelajari masalah robot.txt ini, baik dari petunjuk google, dr web isnaini, dandr web mas cosa ini. tapi sampe sekarang belum paham juga. mungkin yang baru di aplikasikan yang untuk menghindari SR. itu kan robot.txt juga kan :)
Wah… Makin menarik aja pembahasan Om Cosa,
Saya benar-benar medapat banyak ilmu dari Om cosa.
Tiada kata yang pantas ku ucapkan selain Terimakasih sebanyak”nya atas ilmu yang telah diberikan. Semoga menjadi amal ibadah ya Om! ;-)
Lanjut terus Om…! Mantap!!! :-)
belom begitu dong nih manfaat utama bagi web kita apa, tapi mo aku coba jg ah
Info yang sangat bagus om Cosa, terima kasih atas masukkan Anda. Crawler memang kadang harus di kontrol, contohnya akses kepada gambar-gambar kita kadang-kadang memakan bandwidth yang gede. Dan kadang-kadang kita tidak ingin dipublikasikan di search engine.
Nah loh, si robot ikut dibahas juga disini :D
Ini sangat membantu saya dalam proses ‘crawler’ yg bagiku cukup memusingkan.
Lagi2 aq harus ucapin ‘thanks’ … :)
-> Tutor lanjut terus, mas …
wadau … ini yang aku cari … aku save dolo bosss matur nuwun z …
Terimakasih atas artikelnya, trus mau tanya nih om, boleh ya?
kalau mau dipasang di blogspot, blogsome, atau worpress caranya gimana?
Terimakasih sebelumnya?
maaf ya pertanyaannya orang bodoh nihh.
gak bisa mas gembel. Robots.txt cmn bisa dipasang kalo kita punya hosting sendiri, gak bisa kalo pk blog engine yg gratisan kyk gitu :)
tes komentar, abis pindah server :)
mas cosa, kl di default WP kan udah dikasih tuh meta utk robotnya.
Disallow: */wp-admin
Disallow: */wp-content
Disallow: */wp-includes
Disallow: *wp-login.php
Trus yg disallow di tulisan mas cosa kok ga ada tanda bintangnya yah? emang bedanya apa mas diisi tanda * & yg nggak? sorry, newbie banget
kalo pernah ngerasain jaman susah maen di DOS :) karakter * fungsinya sama, yaitu menggantikan semua karakter/kata.
Contoh:
- abcdef, acf, adef, afff –> semua masuk dalam aturan a*f
- qwerty, asdfty, zxcvcty –> semua masuk dalam aturan *ty
- aqwerty, asdfgh, azxcvb –> semua masuk dalam aturan a*
berarti, untuk contoh rule yg ada di default WP:
*/wp-admin –> semua direktori/url yg berakhir /wp-admin. Bisa http://www.namadomain.com/wp-admin atau http://www.namadomain.com/subdir/wp-admin atau bahkan http://www.namadomain.com/subdir1/subdir2/subdir3/wp-admin
contoh yg aku kasih di atas kebetulan aku pk untuk blog yg WP-nya ada di root domain, jadi gak perlu dikasih * lagi. Kalo dalam 1 domain ada lebih dari satu blog WP emang sebaiknya menggunakan default yg udah dikasih itu (dng *) :)
thx mas cosa utk penjelasannya. dah mudeng skrg :)
Thanks.
pernah baca article yg mirip bulan lalu
http://www.wagerank.com/2007/writing-a-good-robotstxt/
semoga bisa melengkapi…
thanks ngkong, udah aku tambahin di bagian “bacaan terkait” :)
mas cosa pilihan cms Joombla bisa dikoreksi jadi joomla, duplicated content joomla bikin saya juga pusing.
udah dikoreksi, kmrn pas bikin polling kebayang2 ama joomblo sih :D
nice article, thanks om cosa…
:)
makasi..:D
bisa di cobain nih…:)
Kalau mas Cosa format robotsnya pakai yang mana?
Saya lihat di webmaster tools, kalau di blok pakai robots.txt, tetap akan di crawl oleh SE tetapi tidak akan muncul di search result.
scr umum, hampir sama dng yg aku pk di situs ini (http://www.cosaaranda.com/robots.txt)
untuk crawl, jangan lupa, crawler Google butuh waktu untuk memproses, termasuk memproses robots.txt. Jadi scr efektif, robots.txt baru berfungsi minimal 3-4 setelah diubah/dipasang dan untuk mempengaruhi index secara keseluruhan butuh waktu 1-2 bulan.
untuk ngecek di webmaster tools, bisa liat di bagian Diagnostic - URLs Restricted by robots.txt
memang suka aneh kalo ke crawl rss feed, jadi orang yang mencari di search engin malah masuk langsung ke RSS bukan ke artikel tujuan
tengkyu tengkyuu :D
langsung cobaa….
wah yang wp-admin nich jadi banyak suplement result.
Mas cosa, bener ga sitemap url kita added ke robot.txt bisa menambah2 untuk SEO?
thx
pakai google sitemap … tambah link, dan halaman cepat di index :)
wah yg artikel yg sangat membantu nih..thanks mas cosa,tapi yg mo aku tanyain gmn yah cara bikin robot?hehe..
Kereeen blognya … kalo mo ningkatin peringkan di mesin pencari misalnya jika mengetik kata ‘Garut’ blog kita minimal di sepuluh besar gmn mass ?
wa gk bgt ngerti WP..tp jadi tau dikit2 kirain robot.txt cm bs biin rugi aj =)
security ya ???
Wekekeke.
Ini trik udah berubah jadi bagus karena dimasukin comment.
Tapi ati2 karena bot biasanya cuman ngecek 100 karakter pertama, baru besok2nya lanjut ke karakter berikutnya.
Ini sieh bagus, tapi ati2 jangan kebanyakan naro komentar di robot txt.
Kalo gw bilang mendingan di allow semua kecuali yang cgi-bin ama yang admin area.
Lebih baek gitu drpd malah botnya susah ngeceknya..
terima kasih buat sarannya
terimakasih….atas infonya..
bagus tuh mas triknya,boleh kutiru donk…!!!!
kalau udah pake all in one seo + robot.txt tambah bagus, sama aja atau malah bertentangan nich. kok kayak jadi bayak jalan buat SEO
klau aku pakai wp 2.5 masih perlu diotak atik ga ya? katanya wp 2.5 udah cukup bagus