Menggunakan robots.txt dengan efektif di Blogger

Menggunakan robots.txt di Blogger Setiap orang yang membuat situs web pasti ingin postingan yang di publikasikan dapat terlihat di Internet. Itu sebabnya semakin banyak orang yang memutuskan untuk melakukan aktivitas SEO yang sejalan dengan pedoman Google untuk memastikan situs mereka tampil di halaman pertama mesin telusur dalam hasil pencarian organik.

Salah satu pertanyaan pertama yang mungkin muncul di benak Anda adalah bagaimana Google atau mesin pencari lainnya dapat mengetahui apa yang dipublikasikan pada halaman tertentu? Perlu diketahui bahwa apa yang disebut tentang Menangani Perayap di situs Anda adalah memeriksa sumber daya dunia online yang tak ada habisnya dan menganalisis konten di semua situs web yang ditemuinya.

Sebaiknya pastikan bahwa begitu robot memasuki situs Anda, mereka diberi tahu halaman mana yang harus mereka jelajahi karena subhalaman tertentu tidak harus atau bahkan tidak boleh muncul di hasil pencarian. Untuk memudahkan Mesin Pencari Google merayapi blog Anda, Anda bisa setting Pengaturan robots.txt dan tag header robot khusus di Blogger. Hal ini bertujuan agar artikel cepat terindeks di mesin pencari Google. 

Jadi jika kita mengatur setting robots.txt di blogger dengan benar, maka blog yang kita kelola akan menjadi SEO friendly. Begitu juga sebaliknya, jika ada yang tidak beres pada setting yang kita atur di robots.txt blogger, maka blog akan diabaikan oleh mesin pencari Google. Dan ini bisa mengakibatkan artikel yang Anda posting di blog Anda tidak muncul di hasil pencarian.

Apa itu Robots.txt?

Robot.txt adalah salah satu elemen yang digunakan untuk komunikasi dengan perayap web. Robot mencari file khusus ini tepat setelah memasuki situs web. Meskipun dapat berguna untuk memberi tahu robot Google apa yang harus dianalisis pada suatu halaman, melakukannya dengan benar memerlukan pembelajaran bahasa yang dapat dipahami oleh perayap web.

Pada postingan kali ini kami akan membahas secara tuntas untuk robot directive ini, Admin akan membahas lebih detail tentang file teks robots.txt dan bagaimana cara menggunakannya untuk menginstruksikan search engine web crawler. File ini sangat berguna untuk mengelola anggaran perayapan Anda dan memastikan mesin telusur menghabiskan waktu mereka di situs Anda secara efisien dan hanya merayapi halaman penting.

Itulah mengapa teknik yang akan saya ceritakan hari ini adalah salah satu favorit saya. Ini adalah peretasan SEO yang sah yang dapat Anda mulai dan gunakan segera. Teknik ini adalah salah satu cara untuk meningkatkan SEO Anda dengan memanfaatkan bagian alami dari setiap situs web yang jarang dibicarakan. Tidak sulit juga untuk menerapkannya.

Elemen yang Tidak Harus Dirayapi

Sudah lama sejak situs web berhenti menjadi file sederhana yang hanya berisi teks (blog). Sebagian besar toko online menyertakan banyak subhalaman yang tidak bernilai dalam hal hasil pencarian atau bahkan mengarah pada pembuatan konten duplikat internal. Jadi untuk mempelajari lebih lanjut tentang mengatasi konten duplikat, lihat artikel kami sebelumnya tentang Cara Mencegah dan Mengatasi Blog Terkena AGC (Auto Generate Content).

Robot tidak boleh memiliki akses ke elemen seperti keranjang belanja, mesin pencari internal, prosedur pemesanan, atau panel pengguna. Mengapa begitu? Karena desain elemen-elemen ini tidak hanya dapat menyebabkan kebingungan yang tidak perlu, tetapi juga berdampak negatif pada visibilitas situs di SERP. Anda juga harus mempertimbangkan untuk memblokir salinan subhalaman yang dibuat oleh CMS karena dapat meningkatkan konten duplikat internal Anda.

Perhatian: Membuat aturan yang memungkinkan Anda menavigasi perayap web membutuhkan pengetahuan yang sempurna tentang struktur website. Menggunakan perintah yang salah dapat mencegah robot Google mengakses seluruh konten situs web atau bagian penting darinya. Ini, pada gilirannya, dapat memiliki efek kontraproduktif – situs Anda mungkin benar-benar hilang dari hasil pencarian.

Kapan sebaiknya Anda menggunakan aturan robots.txt?

Secara umum, situs web harus mencoba menggunakan robots.txt sesedikit mungkin untuk mengontrol perayapan. Meningkatkan arsitektur situs web Anda dan membuatnya bersih dan dapat diakses oleh perayap adalah solusi yang jauh lebih baik. Namun, disarankan untuk menggunakan robots.txt jika diperlukan untuk mencegah perayap mengakses bagian situs berkualitas rendah jika masalah tidak dapat diperbaiki dalam jangka pendek.

Google merekomendasikan hanya menggunakan robots.txt ketika masalah server disebabkan atau untuk masalah efisiensi perayapan, seperti Googlebot menghabiskan banyak waktu untuk merayapi bagian situs yang tidak dapat diindeks.

Berikut adalah beberapa contoh halaman yang mungkin tidak ingin Anda jelajahi:

  • Halaman kategori dengan penyortiran non-standar karena ini biasanya membuat duplikat dengan halaman kategori utama.
  • Konten buatan pengguna yang tidak dapat dimoderasi.
  • Halaman dengan informasi sensitif.
  • Halaman pencarian internal karena mungkin ada jumlah tak terbatas dari halaman hasil ini yang memberikan pengalaman pengguna yang buruk dan menghabiskan anggaran perayapan.

Kapan Anda tidak boleh menggunakan robots.txt?

File robots.txt adalah alat yang berguna bila digunakan dengan benar, namun, ada beberapa kasus di mana itu bukan solusi terbaik. Berikut adalah beberapa contoh saat situs web tidak menggunakan robots.txt untuk mengontrol perayapan:

1. Memblokir Javascript/CSS

Mesin pencari harus dapat mengakses semua sumber daya di situs Anda untuk merender halaman dengan benar, yang merupakan bagian penting untuk mempertahankan peringkat yang baik. File JavaScript yang secara dramatis mengubah pengalaman pengguna, tetapi tidak diizinkan untuk dirayapi oleh mesin telusur. Karena ini dapat mengakibatkan hukuman manual atau algoritma yang berlaku.

Misalnya, jika Anda menayangkan pengantara iklan atau mengalihkan pengguna dengan JavaScript yang tidak dapat diakses oleh mesin telusur, ini mungkin terlihat sebagai penyelubungan dan peringkat konten Anda dapat disesuaikan.

2. Blokir parameter URL

Anda dapat menggunakan robots.txt untuk memblokir URL yang berisi parameter tertentu, tetapi ini tidak selalu merupakan tindakan terbaik. Lebih baik untuk menangani ini di Google Search Console karena ada lebih banyak opsi khusus parameter di sana untuk mengomunikasikan metode perayapan yang disukai ke Google.

Anda juga dapat menempatkan informasi dalam fragmen URL ( /page#sort=price ), karena mesin telusur tidak merayapi ini. Selain itu, jika parameter URL harus digunakan, tautan ke parameter tersebut dapat berisi atribut rel=nofollow untuk mencegah perayap mencoba mengaksesnya.

3. Blokir URL dengan tautan balik

Melarang URL di robots.txt mencegah ekuitas tautan melewati situs web. Ini berarti bahwa jika mesin pencari tidak dapat mengikuti tautan dari situs web lain karena URL target tidak diizinkan, situs web Anda tidak akan mendapatkan otoritas untuk melewati tautan tersebut dan akibatnya, peringkat Anda mungkin tidak sebaik secara keseluruhan.

4. Dapatkan halaman yang diindeks di-deindex

Menggunakan Disallow tidak menghapus indeks halaman, dan bahkan jika URL diblokir dan mesin telusur tidak pernah merayapi halaman, halaman yang tidak diizinkan masih dapat diindeks. Ini karena proses perayapan dan pengindeksan sebagian besar terpisah.

5. Tetapkan aturan yang mengabaikan perayap jejaring sosial

Bahkan jika Anda tidak ingin mesin telusur merayapi dan mengindeks halaman, Anda mungkin ingin jejaring sosial dapat mengakses halaman tersebut sehingga cuplikan halaman dapat dibuat. Misalnya, Facebook akan mencoba mengunjungi setiap halaman yang diposting di jaringan, sehingga mereka dapat menyajikan cuplikan yang relevan. Ingatlah hal ini saat menyiapkan aturan robots.txt.

6. Blokir akses dari situs pementasan atau pengembangan

Menggunakan robots.txt untuk memblokir seluruh situs pementasan bukanlah praktik terbaik. Google merekomendasikan untuk tidak mengindeks halaman tetapi mengizinkannya untuk dirayapi, tetapi secara umum lebih baik membuat situs tidak dapat diakses dari dunia luar.

7. Ketika Anda tidak memiliki apa pun untuk diblokir

Beberapa situs web dengan arsitektur yang sangat bersih tidak perlu memblokir perayap dari halaman mana pun. Dalam situasi ini, sangat dapat diterima untuk tidak memiliki file robots.txt, dan mengembalikan status 404 berdasarkan permintaan.

Batasi perayapan jika tidak diperlukan dengan robots.txt

Keterangan dari gambar diatas saya akan jelaskan disini: File “robots.txt” memberi tahu mesin telusur apakah dapat mengakses kemudian merayapi bagian situs Anda (1). File ini, yang harus dinamai “robots.txt”, ditempatkan di direktori akar situs Anda (2).

Anda mungkin tidak ingin laman tertentu dari situs Anda dirayapi karena laman tersebut mungkin tidak berguna bagi pengguna jika ditemukan sebagai bagian dari hasil mesin telusur. Jika Anda ingin mencegah mesin telusur merayapi laman Anda, Alat Webmaster Google memiliki pembuat robots.txt untuk membantu Anda membuat file ini. Perhatikan bahwa jika situs Anda menggunakan subdomain dan Anda ingin laman tertentu tidak dirayapi pada subdomain tertentu, Anda harus membuat file robots.txt terpisah untuk subdomain tersebut.

Ada cara lain untuk mencegah konten muncul di hasil pencarian, seperti menambahkan “NONINDEX” ke tag meta robot Anda, menggunakan .htaccess di direktori yang dilindungi kata sandi, dan menggunakan Alat Webmaster Google untuk menghapus konten yang dirayapi. Insinyur Google Matt Cutts menjelaskan secara individual hal-hal yan harus diwaspadai dengan setiap metode pemblokiran URL dalam video yang bermanfaat.

Gunakan metode yang lebih aman untuk konten yang sensitif

Jangan merasa aman begitu saja saat menggunakan robots.txt untuk mencekal materi yang sensitif atau rahasia. Salah satu alasan adalah mesin pencari masih dapat memberi referensi URL yang Anda blokir (hanya menunjukkan URL, tidak ada judul atau snippet) jika ternyata ada tautan ke URL itu di Internet (seperti catatan perujuk). Tidak hanya itu, mesin telusur yang tidak patuh atau sembarangan yang tidak mengakui Robots Exclusion Standard dapat mengabaikan instruksi dari robots.txt Anda.

Terakhir, pengguna yang ingin tahu dapat memeriksa direktori atau subdirektori pada robots.txt Anda dan menebak URL dari konten yang Anda tidak ingin perlihatkan. Mengenksipsi konten atau melindunginya dengan kata sandi dengan .htaccess merupakan alternatif yang lebih aman.

Hindari hal berikut: 1. Memungkinkan laman mirip hasil penelusuran untuk dirayapi – pengguna tidak suka meninggalkan satu laman hasil penelusuran dan membuka laman hasil penelusuran lain yang tidak menambahkan nilai yang signifikan bagi mereka. 2. Membiarkan terbentuknya URL sebagai hasil dari layanan proxy untuk dirayapi

Hati-hati saat mengunakan tautan rel=”nofollow”

Kegunaan lain dari nofollow adalah saat Anda menulis konten dan ingin mereferensikan situs web, tapi tidak ingin memberikan reputasi kepadanya. Sebagai contoh, bayangkan Anda tengah menulis blog dengan topik spam komentar dan Anda ingin menyebutkan sebuah situs yang baru-baru ini memberi spam komentar di blog Anda. Anda ingin memperingatkan yang lain tentang situs itu, jadi Anda menambah tautan situs itu pada konten; namun, Anda tidak ingin membagi reputasi dari tautan itu kepada situs. Ini merupakan saat yang tepat untuk menggunakan nofollow.

<html>
<head>
<title>Uang Kuno Tino - Jual Beli, Harga, dan Informasi Uang Kuno Indonesia</title>
<meta name="description=" content="Uang Kuno Tino menyediakan uang kuno 
asli dan replika dengan harga terjangkau. Cocok untuk mahar/mas kawin uang 
kuno. Dapatkan informasi mengenai">
<meta name="robots" content="nofollow">
</head>

Kode diatas akan mengaktifkan nofollow seluruh tautan pada laman. jika Anda tertarik untuk mengaktifkan nofollow pada seluruh tautan pada sebuah laman, Anda dapat gunakan “nofollow” pada meta tag robot, yang diletakkan di dalam tag <head> dari HTML laman itu. Webmaster Central Blog menyediakan pos yang bermanfaat mengenai penggunaan meta tag robot. Metode ini ditulis sebagai <meta name=”robots” content=”nofollow”>.

Pastikan Anda memiliki pengaman kuat yang siap menghadapi spam komentar!

Cara efektif mengatur robots.txt khusus di Blogger

Pada dasarnya setting robots.txt ini sudah disetel atau diaktifkan dengan sendirinya saat pertama kali kita membuat blog. Implementasi default ini sebenarnya adalah metode preset. Terkadang karena banyak pengguna ingin melakukan konfigurasi yang berbeda untuk hal tambahan, maka kami akan memberikan metode yang tepat untuk Anda terapkan. Untuk mengetahui lebih lanjut, Anda dapat mengikuti tutorial yang akan kami berikan tentang cara mengatur robots.txt di blogger.

Berikut ini Cara efektif mengatur robots.txt khusus di Blogger:

  1. Pertama sekali yang harus Anda lakukan adalah membuka menu Setelan > Cari bagian menu “Crawler dan pengindeksan” > Aktifkan robots.txt kustom.
  2. Setelah itu Anda bisa memasukkan kode untuk settingan robots.txt kustom yang aman seperti berikut ini:
User-agent: *
Allow: /
Disallow: /search

Sitemap: https://www.nama-domain.com/sitemap.xml

Keterangan:

  • User-agent: Nama robot mesin pencarian (web crawler software)
  • Allow: Direktori suatu halaman yang diizinkan atau boleh dirayapi oleh; user-agent.
  • Disallow: Sebuah direktori (halaman) yang tidak boleh diizinkan/dirayapi oleh; user-agent.
  • Sitemap: Lokasi daftar isi. Untuk sitemap Anda bisa menggantinya dengan alamat blog Anda sendiri.
User-agent: *  
Allow: /
Disallow: /search

Sitemap: https://www.namadomain.com/sitemap.xml

Keterangan:

Tulisan berwarna merah dari kode diatas ntuk mengizinkan semua jenis user-agent dalam merayapi semua yang ada di direktori, kecuali semua url yang memiliki direktori /search. Seperti contoh:

  • https://www.nama-domain.com/search?q=cara+meningkatkan+struktur+website
  • https://www.nama-domain.com/search/label
  • https://www.nama-domain.com/search?update-max=2022-03-10T23%3A00%3A00%2B07%3A00&max-results=8#PageNo=2

Sedangkan tulisan berwarna biru berfungsi untuk melakukan ping pada robot perayapan yang dimana lokasi daftar isi (sitemap) berada.

3. Setelah semua selesai, klik Simpan.

4. Selesai…

Untuk mengetahui lebih lanjut setting menyetting setelan dashboard blogger Anda bisa membaca posting kami sebelumnya tentang Setelan Dashboard Blogger.

Untuk mencegah perayapan pada sebuah url halaman tertentu yang tidak ingin dirayapi, Anda tinggal menambahkan pada Disallow saja. Contohnya seperti berikut ini:

User-agent: *
Allow: /
Disallow: /search
Disallow: /p/halaman-kontak.html
Disallow: /2009/01/test-postingan-pertama.html

Sitemap: https://www.domain.com/sitemap.xml

Sekarang saatnya mengecek apakah robots.txt yang Anda setting sudah berubah sesuai dengan tutorial diatas, buka link url seperti berikut di browser.

https://www.domain.com/robots.txt

Kesimpulan

Dalam format penulisan yang tepat untuk url setelah homepage seperti https://www.domain.com nilainya selalu sama yang diikuti oleh /search. Dengan melarang robots untuk merayapi suatu direktori bertujuan untuk mencegah sebuah konten duplikat yang bisa berakibat fatal bahkan bisa terkena penalti dari mesin pencari Google.

Saya selalu suka berbagi “peretasan” SEO yang kurang diketahui yang dapat memberi Anda keuntungan nyata dalam lebih dari satu cara. Dengan mengatur file robots.txt Anda dengan cara yang benar, Anda tidak hanya meningkatkan SEO Anda sendiri. Anda juga membantu pengunjung Anda.

Jika bot mesin pencari dapat menghabiskan anggaran perayapan mereka dengan bijak, mereka akan mengatur dan menampilkan konten Anda di SERP dengan cara terbaik, yang berarti Anda akan lebih terlihat. Selain itu, ini juga tidak perlu banyak usaha untuk menyiapkan file robots.txt Anda. 

Lihat Disini: