Lompat ke konten Lompat ke sidebar Lompat ke footer

Cara Menggunakan Robots TXT Dan Perintahnya

Anda membuat situs web, dan situs web itu dapat dirayapi untuk mesin telusur. Tetapi bagaimana jika Anda tidak ingin mesin pencari merayapi beberapa bagian situs web? Bagaimana Anda bisa memblokir bagian situs web itu untuk mesin pencari? Berkas robots.txt. Artikel kali ini akan membahas cara menggunakan robots TXT dan perintahnya.

Jadi Anda ingin memahami file robots.txt? Tetapi jika saya mengatakan itu adalah inspektur jalur bot perayapan. Itu memungkinkan atau melarang bot di beberapa jalan, dan mari kita blokir di jalan lain. File ini mengizinkan atau melarang bot mesin pencari untuk merayapi beberapa bagian halaman web Anda dan melarang yang lain.

Pahami Robots.txt Dari Sebuah Situs Blog. Apa Itu, Dan Fungsi Seperti Apa Yang Dijalankannya?

cara menggunakan robots txt



Optimasi Mesin Pencari dan Robots.txt

Apa itu Search Engine Bots?: Ini adalah bot yang membaca data dari situs web atau halaman web dan mentransfernya ke database mereka seperti Google, Bing, Yandex, atau lainnya. Misalnya, Anda membuat situs web dan terus menulis artikel tentang itu.

Tautan Balik Internal dan robots.txt: Jika Anda menulis artikel, dan di dalamnya, Anda memberikan beberapa tautan internal yang mungkin berkategori atau berlabel atau apa pun yang diblokir oleh robots.txt. Sekarang tautan yang Anda berikan dalam artikel harus diikuti karena bersifat internal, dan pada saat yang sama, Anda melarangnya dengan izin yang ditetapkan dalam file robots.txt. Jadi praktik terbaik untuk halaman internal yang seharusnya tidak diindeks tetapi dirayapi adalah dengan tidak mengindeks halaman tersebut, bukan melarang menggunakan file robots.txt.

Halaman apa yang harus diblokir oleh file robots.txt: Ini harus memblokir halaman sensitif. Itu mungkin bagian admin situs web atau blog Anda. Semua halaman lain yang menyebabkan konten sampah atau ganda harus noindex menggunakan tag meta atau tag 
x-robot yang tepat.

Tautan dari sumber eksternal akan memblokir: Misalkan seseorang memberikan tautan balik dari situs web Anda dari bagian kategori, maka dalam kasus seperti itu mesin perayap akan mencoba merayapi situs web Anda tetapi robots.txt memblokirnya dari perayapan dan tautan balik yang diperoleh dengan susah payah akan sia-sia.

Gunakan Sintaks Robots.txt

Agen pengguna:

Ini mendeklarasikan bot atau perayap web tempat kami memberikan instruksi atau mengontrolnya untuk berbagai bagian menggunakan fungsi izinkan dan larangan.

Larang :

Anda dapat mendeklarasikan bagian halaman yang tidak boleh dirayapi oleh mesin telusur. Dengan menggunakan metode ini, kita dapat menghemat kuota perayapan mesin pencari yang didedikasikan untuk situs web kita.

Izinkan :

Biasanya digunakan untuk Googlebot untuk mengizinkan bagian untuk merayapi situs web. Misalnya, ini memungkinkan subfolder yang folder induknya tidak diizinkan untuk dirayapi.

Peta Situs :

Ini menyatakan lokasi peta situs XML sitemap atau mesin pencari seperti Google, Bing, Yandex mendukung perintah ini.

contoh file robots.txt:

User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /*/junk/*
Disallow: /search
Allow: /

Sitemap: https://example.com/sitemap.xml

Dalam contoh robots.txt di atas

  • Agen pengguna: Mediapartners-Google mendeklarasikan instruksi untuk Google AdSense, instruksi diikuti sebagaiDisallow:to nothing. Itu berarti AdSense dapat merayapi seluruh situs web Anda dan menampilkan iklan.
  • Tautan perintah berikutnya adalah User-agent: *, yang  berarti instruksi untuk semua bot atau crawler selain Google AdSense.
  • Disallow: /*/junk/* dan Disallow: /search yang melarang subfolder "junk" ke folder induk mana pun. Dan juga folder induk "pencarian". Perintah Izinkan memungkinkan seluruh situs web untuk dirayapi. Anda dapat menyertakan bagian pribadi dari situs web yang tidak boleh diindeks dalam hasil pencarian.
  • Peta Situs: https://example.com/sitemap.xml adalah lokasi peta situs yang ditambahkan ke domain.

Periksa bagaimana Anda dapat mengaturnya untuk WordPress dan Blogger.

Bolehkah saya menempatkan file robots.txt di mana saja di situs web saya?

Tidak, file robots.txt selalu berada di bawah direktori root dengan nama robots.txt. Dan, Anda bahkan tidak dapat mengubah namanya.

Bolehkah saya memberikan lebih dari satu peta situs di file robots.txt?

Ya, Anda dapat memberikan beberapa peta situs di file robots.txt.

Dapatkah saya menggunakan file robots.txt untuk menghapus halaman dari mesin pencari?

Tidak, untuk itu, Anda harus menggunakan tag meta robots atau X-Robots-Tag di respons header.

Saya harap Anda menyukai artikel cara menggunakan robot TXT dan perintahnya. Jika ada keraguan, jangan ragu untuk bertanya di bagian komentar di bawah.

Posting Komentar untuk "Cara Menggunakan Robots TXT Dan Perintahnya"