5 Masalah Pengindeksan Google Paling Umum Berdasarkan Ukuran Situs Web – Google terbuka tentang fakta bahwa ia tidak mengindeks semua laman yang dapat ditemukannya . Dengan menggunakan Google Search Console, Anda dapat melihat halaman di situs web Anda yang tidak diindeks.
5 Masalah Pengindeksan Google Paling Umum Berdasarkan Ukuran Situs Web
indexunlimited – Google Search Console juga memberi Anda informasi berguna tentang masalah spesifik yang mencegah halaman diindeks. Masalah ini mencakup kesalahan server, 404, dan petunjuk bahwa laman mungkin memiliki konten yang tipis atau duplikat .
Baca Juga : 3 Masalah Umum Menyiapkan Nama Domain Anda
Namun kami tidak pernah melihat data apa pun yang menunjukkan masalah mana yang paling umum terjadi di seluruh web. Jadi… saya memutuskan untuk mengumpulkan data dan menyusun statistiknya sendiri! Dalam artikel ini, kita akan mempelajari masalah pengindeksan paling populer yang mencegah laman Anda muncul di Google Penelusuran.
Pengindeksan 101
Pengindeksan seperti membangun perpustakaan kecuali alih-alih buku, Google berurusan dengan situs web. Jika Anda ingin halaman Anda muncul dalam pencarian, mereka harus diindeks dengan benar. Dalam istilah awam, Google harus menemukan dan menyimpannya.
Kemudian, Google dapat menganalisis konten mereka untuk memutuskan kueri mana yang mungkin relevan. Diindeks adalah prasyarat untuk mendapatkan lalu lintas organik dari Google. Dan semakin banyak halaman situs web Anda yang diindeks, Anda memiliki lebih banyak peluang untuk muncul di hasil pencarian. Itulah mengapa sangat penting bagi Anda untuk mengetahui apakah Google dapat mengindeks konten Anda.
Inilah Yang Saya Lakukan untuk Mengidentifikasi Masalah Pengindeksan
Tugas saya sehari-hari termasuk mengoptimalkan situs web dari sudut pandang SEO teknis agar lebih terlihat di Google dan sebagai hasilnya, saya memiliki akses ke beberapa lusinan situs di Google Search Console. Saya memutuskan untuk menggunakan ini agar mudah-mudahan membuat masalah pengindeksan populer… yah, kurang populer. Demi transparansi, saya menguraikan metodologi yang membawa saya ke beberapa kesimpulan menarik.
Metodologi
Saya mulai dengan membuat contoh halaman, menggabungkan data dari dua sumber:
- Saya menggunakan data dari klien kami yang tersedia untuk saya.
- Saya meminta profesional SEO lainnya untuk berbagi data anonim dengan saya, dengan menerbitkan jajak pendapat Twitter dan menghubungi beberapa SEO secara langsung.
Mengecualikan Halaman yang Tidak Dapat Diindeks
Adalah kepentingan Anda untuk meninggalkan beberapa halaman dari pengindeksan. Ini termasuk URL lama, artikel yang tidak lagi relevan, parameter filter di e-niaga, dan lainnya.
Webmaster dapat memastikan Google mengabaikannya dengan beberapa cara, termasuk file robots.txt dan tag noindex . Mempertimbangkan halaman tersebut akan berdampak negatif pada kualitas temuan saya, jadi saya menghapus halaman yang memenuhi salah satu kriteria di bawah dari sampel:
- Diblokir oleh robots.txt.
- Ditandai sebagai noindex.
- Dialihkan.
- Mengembalikan kode status HTTP 404.
Mengecualikan Halaman Tidak Berharga
Untuk lebih meningkatkan kualitas sampel saya, saya hanya mempertimbangkan halaman yang termasuk dalam peta situs. Berdasarkan pengalaman saya, peta situs adalah representasi paling jelas dari URL berharga dari situs web tertentu. Tentu saja, ada banyak situs web yang memiliki sampah di peta situsnya. Beberapa bahkan menyertakan URL yang sama di peta situs dan file robots.txt mereka. Tapi saya sudah mengatasinya di langkah sebelumnya.
Mengkategorikan Data
Saya menemukan bahwa masalah pengindeksan populer bervariasi tergantung pada ukuran situs web. Inilah cara saya membagi data:
- Situs web kecil (hingga 10k halaman).
- Situs web sedang (dari 10k hingga 100k halaman).
- Situs web besar (hingga satu juta halaman).
- Situs web besar (lebih dari 1 juta halaman).
Karena perbedaan ukuran situs web dalam sampel saya, saya harus mencari cara untuk menormalkan data. Satu situs web yang sangat besar berjuang dengan masalah tertentu bisa lebih besar daripada masalah yang mungkin dimiliki situs web lain yang lebih kecil. Jadi saya melihat setiap situs web satu per satu untuk mengurutkan masalah pengindeksan yang mereka perjuangkan. Kemudian saya menetapkan poin untuk masalah pengindeksan berdasarkan jumlah halaman yang terpengaruh oleh masalah tertentu di situs web tertentu.
Dan Putusannya Adalah…
Berikut adalah lima masalah teratas yang saya temukan di situs web dengan berbagai ukuran.
- Crawled – saat ini tidak diindeks (Masalah kualitas).
- Konten duplikat.
- Discovered – saat ini tidak diindeks (Masalah anggaran crawl/kualitas).
- Soft 404.
- Masalah Crawl.
Kualitas
Masalah kualitas mencakup konten halaman Anda yang tipis, menyesatkan, atau terlalu bias. Jika halaman Anda tidak menyediakan konten unik dan berharga yang ingin ditampilkan Google kepada pengguna, Anda akan kesulitan mengindeksnya (dan jangan heran).
- Konten Duplikat
Google mungkin mengenali beberapa laman Anda sebagai konten duplikat, meskipun Anda tidak bermaksud demikian. Masalah umum adalah tag kanonis yang mengarah ke halaman berbeda. Hasilnya adalah halaman asli tidak terindeks.
Jika Anda memiliki konten duplikat, gunakan atribut tag kanonis atau pengalihan 301. Ini akan membantu Anda memastikan bahwa laman yang sama di situs Anda tidak bersaing satu sama lain untuk mendapatkan tampilan, klik, dan tautan.
- Crawl Budget
Apa itu Crawl Budget ? Berdasarkan beberapa faktor, Googlebot hanya akan meng-crawl URL dalam jumlah tertentu di setiap situs web. Ini berarti pengoptimalan sangat penting; jangan biarkan waktu terbuang sia-sia di halaman yang tidak Anda pedulikan.
- Soft 404
404 kesalahan berarti Anda mengirimkan halaman yang dihapus atau tidak ada untuk pengindeksan. Soft 404 menampilkan informasi “tidak ditemukan”, tetapi tidak mengembalikan kode status HTTP 404 ke server. Mengalihkan halaman yang dihapus ke halaman lain yang tidak relevan adalah kesalahan umum. Beberapa pengalihan juga dapat muncul sebagai kesalahan ringan 404. Berusaha keras untuk mempersingkat rantai pengalihan Anda sebanyak mungkin.
- Masalah Crawl
Ada banyak masalah perayapan, tetapi yang penting adalah masalah dengan robots.txt. Jika Googlebot menemukan robots.txt untuk situs Anda tetapi tidak dapat mengaksesnya, Googlebot tidak akan merayapi situs sama sekali.
Terakhir, mari kita lihat hasil untuk berbagai ukuran situs web.
Situs Web Kecil
Ukuran sampel: 44 lokasi
- Crawled, saat ini tidak diindeks (masalah kualitas atau anggaran perayapan).
- Konten duplikat.
- Masalah Crawl budget.
- Soft 404.
- Crawl issue.
Situs Web Sedang
Ukuran sampel: 8 situs
- Konten duplikat.
- Discovered, saat ini tidak diindeks (masalah anggaran crawl/kualitas).
- Crawled, saat ini tidak diindeks (masalah kualitas).
- Soft 404 (masalah kualitas).
- Crawl issue.
Situs Web Besar
Ukuran sampel: 9 lokasi
- Crawled, saat ini tidak diindeks (masalah kualitas).
- Discovered, saat ini tidak diindeks (masalah anggaran crawl/kualitas).
- Konten duplikat (duplikat, URL yang dikirimkan tidak dipilih sebagai kanonis).
- Soft 404.
- Crawl issue.
Takeaways kunci pada Masalah Pengindeksan Umum
Sangat menarik bahwa, menurut temuan ini, dua ukuran situs web mengalami masalah yang sama. Ini menunjukkan betapa sulitnya mempertahankan kualitas dalam kasus situs web besar.
- Lebih besar dari 100k, tetapi lebih kecil dari 1 juta.
- Lebih besar dari 1 juta.
Namun, kesimpulannya adalah:
- Bahkan situs web yang relatif kecil (10rb+) mungkin tidak sepenuhnya diindeks karena Crawl Budget yang tidak mencukupi.
- Semakin besar situs web, semakin menekan masalah anggaran / kualitas Crawl.
- Masalah duplikat konten parah tetapi sifatnya berubah tergantung pada situs web.
PS Catatan Tentang URL Tidak Dikenal untuk Google
Selama penelitian saya, saya menyadari bahwa ada satu lagi masalah umum yang mencegah halaman diindeks. Itu mungkin tidak mendapatkan tempatnya di peringkat di atas tetapi masih signifikan, dan saya terkejut melihat itu masih sangat populer.
Beberapa halaman di situs web Anda mungkin tidak memiliki tautan internal yang mengarah ke sana. Jika tidak ada jalur bagi Googlebot untuk menemukan halaman melalui situs web Anda, Googlebot mungkin tidak menemukannya sama sekali.
Apa solusinya? Tambahkan tautan dari halaman terkait. Anda juga dapat memperbaikinya secara manual dengan menambahkan halaman anak yatim ke peta situs Anda. Sayangnya, masih banyak webmaster yang lalai melakukan hal ini.