Intro
Anda mungkin pernah mendengar tentang Yandex, ini adalah mesin pencari terbesar ke-4 berdasarkan pangsa pasar di seluruh dunia. Kemarin kode sumber milik Yandex bocor.
Bagian yang paling menarik bagi komunitas SEO adalah: daftar semua 1922 faktor peringkat yang digunakan dalam algoritma pencarian
Kami telah mengunduh kode, menganalisisnya, dan di sini kode tersebut disajikan dengan cara yang bermanfaat.
Insiden ini seharusnya tidak mengejutkan, karena Yandex atau produk-produknya sering kali berada di bawah serangan siber. Pada tahun 2016, Hackread.com secara eksklusif melaporkan bagaimana sebuah vendor web gelap menjual 6,3 juta data akun pengguna Yandex.
Pada bulan September 2021, raksasa mesin pencari Rusia ini terkena salah satu serangan DDoS terbesar yang didukung oleh 200.000 perangkat IoT yang disusupi.
Platform Lengkap untuk SEO yang Efektif
Di balik setiap bisnis yang sukses adalah kampanye SEO yang kuat. Namun dengan banyaknya alat dan teknik pengoptimalan yang dapat dipilih, mungkin sulit untuk mengetahui dari mana harus memulai. Nah, jangan takut lagi, karena saya punya hal yang tepat untuk membantu. Menghadirkan platform lengkap Ranktracker untuk SEO yang efektif
Kami akhirnya membuka pendaftaran ke Ranktracker secara gratis!
Buat akun gratisAtau Masuk menggunakan kredensial Anda
Mengapa sebesar ini?
Yandex adalah salah satu perusahaan IT terbesar di Rusia. Di negara ini, Yandex menyediakan layanan yang lebih luas daripada Google. Bayangkan satu perusahaan yang menggantikan Google, Uber, Amazon, Netflix, dan Spotify.
Apakah kebocoran ini nyata?
Saya pribadi tidak pernah bekerja di Yandex, tetapi saya mengenal beberapa orang yang pernah bekerja di sana pada waktu yang berbeda atau masih bekerja di sana. Saya memverifikasi bahwa setidaknya beberapa arsip pasti berisi kode sumber modern untuk layanan perusahaan serta dokumentasi yang mengarah ke URL intranet yang sebenarnya.
Apa yang ada di dalamnya
Pembocor telah membagikan tautan magnet yang berisi 44,7GB file yang ditautkan ke sumber git Yandex. File-file tersebut diduga dicuri dari Yandex pada bulan Juli 2022. Selain berisi pedoman anti-spam, repositori kode tersebut diyakini memiliki kode sumber Yandex.
Bocoran tersebut mengungkapkan sekitar 1.922 faktor peringkat yang digunakan mesin pencari dalam algoritme pencariannya. Kode tersebut bocor dalam bentuk torrent. Berdasarkan analisis yang diposting oleh pengguna Twitter Alex Buraks, data yang bocor tersebut mencakup banyak faktor peringkat, termasuk relevansi teks, PageRank, usia konten, kesegaran, dll.
Anda mungkin pernah mendengar tentang Yandex, ini adalah mesin pencari terbesar ke-4 berdasarkan pangsa pasar di seluruh dunia. Kemarin kode sumber milik Yandex bocor.
- Alex Buraks (@alex_buraks) January 27, 2023
Bagian yang paling menarik bagi komunitas SEO adalah: daftar 1922 faktor peringkat yang digunakan dalam algoritma pencarian
[🧵THREAD] pic.twitter.com/6x82AAmbON
Selain itu, ada beberapa faktor perilaku pengguna akhir, faktor terkait tautan, dan keandalan host. SEO menemukan beberapa faktor peringkat yang tidak biasa, seperti jumlah pengunjung unik, peringkat domain rata-rata di seluruh kueri, dan persen lalu lintas organik.
Sepertinya setidaknya kode sumber untuk semua layanan utama Yandex telah bocor:
- Mesin Pencari dan Bot Pengindeksan
- Peta - Seperti Google Maps dan Street View
- Alice - Asisten AI seperti Siri / Alexa
- Taksi - Layanan taksi seperti Uber
- Langsung - Layanan iklan seperti Google Ads / Adwords
- Mail - Layanan mail seperti GMail
- Disk - Layanan penyimpanan file seperti Google drive
- Pasar - Pasar seperti Amazon
- Perjalanan - Seperti Booking.com plus tiket Pesawat, Kereta Api, dan Bus
- Yandex360 - Seperti Google Workspaces untuk layanan di domain Anda sendiri
- Cloud - Mungkin tidak semua kode infrastruktur bocor.
- Bayar - Pemrosesan pembayaran seperti Stripe, tetapi dengan fitur yang terbatas
- Metrika - Seperti Google Analytics
- Dan setidaknya bagian backend dari sebagian besar layanan perusahaan lainnya ada di sana. Arsip terbesar yang disebut "frontend" masih harus dieksplorasi.
Shestakov lebih lanjut mencatat beberapa kunci API, yang kemungkinan besar telah digunakan untuk menguji penerapan.
Detail tentang kebocoran ini: dapat ditemukan di sini:
https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/
Yandex Bantah Upaya Peretasan
Yandex mengklaim bahwa mereka telah mengetahui kebocoran tersebut dan telah memulai investigasi untuk memeriksa bagaimana 'fragmen' kode sumber terekspos ke publik. Perlu dicatat bahwa kebocoran tersebut tidak termasuk data pribadi pengguna atau karyawan.
Namun, mengingat pentingnya Yandex dalam infrastruktur TI Rusia dan data yang bocor, dapat diasumsikan bahwa serangan itu dimotivasi oleh invasi negara itu ke Ukraina. Jadi, peretas pro-Ukraina bisa jadi terlibat.
Platform Lengkap untuk SEO yang Efektif
Di balik setiap bisnis yang sukses adalah kampanye SEO yang kuat. Namun dengan banyaknya alat dan teknik pengoptimalan yang dapat dipilih, mungkin sulit untuk mengetahui dari mana harus memulai. Nah, jangan takut lagi, karena saya punya hal yang tepat untuk membantu. Menghadirkan platform lengkap Ranktracker untuk SEO yang efektif
Kami akhirnya membuka pendaftaran ke Ranktracker secara gratis!
Buat akun gratisAtau Masuk menggunakan kredensial Anda
Dalam pernyataan resminya, Yandex mengklarifikasi bahwa perusahaan tidak diretas dan mantan karyawannya bisa jadi terlibat dalam pembocoran kode sumbernya ke domain publik. Perusahaan IT terkemuka di Rusia ini menyatakan bahwa arsip yang bocor tersebut mencakup fragmen kode yang merupakan bagian dari repositori internal, yang datanya berbeda dengan apa yang digunakan di versi terbaru repositori tersebut.
"Yandex tidak diretas. Layanan keamanan kami menemukan fragmen kode dari repositori internal di domain publik, tetapi kontennya berbeda dari versi repositori saat ini yang digunakan di layanan Yandex," demikian pernyataan perusahaan.
Namun demikian, kebocoran kode sumber berbahaya karena dapat menimbulkan masalah keamanan yang serius bagi organisasi karena pelaku ancaman dapat mengamati kekayaan intelektual dan data sistem perusahaan. Kebocoran kode sumber akan membantu penyerang membuat eksploitasi keamanan yang ditargetkan.
Secara teoritis, apa perbedaan antara algoritme yang digunakan di Google dan di Yandex?
Keduanya sangat mirip:
- ada analog RankBrain- MatrixNet
- mereka menggunakan PageRank (hampir sama dengan Google);
- banyak algoritme teks yang sama.
- Ada banyak mantan googler di Yandex
- Yanex dibangun sebagai tiruan Google;
- Spesialis SEO di Rusia menggunakan taktik white hat SEO yang hampir sama untuk Yandex dan Google
Tentu saja ada banyak perbedaan, tetapi pendekatan dan sebagian besar faktor pemeringkatan tampaknya serupa.
Dalam praktiknya: membandingkan hasil pencarian Google vs Yandex, keduanya memiliki kecocokan ~70%.
Menurut Statcounter, Yandex mendekati Yahoo dan Bing dalam hal pangsa pasar:
File dengan faktor peringkat: https://dropbox.com/s/toyehkkfduogbwk/factors_gen.txt?dl=0
Struktur untuk setiap faktor:
- nama
- tautan ke wiki internal (terbatas)
- AntiSeoUpperBound (haha)
- deskripsi (dalam bahasa Rusia, saya menerjemahkannya untuk Anda)
- dll
1. Faktor pertama dalam daftar - PageRank.
Wawasan utama setelah menganalisis daftar ini: Usia tautan adalah faktor peringkat.
2. Lalu lintas dan % lalu lintas organik adalah faktor peringkat.
Membeli PPC mempengaruhi peringkat.
3. Angka dalam URL tidak baik untuk peringkat
4. Terlalu banyak garis miring pada URL tidak baik untuk peringkat
5. Pesimisme keras sama dengan PR = 0
6. Keandalan tuan rumah adalah faktor peringkat
Semakin sedikit 40x/50x kesalahan yang Anda miliki, semakin baik untuk lalu lintas organik Anda
7. Ada faktor peringkat terpisah untuk meningkatkan Wikipedia
8. Banyak faktor peringkat yang berhubungan dengan perilaku pengguna - CTR, klik terakhir, waktu di situs, rasio pentalan
Catatan: Kami hampir yakin bahwa di Yandex, faktor-faktor tersebut berdampak lebih besar daripada di Google.
9. Usia dokumen dan pembaruan terakhir keduanya merupakan faktor pemeringkatan
10. Posisi domain rata-rata di semua kueri adalah faktor peringkat
11. Kedalaman perayapan adalah faktor peringkat
Jaga agar halaman penting Anda lebih dekat ke halaman utama:
- halaman atas: 1 klik dari halaman utama
- halaman penting: <3 klik
12. Selain itu: faktor peringkat untuk halaman yatim piatu
Anda dapat menemukannya melalui alat audit situs web kami
13. Tautan balik dari halaman utama lebih penting daripada dari halaman internal
14. Jumlah kueri penelusuran situs/url Anda adalah faktor peringkat
Lebih banyak lebih baik
15. Lalu lintas dari Wikipedia adalah faktor peringkat
16. Jika url Anda akan menjadi yang terakhir untuk sesi pencarian (pengguna akan menemukan apa yang dia butuhkan) - ini akan memengaruhi peringkat
Ada beberapa faktor yang sangat ketat untuk hal ini dan juga faktor yang dapat diprediksi.
17. Faktor peringkat penanda
Semakin banyak pengguna menambahkan bookmark url, semakin banyak nilai faktor yang dimilikinya
18. Faktor peringkat khusus untuk video pendek (tiktok, pendek, gulungan)
19. Maps js-api pada halaman (misalnya Google Maps) adalah faktor peringkat
Di Google (misalnya di ceruk perjalanan) menambahkan peta dengan info/fungsi yang berguna juga berfungsi dengan baik.
20. Kata kunci dalam URL adalah faktor peringkat
Seperti yang bisa kita lihat dari deskripsi - yang optimal akan menyertakan hingga 3 kata dari kueri penelusuran.
21. Pengguna yang kembali merupakan faktor peringkat
Buatlah produk dengan retensi yang baik dan itu akan menguntungkan SEO Anda (ada banyak faktor peringkat untuk mengukurnya).
22. Persentase HURUF KAPITAL dalam <judul> adalah faktor peringkat
23. Persentase lalu lintas langsung adalah faktor peringkat
Aka. Jika semua lalu lintas Anda berasal dari Penelusuran Organik - itu mencurigakan + buruk untuk peringkat.
24. Satu lagi faktor peringkat untuk kualitas konten - video yang disematkan rusak pada halaman
- Sematkan video - bagus untuk peringkat.
- Video sematan rusak - buruk.
25. Akun terverifikasi di jejaring sosial memiliki peringkat yang berbeda dengan url lainnya
Penting untuk pencarian merek - idealnya dalam pencarian merek Anda, hanya ada domain Anda + jejaring sosial terverifikasi di 10 besar
26. Jika jangkar backlink Anda berisi semua kata dari kata kunci - itu bagus untuk SEO
Jika ada dalam satu tautan - ini lebih menguntungkan. Terutama jika urutan kata-katanya sama.
27. Rasio backlink "baik" vs "buruk" adalah faktor peringkat
![Rasio backlink "baik" vs "buruk" adalah faktor peringkat](https://www.ranktracker.com/media/yandex-leaked-code-containing-search-ranking-factors-ranktracker-explains-all-ranking-factors/images/i84.png "Rasio backlink "baik" vs "buruk" adalah faktor peringkat")
28. Peringkat kualitas teks pada domain merupakan faktor peringkat
Halaman dengan konten berkualitas rendah memengaruhi seluruh domain.
29. Jumlah iklan di halaman adalah faktor peringkat
30. Ada keacakan sebagai faktor peringkat yang terpisah
Ketika Anda tidak mengerti mengapa beberapa halaman berada di atas - bisa jadi itu hanya acak (untuk menguji faktor perilaku).
31. JS dari Google Analytics adalah faktor peringkat
Bisa ditebak. Situs web yang bagus lebih sering menggunakan GA / Google Analytics daripada situs web yang buruk.
32. Tautan balik dari 100 situs web terbaik menurut PageRank berdampak pada peringkat
33. URL tidak memiliki angka
❌ /100-kartu-kredit-terbaik
✅ /kartu-kredit-terbaik
34. Jumlah garis miring dalam URL
❌ /finance/articles/2023/investment-advices
✅ /saran-investasi
35. Jumlah non-huruf dalam URL
❌ /pet-toys&all$currency=dollar#mobile
✅ / mainan hewan peliharaan
36. Simbol '?' dalam URL adalah faktor peringkat
❌ /movies?genre=action
✅ /film-aksi
37. Kueri penelusuran = URL, termasuk titik dan spasi (??)
Permintaan pencarian adalah "Franklin D. Roosevelt":
❌ / roosevelt
✅ /Franklin_D._Roosevelt
38. Tanggal lama dalam URL
❌ /2009/12/01/cara-mengikat-dasi
✅ /cara-mengikat-dasi
39. Kata kunci ada di URL, bukan di teks halaman
❌ /video-game & halaman tentang musik
✅ /video-game & halaman ini tentang video game
40. Cakupan URL dengan trigram dari kueri penelusuran
✅ /hotels-new-zealand
❌ /nz
❌ /hotel-murah-di-selandia-baru-penawaran-terbaik
- Sertakan 1-3 kata yang paling penting dalam URL;
- Kurangi garis miring/digit/huruf, jika bukan bagian dari kata kunci Anda
41. bobot awal faktor peringkat Yandex
Bobot akhir dihitung oleh AI(matrixnet), tetapi nilai awal juga berguna.
Kesimpulan
Nah, itu dia, hanya itu yang bisa kami bagikan untuk saat ini. Kami baru saja memulai. Ini memberikan gambaran kasar untuk Anda tentang apa yang ada di dalamnya.
Kami hanya menggores permukaannya saja di sini dengan begitu banyak wawasan yang lebih berharga di masa depan.
Tetapi kami cukup benar dalam banyak asumsi dan interpretasi dari luar tentang bagaimana mesin pencari yang begitu luas akan bekerja, setidaknya mengenai tautan.
Secara keseluruhan, bocoran kode Yandex menawarkan wawasan yang menarik tentang cara kerja mesin pencari modern.
Platform Lengkap untuk SEO yang Efektif
Di balik setiap bisnis yang sukses adalah kampanye SEO yang kuat. Namun dengan banyaknya alat dan teknik pengoptimalan yang dapat dipilih, mungkin sulit untuk mengetahui dari mana harus memulai. Nah, jangan takut lagi, karena saya punya hal yang tepat untuk membantu. Menghadirkan platform lengkap Ranktracker untuk SEO yang efektif
Kami akhirnya membuka pendaftaran ke Ranktracker secara gratis!
Buat akun gratisAtau Masuk menggunakan kredensial Anda
Meskipun tidak semua temuan dapat langsung diterapkan pada Google, banyak asumsi yang dibuat dalam beberapa tahun terakhir tentang fungsi umum mesin pencari Internet besar telah dikonfirmasi.
Saya berasumsi bahwa industri SEO masih memiliki beberapa bulan yang menarik ke depannya dengan wawasan baru dari bocoran ini.
Pantau terus halaman ini karena kami akan terus menambahkan faktor peringkat dalam beberapa minggu & bulan ke depan.
Kredit khusus untuk https://twitter.com/alex_buraks