Uvod
Verjetno ste že slišali za Yandex, ki je po tržnem deležu četrti največji iskalnik na svetu. Včeraj je prišlo do uhajanja lastniške izvorne kode Yandexa.
Najbolj zanimiv del za skupnost SEO je: seznam vseh 1922 dejavnikov razvrščanja, ki se uporabljajo v iskalnem algoritmu.
Prenesli smo kodo, jo analizirali in jo predstavili na koristen način.
Incident ne bi smel biti presenečenje, saj so Yandex ali njegovi izdelki pogosto tarča kibernetskih napadov. Leta 2016 je portal Hackread.com ekskluzivno poročal o tem, kako je prodajalec na temnem spletu prodajal podatke o 6,3 milijona uporabniških računov podjetja Yandex.
Septembra 2021 je ruskega velikana na področju iskalnikov prizadel eden največjih napadov DDoS, ki ga je poganjalo 200.000 kompromitiranih naprav IoT.
Platforma "vse v enem" za učinkovito SEO
Za vsakim uspešnim podjetjem stoji močna kampanja SEO. Vendar je ob neštetih orodjih in tehnikah optimizacije težko vedeti, kje začeti. Ne bojte se več, ker imam za vas prav to, kar vam lahko pomaga. Predstavljam platformo Ranktracker vse-v-enem za učinkovito SEO
Končno smo odprli registracijo za Ranktracker popolnoma brezplačno!
Ustvarite brezplačen računAli se prijavite s svojimi poverilnicami
Zakaj je to veliko?
Yandex je eno največjih podjetij IT v Rusiji. V državi ponuja širši nabor storitev kot Google. Predstavljajte si podjetje, ki bi nadomestilo Googla, Uber, Amazon, Netflix in Spotify.
Ali je to uhajanje resnično?
Osebno nikoli nisem delal pri Yandexu, poznam pa več ljudi, ki so v različnih obdobjih delali ali še vedno delajo tam. Preveril sem, da vsaj nekateri arhivi zagotovo vsebujejo sodobno izvorno kodo za storitve podjetja in dokumentacijo, ki kaže na prave intranetne naslove URL.
Kaj je v notranjosti
Prodajalec je delil magnetno povezavo, ki vsebuje 44,7 GB datotek, povezanih z viri git podjetja Yandex. Datoteke naj bi bile ukradene iz družbe Yandex julija 2022. Poleg tega, da vsebujejo smernice za preprečevanje neželene elektronske pošte, naj bi skladišča vsebovala tudi izvorno kodo družbe Yandex.
Razkritje je razkrilo približno 1 922 dejavnikov razvrščanja, ki jih iskalnik uporablja v svojem iskalnem algoritmu. Koda je bila razkrita v obliki torrenta. Po analizi, ki jo je objavil uporabnik Twitterja Alex Buraks, razkriti podatki vključujejo številne dejavnike razvrščanja, vključno z ustreznostjo besedila, PageRankom, starostjo vsebine, svežino itd.
Verjetno ste že slišali za Yandex, ki je po tržnem deležu četrti največji iskalnik na svetu. Včeraj je prišlo do uhajanja lastniške izvorne kode Yandexa.
- Alex Buraks (@alex_buraks) 27. januar 2023
Najbolj zanimiv del za skupnost SEO je: seznam vseh 1922 dejavnikov razvrščanja, ki se uporabljajo v iskalnem algoritmu
[🧵THREAD] pic.twitter.com/6x82AAmbON
Poleg tega obstaja več dejavnikov vedenja končnega uporabnika, dejavnikov, povezanih s povezavami, in zanesljivosti gostitelja. SEO najdejo nekaj nenavadnih dejavnikov razvrščanja, kot so število edinstvenih obiskovalcev, povprečna uvrstitev domene v poizvedbah in odstotek organskega prometa.
Zdi se, da je bila razkrita vsaj izvorna koda za vse glavne storitve podjetja Yandex:
- Iskalnik in indeksirni bot
- Zemljevidi - kot sta Google Maps in Street View
- Alice - pomočnik z umetno inteligenco, kot je Siri / Alexa
- Taxi - Uberju podobna taksi služba
- Neposredno - Storitev oglasov, kot je Google Ads / Adwords
- Mail - poštna storitev, kot je GMail
- Disk - storitev shranjevanja datotek, kot je Google drive
- Market - Trg, kot je Amazon
- Potovanja - kot Booking.com ter letalske, vlakovne in avtobusne vozovnice
- Yandex360 - Podobno kot Googlova delovna okolja za storitve v lastni domeni
- Oblak - Verjetno ni bila razkrita vsa infrastrukturna koda.
- Plačilo - Obdelava plačil kot Stripe, vendar z omejenim naborom funkcij
- Metrika - Kot Google Analytics
- Vsaj zaledni del večine drugih storitev podjetja je na voljo. Največji arhiv, imenovan "frontend", še ni raziskan.
Šestakov je opazil tudi nekaj ključev API, ki so bili najverjetneje uporabljeni za testno uvajanje.
Podrobnosti o tem uhajanju najdete tukaj:
https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/
Yandex zanika poskus vdora
Družba Yandex trdi, da je seznanjena z uhajanjem in da je že začela preiskavo, da bi preverila, kako so bili "fragmenti" izvorne kode izpostavljeni javnosti. Omeniti velja, da uhajanje ne vključuje osebnih podatkov uporabnikov ali zaposlenih.
Glede na pomen podjetja Yandex v ruski informacijski infrastrukturi in odtekle podatke pa bi lahko domnevali, da je bil napad motiviran z invazijo te države na Ukrajino. Torej bi lahko bili v napad vpleteni proukrajinski hekerji.
Platforma "vse v enem" za učinkovito SEO
Za vsakim uspešnim podjetjem stoji močna kampanja SEO. Vendar je ob neštetih orodjih in tehnikah optimizacije težko vedeti, kje začeti. Ne bojte se več, ker imam za vas prav to, kar vam lahko pomaga. Predstavljam platformo Ranktracker vse-v-enem za učinkovito SEO
Končno smo odprli registracijo za Ranktracker popolnoma brezplačno!
Ustvarite brezplačen računAli se prijavite s svojimi poverilnicami
Yandex je v svoji uradni izjavi pojasnil, da podjetje ni bilo napadeno in da bi lahko bil nekdanji zaposleni vpleten v uhajanje izvorne kode v javnost. Vodilno rusko podjetje IT je opozorilo, da puščeni arhiv vsebuje delčke kode, ki so del notranjega skladišča, katerega podatki se razlikujejo od tistih, ki se uporabljajo v najnovejši različici skladišča.
"Yandex ni bil vdrt. Naša varnostna služba je našla delčke kode iz notranjega repozitorija v javni domeni, vendar se vsebina razlikuje od trenutne različice repozitorija, ki se uporablja v storitvah Yandexa," so zapisali v izjavi podjetja.
Kljub temu je uhajanje izvorne kode nevarno, saj predstavlja resno varnostno težavo za organizacije, saj lahko akterji groženj opazujejo intelektualno lastnino podjetja in sistemske podatke. Puščanje izvorne kode bi napadalcem pomagalo ustvariti ciljno usmerjene varnostne zlorabe.
Kakšna je teoretična razlika med algoritmi, ki jih uporabljata Google in Yandex?
So si precej podobni:
- obstaja analog RankBrain- MatrixNet
- uporabljajo PageRank (skoraj enako kot v Googlu);
- veliko besedilnih algoritmov je enakih.
- V družbi Yandex je veliko nekdanjih uslužbencev
- Yanex je bil zgrajen kot Googlov klon;
- SEO strokovnjaki v Rusiji uporabljajo skoraj enake taktike white hat SEO za Yandex in Google
Seveda obstaja veliko razlik, vendar se zdi, da so pristop in večina dejavnikov razvrščanja podobni.
V praksi: če primerjamo rezultate iskanja v Googlu in Yandexu, se ujemajo v ~ 70 %.
Po podatkih Statcounterja je Yandex po tržnem deležu blizu Yahooja in Binga:
Datoteka z dejavniki razvrščanja: https: //dropbox.com/s/toyehkkfduogbwk/factors_gen.txt?dl=0
Struktura za vsak dejavnik:
- ime
- povezava do notranjega wikija (omejeno)
- AntiSeoUpperBound (haha)
- opis (je v ruščini, prevedel sem ga za vas)
- itd.
1. Prvi dejavnik na seznamu - PageRank.
Glavne ugotovitve po analizi tega seznama: Starost povezav je dejavnik razvrščanja.
2. Promet in % organskega prometa sta dejavnika razvrščanja.
Nakup PPC vpliva na uvrstitve.
3. Številke v URL-jih škodijo uvrstitvam
4. Preveč šumnikov v URL-jih škodi razvrščanju
5. Trda pesimizacija enaka PR=0
6. Zanesljivost gostitelja je dejavnik razvrščanja
Čim manj napak 40x/50x imate, tem bolje za vaš organski promet
7. Obstaja ločen dejavnik razvrščanja za dvigovanje Wikipedije
8. Veliko dejavnikov razvrščanja, povezanih z vedenjem uporabnikov - CTR, zadnji klik, čas na spletnem mestu, stopnja odboja
Opomba: Skoraj prepričani smo, da imajo ti dejavniki v Yandexu veliko večji vpliv kot v Googlu.
9. Starost dokumenta in zadnja posodobitev sta dejavnika razvrščanja
10. Povprečni položaj domene v vseh poizvedbah je dejavnik razvrščanja
11. Globina pregledovanja je dejavnik razvrščanja
Pomembne strani naj bodo bližje glavni strani:
- zgornje strani: 1 klik z glavne strani
- pomembne strani: <3 kliki
12. Dodatno: dejavnik razvrščanja za osirotele strani
To lahko ugotovite z našim orodjem za revizijo spletnega mesta.
13. Povratne povezave z glavnih strani so pomembnejše kot z notranjih strani
14. Število iskalnih poizvedb vašega spletnega mesta/url je dejavnik razvrščanja
Čim več, tem bolje
15. Promet iz Wikipedije je dejavnik razvrščanja
16. Če bi bil vaš url zadnji za sejo iskanja (uporabnik bo našel, kar potrebuje) - to bi vplivalo na uvrstitev
Za to obstajajo strogi dejavniki in tudi predvidljivi dejavniki.
17. Dejavnik razvrstitve zaznamkov
Čim več uporabnikov doda url v zaznamke, tem večjo faktorsko vrednost ima.
18. Posebni dejavniki razvrščanja za kratke videoposnetke (tiktok, kratki posnetki, kolute)
19. Zemljevidi js-api na strani (na primer Google Maps) so dejavnik razvrščanja
Tudi v Googlu (na primer v potovalni niši) je dodajanje zemljevidov z uporabnimi informacijami/funkcionalnostjo uspešno.
20. Ključne besede v URL-ju so dejavniki razvrščanja
Kot je razvidno iz opisa, bi optimalno vključevalo do 3 besede iz iskalne poizvedbe.
21. Vračanje uporabnikov je dejavnik razvrščanja
Ustvarite izdelke z dobrim zadrževanjem in to bo koristilo vašemu SEO (obstaja veliko dejavnikov razvrščanja za merjenje tega).
22. Delež velikih tiskanih črk v <title> je dejavnik razvrščanja
23. Delež neposrednega prometa je dejavnik razvrščanja
Aka. Če je ves vaš promet prišel iz organskega iskanja, je to sumljivo + slabo za uvrstitev.
24. Še en dejavnik razvrščanja za kakovost vsebine - pokvarjen vdelani videoposnetek na strani
- Vstavljanje videoposnetkov - dobro za uvrstitev.
- Pokvarjeni vstavljeni videoposnetki - slabo.
25. Preverjeni računi v družabnih omrežjih se uvrščajo drugače kot drugi urni naslovi
Pomembno za iskanja blagovne znamke - v idealnem primeru bi morale biti pri iskanju vaše blagovne znamke v prvih 10 mestih samo vaše domene + preverjena družbena omrežja.
26. Če sidra vaših povratnih povezav vsebujejo vse besede iz ključnih besed, je to dobro za SEO.
Če je v eni povezavi, je to bolj koristno. Še posebej, če je vrstni red besed enak.
27. Razmerje med "dobrimi" in "slabimi" povratnimi povezavami je dejavnik razvrščanja
![Razmerje med "dobrimi" in "slabimi" povratnimi povezavami je dejavnik razvrstitve](https://www.ranktracker.com/media/yandex-leaked-code-containing-search-ranking-factors-ranktracker-explains-all-ranking-factors/images/i84.png "Razmerje med "dobrimi" in "slabimi" povratnimi povezavami je dejavnik razvrstitve")
28. Rang kakovosti besedil na domeni je dejavnik razvrščanja
Strani z nizkokakovostno vsebino vplivajo na celotno domeno.
29. Količina oglasov na strani je dejavnik razvrščanja
30. Obstaja naključnost kot ločen dejavnik razvrščanja
Če ne razumete, zakaj so nekatere strani na vrhu, je to lahko naključno (za testiranje vedenjskih dejavnikov).
31. JS iz storitve Google Analytics je dejavnik razvrščanja
Predvidljivo. Dobra spletna mesta uporabljajo GA / Google analytics pogosteje kot slaba spletna mesta.
32. Vpliv povratnih povezav iz 100 najboljših spletnih strani po PageRanku na uvrstitev
33. URL nima številk
❌ /100-best-credit-cards
✅ /best-credit-cards
34. Število šumnikov v naslovu URL
❌ /finance/articles/2023/investment-advices
✅ /investicijski nasveti
35. Število črk, ki niso črke, v naslovu URL
❌ /pet-toys&all$currency=dollar#mobile
✅ /pet-toys
36. Simbol '?' v naslovu URL je dejavnik razvrščanja
❌ /movies?genre=action
✅ /action-movies
37. Iskalna poizvedba = URL, vključno s pikami in presledki (??)
Iskalna poizvedba je "Franklin D. Roosevelt":
❌ /roosevelt
✅ /Franklin_D._Roosevelt
38. Stari datum v naslovu URL
❌ /2009/12/01/how-to-tie-a-tie
✅ /kako zavezati kravato
39. Ključne besede so v naslovu URL in ne v besedilu strani
❌ /videoigre & stran je o glasbi
✅ /video-games & stran je o video igrah
40. Pokritost URL s trigrami iz iskalne poizvedbe
✅ /hotels-new-zealand
❌ /nz
❌ /cheap-hotels-in-new-zealand-best-deals
- V naslov URL vključite 1-3 najpomembnejše besede;
- Manj črk/številk/nečrk, če niso del ključne besede.
41. začetne uteži dejavnikov razvrščanja Yandex
Končne uteži izračuna AI(matrixnet), vendar so uporabne tudi začetne vrednosti.
Zaključek
To je vse, kar za zdaj delimo. Pravkar smo začeli. To vam omogoča grob pregled nad tem, kaj je v njem.
S tem smo se le spustili na površje, saj je pred nami še veliko dragocenih spoznanj.
Vendar smo imeli v številnih predpostavkah in interpretacijah od zunaj glede delovanja tako obsežnega iskalnika precej prav, vsaj kar zadeva povezave.
Na splošno je uhajanje kode Yandexa zanimiv vpogled v notranje delovanje sodobnega iskalnika.
Platforma "vse v enem" za učinkovito SEO
Za vsakim uspešnim podjetjem stoji močna kampanja SEO. Vendar je ob neštetih orodjih in tehnikah optimizacije težko vedeti, kje začeti. Ne bojte se več, ker imam za vas prav to, kar vam lahko pomaga. Predstavljam platformo Ranktracker vse-v-enem za učinkovito SEO
Končno smo odprli registracijo za Ranktracker popolnoma brezplačno!
Ustvarite brezplačen računAli se prijavite s svojimi poverilnicami
Čeprav vseh ugotovitev ni mogoče neposredno uporabiti za Google, so se potrdile številne domneve o splošnem delovanju velikih spletnih iskalnikov, ki so bile v zadnjih letih postavljene.
Predvidevam, da je pred panogo SEO še nekaj zanimivih mesecev z novimi spoznanji iz tega uhajanja.
Spremljajte to stran, saj bomo v prihodnjih tednih in mesecih še naprej dodajali dejavnike razvrščanja.
Posebne zasluge za https://twitter.com/alex_buraks