• Technologie

Yandex lekte code met 1.922 ranking factoren Ranktracker verklaart alle ranking factoren

  • Felix Rose-Collins
  • 7 min read
Yandex lekte code met 1.922 ranking factoren Ranktracker verklaart alle ranking factoren

Intro

U hebt waarschijnlijk gehoord van Yandex, de vierde grootste zoekmachine naar marktaandeel wereldwijd. Gisteren is de broncode van Yandex uitgelekt.

Het meest interessante deel voor de SEO gemeenschap is: de lijst van alle 1922 ranking factoren gebruikt in het zoekalgoritme.

We hebben de code gedownload, geanalyseerd en hier op een nuttige manier gepresenteerd.

Yandex leak

Het incident zou niet als een verrassing moeten komen, aangezien Yandex of zijn producten vaak onder cyberaanval staan. In 2016 berichtte Hackread.com exclusief over hoe een dark web-verkoper 6,3 miljoen accountgegevens van Yandex-gebruikers verkocht.

In september 2021 werd de Russische zoekmachinegigant getroffen door een van de grootste DDoS-aanvallen, aangedreven door 200.000 gecompromitteerde IoT-apparaten.

Maak kennis met Ranktracker

Het alles-in-één platform voor effectieve SEO

Achter elk succesvol bedrijf staat een sterke SEO-campagne. Maar met talloze optimalisatietools en -technieken om uit te kiezen, kan het moeilijk zijn om te weten waar te beginnen. Nou, vrees niet meer, want ik heb precies het ding om te helpen. Ik presenteer het Ranktracker alles-in-één platform voor effectieve SEO

We hebben eindelijk de registratie voor Ranktracker helemaal gratis geopend!

Maak een gratis account aan

Of log in met uw gegevens

Yandex git sources

Waarom is dit groot?

Yandex is een van de grootste IT-bedrijven in Rusland. Binnen het land levert het een breder scala aan diensten dan Google. Stel je één bedrijf voor dat Google, Uber, Amazon, Netflix en Spotify vervangt.

Is dit lek echt?

Ik heb zelf nooit bij Yandex gewerkt, maar ik ken verschillende mensen die er in verschillende tijden hebben gewerkt of er nog steeds werken. Ik heb vastgesteld dat ten minste enkele van de archieven zeker moderne broncode voor bedrijfsdiensten bevatten, alsmede documentatie die naar echte intranet-URL's verwijst.

Wat zit er in

De leaker heeft een magnetische link gedeeld met daarin 44,7GB aan bestanden die gekoppeld zijn aan Yandex git sources. De bestanden zouden in juli 2022 van Yandex zijn gestolen. Naast anti-spam richtlijnen zouden de code repositories de broncode van Yandex bevatten.

Het lek onthulde ongeveer 1.922 rangschikkingsfactoren die de zoekmachine gebruikt in haar zoekalgoritme. De code werd gelekt als een torrent. Volgens de analyse van Twitter-gebruiker Alex Buraks omvatten de gelekte gegevens talrijke rangschikkingsfactoren, waaronder tekstrelevantie, PageRank, leeftijd van de inhoud, versheid, enz.

Bovendien bestaan er verschillende factoren voor eindgebruikersgedrag, linkgerelateerde factoren en hostbetrouwbaarheid. SEO's vinden enkele ongebruikelijke rangschikkingsfactoren, zoals het aantal unieke bezoekers, de gemiddelde domeinrangschikking over zoekopdrachten, en het percentage organisch verkeer.

Het lijkt erop dat in ieder geval de broncode voor alle belangrijke diensten van Yandex is uitgelekt:

  • Zoekmachine en indexeringsbot
  • Kaarten - Zoals Google Maps en Street View
  • Alice - AI assistent zoals Siri / Alexa
  • Taxi - Uber-achtige taxidienst
  • Direct - Advertentieservice zoals Google Ads / Adwords
  • Mail - Mail service zoals GMail
  • Schijf - Bestandsopslagdienst zoals Google drive
  • Markt - Marktplaats zoals Amazon
  • Reizen - Zoals een Booking.com plus Vliegtuig, Trein en Bus tickets
  • Yandex360 - Zoals Google Workspaces voor diensten op je eigen domein
  • Cloud - Waarschijnlijk is niet alle infrastructuur code gelekt.
  • Pay - Betalingsverwerking zoals Stripe, maar met een beperkt aantal functies.
  • Metrika - Zoals Google Analytics
  • En tenminste het backend gedeelte van de meeste andere bedrijfsdiensten is er. Grootste archief genaamd "frontend" moet nog onderzocht worden.

Shestakov merkte verder enkele API-sleutels op, die waarschijnlijk zijn gebruikt om de inzet te testen.

Details over dit lek: zijn hier te vinden:

https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/

Yandex ontkent poging tot hacken

Yandex zegt op de hoogte te zijn van het lek en heeft al een onderzoek ingesteld om na te gaan hoe "fragmenten" van de broncode aan het publiek zijn blootgesteld. Opmerkelijk is dat het lek geen persoonlijke gegevens van gebruikers of werknemers bevat.

Gezien het belang van Yandex in de Russische IT-infrastructuur en de gelekte gegevens, kan echter worden aangenomen dat de aanval is ingegeven door de inval van het land in Oekraïne. Er zouden dus pro-Oekraïense hackers bij betrokken kunnen zijn.

Maak kennis met Ranktracker

Het alles-in-één platform voor effectieve SEO

Achter elk succesvol bedrijf staat een sterke SEO-campagne. Maar met talloze optimalisatietools en -technieken om uit te kiezen, kan het moeilijk zijn om te weten waar te beginnen. Nou, vrees niet meer, want ik heb precies het ding om te helpen. Ik presenteer het Ranktracker alles-in-één platform voor effectieve SEO

We hebben eindelijk de registratie voor Ranktracker helemaal gratis geopend!

Maak een gratis account aan

Of log in met uw gegevens

In zijn officiële verklaring verduidelijkt Yandex dat het bedrijf niet is gehackt en dat een voormalige werknemer betrokken zou kunnen zijn bij het lekken van zijn broncode in het publieke domein. Het toonaangevende Russische IT-bedrijf merkte op dat het gelekte archief codefragmenten bevat die deel uitmaken van een interne repository.

"Yandex werd niet gehackt. Onze beveiligingsdienst vond codefragmenten van een interne repository in het publieke domein, maar de inhoud verschilt van de huidige versie van de repository die in Yandex-diensten wordt gebruikt", luidde de verklaring van het bedrijf.

Toch is het lekken van broncode gevaarlijk omdat het ernstige veiligheidsproblemen oplevert voor organisaties, aangezien bedreigers intellectuele eigendom en systeemgegevens van het bedrijf kunnen waarnemen. Het lekken van broncode zou aanvallers helpen bij het creëren van gerichte beveiligingsexploits.

Wat is in theorie het verschil tussen de algoritmen van Google en die van Yandex?

Ze lijken nogal op elkaar:

  • er is een RankBrainanaloog - MatrixNet
  • ze gebruiken PageRank (bijna hetzelfde als bij Google);
  • zijn veel tekstalgoritmen hetzelfde.

Yandex vs Google

  • Er zijn veel ex-googlers in Yandex
  • Yanex is gebouwd als Google-kloon;
  • SEO specialisten in Rusland gebruiken bijna dezelfde white hat SEO tactieken voor Yandex en voor Google.

Natuurlijk zijn er veel verschillen, maar de aanpak en de meeste rankingfactoren lijken vergelijkbaar.

In de praktijk: Google vs Yandex zoekresultaten komen voor ~70% overeen.

Volgens Statcounter staat Yandex qua marktaandeel dicht bij Yahoo en Bing:

search engine market share worldwide

Het bestand met rankingfactoren: https://dropbox.com/s/toyehkkfduogbwk/factors_gen.txt?dl=0

Structuur voor elke factor:

  1. naam
  2. link naar interne wiki (beperkt)
  3. AntiSeoUpperBound (haha)
  4. beschrijving (het is in het Russisch, ik heb het voor u vertaald)
  5. enz

1. Eerste factor in de lijst - PageRank.

First factor in the list - PageRank

Belangrijkste inzichten na analyse van deze lijst: Leeftijd van links is een ranking factor.

Age of links is a ranking factor.

2. Verkeer en % organisch verkeer zijn rankingfactoren.

Het kopen van PPC beïnvloedt de rankings.

Traffic and % of organic traffic are ranking factors

3. Nummers in URL's zijn slecht voor de ranking

Numbers in URLs is bad for rankings

4. Te veel slashes in URL's is slecht voor de ranking

Too many slashes in URLs is bad for ranking

5. Harde pessimisatie gelijk aan PR=0

Hard pessimization equal PR=0

6. De betrouwbaarheid van de gastheer is een rangordefactor

Hoe minder 40x/50x fouten u heeft, hoe beter voor uw organisch verkeer.

Host reliability is a ranking factor

7. Er is een aparte rangordefactor voor het verheffen van Wikipedia

there is a separate ranking factor for uplifting Wikipedia

8. Veel ranking factoren verbonden met gebruikersgedrag - CTR, last-click, tijd op de site, bounce rate

Opmerking: Wij zijn er bijna zeker van dat deze factoren in Yandex veel meer invloed hebben dan in Google.

A lot of ranking factors connected with user behaviour - CTR, last-click, time on site, bounce rate

9. Leeftijd van het document en laatste update zijn beide rankingfactoren

Document age and last update both are ranking factors

10. Gemiddelde domein positie over alle zoekopdrachten is een ranking factor

Average domain position across all queries is a ranking factor

11. Crawl diepte is een ranking factor

Houd uw belangrijke pagina's dichter bij de hoofdpagina:

  • top pagina's: 1 klik vanaf de hoofdpagina
  • belangrijke pagina's: <3 klikken

Crawl depth is a ranking factor

12. Bovendien: rankingfactor voor weespagina's

U kunt dit vinden via onze website audit tool

Additionally: ranking factor for orphan pages

13. Backlinks van hoofdpagina's zijn belangrijker dan van interne pagina's

Backlinks from main pages are more important than from internal pages

14. Aantal zoekopdrachten van uw site/url is een rankingfactor

Hoe meer, hoe beter.

Number of search queries of your site/url is a ranking factor

15. Verkeer van Wikipedia is een ranking factor

Traffic from Wikipedia is a ranking factor

16. Als uw url de laatste zou zijn voor de zoeksessie (de gebruiker zal vinden wat hij nodig heeft) - zou dat gevolgen hebben voor de rankings.

Er zijn strikte factoren voor en ook voorspelbare factoren.

If your url would be the last for search session (user will find what he needs) - it would impact rankings

17. Bladwijzers ranking factor

Hoe meer gebruikers een url toevoegen aan bladwijzers, hoe meer factorwaarde deze heeft

Bookmarks ranking factor

18. Speciale rangschikkingsfactoren voor korte video's (tiktok, shorts, reels)

Special ranking factors for short videos (tiktok, shorts, reels)

19. Maps js-api op pagina (bijvoorbeeld Google Maps) is een ranking factor

In Google (bijvoorbeeld in de reisniche) werkt het toevoegen van kaarten met nuttige info/functionaliteit ook.

Maps js-api on page (for example Google Maps) is a ranking factor

20. Trefwoorden in URL zijn rankingfactoren

Zoals uit de beschrijving blijkt - het optimum zou maximaal 3 woorden uit de zoekopdracht bevatten.

Keywords in URL are ranking factors

21. Terugkerende gebruikers is een ranking factor

Bouw producten met een goede retentie en het zou uw SEO ten goede komen (er zijn veel rankingfactoren om dit te meten).

Returning users is a ranking factor

22. Percentage HOOFDLETTERS in <title> is een rankingfactor

Percentage of CAPITAL LETTERS in title> is a ranking factor

23. Percentage direct verkeer is een rankingfactor

Aka. Als al uw verkeer kwam van Organic Search - het is verdacht + slecht voor rankings.

Percentage of direct traffic is a ranking factor

24. Nog een rankingfactor voor de kwaliteit van de inhoud - gebroken ingesloten video op de pagina

  • Embed video's - goed voor rankings.
  • Gebroken embed video's - slecht.

One more ranking factor for content quality - broken embedded video on the page

25. Geverifieerde accounts op sociale netwerken ranken anders dan andere url's

Belangrijk voor zoekopdrachten naar merken - idealiter zouden bij het zoeken naar uw merk alleen uw domeinen + geverifieerde sociale netwerken in de top 10 moeten staan.

Verified accounts on social networks ranks differently as other urls

26. Als de ankers van uw backlinks alle woorden van de sleutelwoorden bevatten - dat is goed voor SEO

Als het in één link staat - is het gunstiger. Vooral als de volgorde van de woorden hetzelfde is.

If your backlinks anchors contain all words from the keywords - it's good for SEO

27. Verhouding "goede" vs "slechte" backlinks is een ranking factor

28. De kwaliteitsrang van de teksten op het domein is een rankingfactor

Pagina's met inhoud van lage kwaliteit beïnvloeden het hele domein.

The quality rank of texts on the domain is a ranking factor

29. Hoeveelheid advertenties op een pagina is een ranking factor

Amount of advertisements on a page is a ranking factor

30. Er is willekeur als een afzonderlijke rangschikkingsfactor

Als je niet begrijpt waarom sommige pagina's bovenaan staan - het zou gewoon willekeurig kunnen zijn (om gedragsfactoren te testen).

There is a random as a separate ranking factor

31. JS van Google Analytics is een ranking factor

Voorspelbaar. Goede websites gebruiken GA / Google analytics vaker dan slechte websites.

JS from Google Analytics is a ranking factor

32. Backlinks van de top 100 beste websites volgens PageRank hebben invloed op rankings

Backlinks from the top 100 best websites by PageRank impacts on rankings

33. URL heeft geen cijfers

/100-best-credit-cards

/best-credit-cards

URL has no digits

34. Aantal schuine strepen in URL

/finance/articles/2023/investment-advices

/investeringsadviezen

Number of slashes in URL

35. Aantal niet-letters in URL

/pet-toys&all$currency=dollar#mobile

/pet-toys

Number of non-letters in URL

36. "?" symbool in de URL is een ranking factor

/movies?genre=actie

/action-movies

'?' symbol in the URL is a ranking factor

37. Zoekopdracht = URL, inclusief punten en spaties (??)

De zoekopdracht is "Franklin D. Roosevelt":

/roosevelt

/Franklin_D._Roosevelt

Search query = URL, including dots and spaces (??)

38. Oude datum in de URL

/2009/12/01/how-to-tie-a-tie

/how-to-tie-a-tie

Old date in the URL

39. Trefwoorden staan in URL, niet in de tekst van de pagina

/video-games & pagina gaat over muziek

/video-games & pagina gaat over videogames

Keywords is in URL, not in the text of the page

40. URL-dekking met trigrammen van de zoekopdracht

/hotels-new-zealand

/nz

/cheap-hotels-in-new-zealand-best-deals

URL coverage with trigrams from the search query

  • Neem 1-3 belangrijkste woorden op in de URL;
  • Minder schuine strepen/cijfers/niet-letters, als het geen deel uitmaakt van uw trefwoord

41. initiële gewichten van Yandex-rankingfactoren

Eindgewichten berekend door AI(matrixnet), maar beginwaarden zijn ook nuttig.

initial weights of Yandex ranking factors

Conclusie

Nou daar hebben we het, dit is alles wat we delen voor nu. We zijn net begonnen. Dit geeft je een ruw overzicht van wat er in zit.

We zijn nog maar aan het oppervlak en er liggen nog veel meer waardevolle inzichten in het verschiet.

Maar we hadden gelijk met veel aannames en interpretaties van buitenaf over hoe zo'n uitgebreide zoekmachine zou werken, tenminste wat links betreft.

Al met al biedt het lek in de Yandex-code een fascinerend inzicht in de innerlijke werking van een moderne zoekmachine.

Maak kennis met Ranktracker

Het alles-in-één platform voor effectieve SEO

Achter elk succesvol bedrijf staat een sterke SEO-campagne. Maar met talloze optimalisatietools en -technieken om uit te kiezen, kan het moeilijk zijn om te weten waar te beginnen. Nou, vrees niet meer, want ik heb precies het ding om te helpen. Ik presenteer het Ranktracker alles-in-één platform voor effectieve SEO

We hebben eindelijk de registratie voor Ranktracker helemaal gratis geopend!

Maak een gratis account aan

Of log in met uw gegevens

Hoewel niet alle bevindingen rechtstreeks kunnen worden toegepast op Google, worden veel veronderstellingen die de laatste jaren zijn gedaan over de algemene werking van grote internetzoekmachines bevestigd.

Ik neem aan dat de SEO-industrie nog een paar interessante maanden voor de boeg heeft met nieuwe inzichten uit dit lek.

Houd deze pagina in de gaten, want we zullen de komende weken en maanden rankingfactoren blijven toevoegen.

Speciale credits voor https://twitter.com/alex_buraks

Felix Rose-Collins

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Felix Rose-Collins is the Co-founder and CEO/CMO of Ranktracker. With over 15 years of SEO experience, he has single-handedly scaled the Ranktracker site to over 500,000 monthly visits, with 390,000 of these stemming from organic searches each month.

Begin Ranktracker te gebruiken... Gratis!

Ontdek wat uw website belemmert in de ranking.

Maak een gratis account aan

Of log in met uw gegevens

Different views of Ranktracker app