Intro
U hebt waarschijnlijk gehoord van Yandex, de vierde grootste zoekmachine naar marktaandeel wereldwijd. Gisteren is de broncode van Yandex uitgelekt.
Het meest interessante deel voor de SEO gemeenschap is: de lijst van alle 1922 ranking factoren gebruikt in het zoekalgoritme.
We hebben de code gedownload, geanalyseerd en hier op een nuttige manier gepresenteerd.
Het incident zou niet als een verrassing moeten komen, aangezien Yandex of zijn producten vaak onder cyberaanval staan. In 2016 berichtte Hackread.com exclusief over hoe een dark web-verkoper 6,3 miljoen accountgegevens van Yandex-gebruikers verkocht.
In september 2021 werd de Russische zoekmachinegigant getroffen door een van de grootste DDoS-aanvallen, aangedreven door 200.000 gecompromitteerde IoT-apparaten.
Het alles-in-één platform voor effectieve SEO
Achter elk succesvol bedrijf staat een sterke SEO-campagne. Maar met talloze optimalisatietools en -technieken om uit te kiezen, kan het moeilijk zijn om te weten waar te beginnen. Nou, vrees niet meer, want ik heb precies het ding om te helpen. Ik presenteer het Ranktracker alles-in-één platform voor effectieve SEO
We hebben eindelijk de registratie voor Ranktracker helemaal gratis geopend!
Maak een gratis account aanOf log in met uw gegevens
Waarom is dit groot?
Yandex is een van de grootste IT-bedrijven in Rusland. Binnen het land levert het een breder scala aan diensten dan Google. Stel je één bedrijf voor dat Google, Uber, Amazon, Netflix en Spotify vervangt.
Is dit lek echt?
Ik heb zelf nooit bij Yandex gewerkt, maar ik ken verschillende mensen die er in verschillende tijden hebben gewerkt of er nog steeds werken. Ik heb vastgesteld dat ten minste enkele van de archieven zeker moderne broncode voor bedrijfsdiensten bevatten, alsmede documentatie die naar echte intranet-URL's verwijst.
Wat zit er in
De leaker heeft een magnetische link gedeeld met daarin 44,7GB aan bestanden die gekoppeld zijn aan Yandex git sources. De bestanden zouden in juli 2022 van Yandex zijn gestolen. Naast anti-spam richtlijnen zouden de code repositories de broncode van Yandex bevatten.
Het lek onthulde ongeveer 1.922 rangschikkingsfactoren die de zoekmachine gebruikt in haar zoekalgoritme. De code werd gelekt als een torrent. Volgens de analyse van Twitter-gebruiker Alex Buraks omvatten de gelekte gegevens talrijke rangschikkingsfactoren, waaronder tekstrelevantie, PageRank, leeftijd van de inhoud, versheid, enz.
U hebt waarschijnlijk gehoord van Yandex, de vierde grootste zoekmachine naar marktaandeel wereldwijd. Gisteren is eigen broncode van Yandex uitgelekt.
- Alex Buraks (@alex_buraks) 27 januari 2023
Het meest interessante deel voor SEO gemeenschap is: de lijst van alle 1922 ranking factoren die worden gebruikt in het zoekalgoritme
[🧵THREAD] pic.twitter.com/6x82AAmbON
Bovendien bestaan er verschillende factoren voor eindgebruikersgedrag, linkgerelateerde factoren en hostbetrouwbaarheid. SEO's vinden enkele ongebruikelijke rangschikkingsfactoren, zoals het aantal unieke bezoekers, de gemiddelde domeinrangschikking over zoekopdrachten, en het percentage organisch verkeer.
Het lijkt erop dat in ieder geval de broncode voor alle belangrijke diensten van Yandex is uitgelekt:
- Zoekmachine en indexeringsbot
- Kaarten - Zoals Google Maps en Street View
- Alice - AI assistent zoals Siri / Alexa
- Taxi - Uber-achtige taxidienst
- Direct - Advertentieservice zoals Google Ads / Adwords
- Mail - Mail service zoals GMail
- Schijf - Bestandsopslagdienst zoals Google drive
- Markt - Marktplaats zoals Amazon
- Reizen - Zoals een Booking.com plus Vliegtuig, Trein en Bus tickets
- Yandex360 - Zoals Google Workspaces voor diensten op je eigen domein
- Cloud - Waarschijnlijk is niet alle infrastructuur code gelekt.
- Pay - Betalingsverwerking zoals Stripe, maar met een beperkt aantal functies.
- Metrika - Zoals Google Analytics
- En tenminste het backend gedeelte van de meeste andere bedrijfsdiensten is er. Grootste archief genaamd "frontend" moet nog onderzocht worden.
Shestakov merkte verder enkele API-sleutels op, die waarschijnlijk zijn gebruikt om de inzet te testen.
Details over dit lek: zijn hier te vinden:
https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/
Yandex ontkent poging tot hacken
Yandex zegt op de hoogte te zijn van het lek en heeft al een onderzoek ingesteld om na te gaan hoe "fragmenten" van de broncode aan het publiek zijn blootgesteld. Opmerkelijk is dat het lek geen persoonlijke gegevens van gebruikers of werknemers bevat.
Gezien het belang van Yandex in de Russische IT-infrastructuur en de gelekte gegevens, kan echter worden aangenomen dat de aanval is ingegeven door de inval van het land in Oekraïne. Er zouden dus pro-Oekraïense hackers bij betrokken kunnen zijn.
Het alles-in-één platform voor effectieve SEO
Achter elk succesvol bedrijf staat een sterke SEO-campagne. Maar met talloze optimalisatietools en -technieken om uit te kiezen, kan het moeilijk zijn om te weten waar te beginnen. Nou, vrees niet meer, want ik heb precies het ding om te helpen. Ik presenteer het Ranktracker alles-in-één platform voor effectieve SEO
We hebben eindelijk de registratie voor Ranktracker helemaal gratis geopend!
Maak een gratis account aanOf log in met uw gegevens
In zijn officiële verklaring verduidelijkt Yandex dat het bedrijf niet is gehackt en dat een voormalige werknemer betrokken zou kunnen zijn bij het lekken van zijn broncode in het publieke domein. Het toonaangevende Russische IT-bedrijf merkte op dat het gelekte archief codefragmenten bevat die deel uitmaken van een interne repository.
"Yandex werd niet gehackt. Onze beveiligingsdienst vond codefragmenten van een interne repository in het publieke domein, maar de inhoud verschilt van de huidige versie van de repository die in Yandex-diensten wordt gebruikt", luidde de verklaring van het bedrijf.
Toch is het lekken van broncode gevaarlijk omdat het ernstige veiligheidsproblemen oplevert voor organisaties, aangezien bedreigers intellectuele eigendom en systeemgegevens van het bedrijf kunnen waarnemen. Het lekken van broncode zou aanvallers helpen bij het creëren van gerichte beveiligingsexploits.
Wat is in theorie het verschil tussen de algoritmen van Google en die van Yandex?
Ze lijken nogal op elkaar:
- er is een RankBrainanaloog - MatrixNet
- ze gebruiken PageRank (bijna hetzelfde als bij Google);
- zijn veel tekstalgoritmen hetzelfde.
- Er zijn veel ex-googlers in Yandex
- Yanex is gebouwd als Google-kloon;
- SEO specialisten in Rusland gebruiken bijna dezelfde white hat SEO tactieken voor Yandex en voor Google.
Natuurlijk zijn er veel verschillen, maar de aanpak en de meeste rankingfactoren lijken vergelijkbaar.
In de praktijk: Google vs Yandex zoekresultaten komen voor ~70% overeen.
Volgens Statcounter staat Yandex qua marktaandeel dicht bij Yahoo en Bing:
Het bestand met rankingfactoren: https://dropbox.com/s/toyehkkfduogbwk/factors_gen.txt?dl=0
Structuur voor elke factor:
- naam
- link naar interne wiki (beperkt)
- AntiSeoUpperBound (haha)
- beschrijving (het is in het Russisch, ik heb het voor u vertaald)
- enz
1. Eerste factor in de lijst - PageRank.
Belangrijkste inzichten na analyse van deze lijst: Leeftijd van links is een ranking factor.
2. Verkeer en % organisch verkeer zijn rankingfactoren.
Het kopen van PPC beïnvloedt de rankings.
3. Nummers in URL's zijn slecht voor de ranking
4. Te veel slashes in URL's is slecht voor de ranking
5. Harde pessimisatie gelijk aan PR=0
6. De betrouwbaarheid van de gastheer is een rangordefactor
Hoe minder 40x/50x fouten u heeft, hoe beter voor uw organisch verkeer.
7. Er is een aparte rangordefactor voor het verheffen van Wikipedia
8. Veel ranking factoren verbonden met gebruikersgedrag - CTR, last-click, tijd op de site, bounce rate
Opmerking: Wij zijn er bijna zeker van dat deze factoren in Yandex veel meer invloed hebben dan in Google.
9. Leeftijd van het document en laatste update zijn beide rankingfactoren
10. Gemiddelde domein positie over alle zoekopdrachten is een ranking factor
11. Crawl diepte is een ranking factor
Houd uw belangrijke pagina's dichter bij de hoofdpagina:
- top pagina's: 1 klik vanaf de hoofdpagina
- belangrijke pagina's: <3 klikken
12. Bovendien: rankingfactor voor weespagina's
U kunt dit vinden via onze website audit tool
13. Backlinks van hoofdpagina's zijn belangrijker dan van interne pagina's
14. Aantal zoekopdrachten van uw site/url is een rankingfactor
Hoe meer, hoe beter.
15. Verkeer van Wikipedia is een ranking factor
16. Als uw url de laatste zou zijn voor de zoeksessie (de gebruiker zal vinden wat hij nodig heeft) - zou dat gevolgen hebben voor de rankings.
Er zijn strikte factoren voor en ook voorspelbare factoren.
17. Bladwijzers ranking factor
Hoe meer gebruikers een url toevoegen aan bladwijzers, hoe meer factorwaarde deze heeft
18. Speciale rangschikkingsfactoren voor korte video's (tiktok, shorts, reels)
19. Maps js-api op pagina (bijvoorbeeld Google Maps) is een ranking factor
In Google (bijvoorbeeld in de reisniche) werkt het toevoegen van kaarten met nuttige info/functionaliteit ook.
20. Trefwoorden in URL zijn rankingfactoren
Zoals uit de beschrijving blijkt - het optimum zou maximaal 3 woorden uit de zoekopdracht bevatten.
21. Terugkerende gebruikers is een ranking factor
Bouw producten met een goede retentie en het zou uw SEO ten goede komen (er zijn veel rankingfactoren om dit te meten).
22. Percentage HOOFDLETTERS in <title> is een rankingfactor
23. Percentage direct verkeer is een rankingfactor
Aka. Als al uw verkeer kwam van Organic Search - het is verdacht + slecht voor rankings.
24. Nog een rankingfactor voor de kwaliteit van de inhoud - gebroken ingesloten video op de pagina
- Embed video's - goed voor rankings.
- Gebroken embed video's - slecht.
25. Geverifieerde accounts op sociale netwerken ranken anders dan andere url's
Belangrijk voor zoekopdrachten naar merken - idealiter zouden bij het zoeken naar uw merk alleen uw domeinen + geverifieerde sociale netwerken in de top 10 moeten staan.
26. Als de ankers van uw backlinks alle woorden van de sleutelwoorden bevatten - dat is goed voor SEO
Als het in één link staat - is het gunstiger. Vooral als de volgorde van de woorden hetzelfde is.
27. Verhouding "goede" vs "slechte" backlinks is een ranking factor
28. De kwaliteitsrang van de teksten op het domein is een rankingfactor
Pagina's met inhoud van lage kwaliteit beïnvloeden het hele domein.
29. Hoeveelheid advertenties op een pagina is een ranking factor
30. Er is willekeur als een afzonderlijke rangschikkingsfactor
Als je niet begrijpt waarom sommige pagina's bovenaan staan - het zou gewoon willekeurig kunnen zijn (om gedragsfactoren te testen).
31. JS van Google Analytics is een ranking factor
Voorspelbaar. Goede websites gebruiken GA / Google analytics vaker dan slechte websites.
32. Backlinks van de top 100 beste websites volgens PageRank hebben invloed op rankings
33. URL heeft geen cijfers
/100-best-credit-cards
✅ /best-credit-cards
34. Aantal schuine strepen in URL
❌ /finance/articles/2023/investment-advices
/investeringsadviezen
35. Aantal niet-letters in URL
❌ /pet-toys&all$currency=dollar#mobile
/pet-toys
36. "?" symbool in de URL is een ranking factor
/movies?genre=actie
/action-movies
37. Zoekopdracht = URL, inclusief punten en spaties (??)
De zoekopdracht is "Franklin D. Roosevelt":
❌ /roosevelt
✅ /Franklin_D._Roosevelt
38. Oude datum in de URL
❌ /2009/12/01/how-to-tie-a-tie
✅ /how-to-tie-a-tie
39. Trefwoorden staan in URL, niet in de tekst van de pagina
❌ /video-games & pagina gaat over muziek
✅ /video-games & pagina gaat over videogames
40. URL-dekking met trigrammen van de zoekopdracht
/hotels-new-zealand
❌ /nz
/cheap-hotels-in-new-zealand-best-deals
- Neem 1-3 belangrijkste woorden op in de URL;
- Minder schuine strepen/cijfers/niet-letters, als het geen deel uitmaakt van uw trefwoord
41. initiële gewichten van Yandex-rankingfactoren
Eindgewichten berekend door AI(matrixnet), maar beginwaarden zijn ook nuttig.
Conclusie
Nou daar hebben we het, dit is alles wat we delen voor nu. We zijn net begonnen. Dit geeft je een ruw overzicht van wat er in zit.
We zijn nog maar aan het oppervlak en er liggen nog veel meer waardevolle inzichten in het verschiet.
Maar we hadden gelijk met veel aannames en interpretaties van buitenaf over hoe zo'n uitgebreide zoekmachine zou werken, tenminste wat links betreft.
Al met al biedt het lek in de Yandex-code een fascinerend inzicht in de innerlijke werking van een moderne zoekmachine.
Het alles-in-één platform voor effectieve SEO
Achter elk succesvol bedrijf staat een sterke SEO-campagne. Maar met talloze optimalisatietools en -technieken om uit te kiezen, kan het moeilijk zijn om te weten waar te beginnen. Nou, vrees niet meer, want ik heb precies het ding om te helpen. Ik presenteer het Ranktracker alles-in-één platform voor effectieve SEO
We hebben eindelijk de registratie voor Ranktracker helemaal gratis geopend!
Maak een gratis account aanOf log in met uw gegevens
Hoewel niet alle bevindingen rechtstreeks kunnen worden toegepast op Google, worden veel veronderstellingen die de laatste jaren zijn gedaan over de algemene werking van grote internetzoekmachines bevestigd.
Ik neem aan dat de SEO-industrie nog een paar interessante maanden voor de boeg heeft met nieuwe inzichten uit dit lek.
Houd deze pagina in de gaten, want we zullen de komende weken en maanden rankingfactoren blijven toevoegen.
Speciale credits voor https://twitter.com/alex_buraks