Introduzione
Probabilmente avrete sentito parlare di Yandex, il quarto motore di ricerca per quota di mercato a livello mondiale. Ieri è trapelato il codice sorgente proprietario di Yandex.
La parte più interessante per la comunità SEO è: l'elenco di tutti i 1922 fattori di ranking utilizzati nell'algoritmo di ricerca.
Abbiamo scaricato il codice, lo abbiamo analizzato e lo presentiamo qui in modo utile.
L'incidente non dovrebbe sorprendere, poiché Yandex o i suoi prodotti sono spesso oggetto di attacchi informatici. Nel 2016, Hackread.com ha riportato in esclusiva come un venditore del dark web stesse vendendo 6,3 milioni di dati di account di utenti Yandex.
Nel settembre 2021, il gigante russo dei motori di ricerca è stato colpito da uno dei più grandi attacchi DDoS alimentato da 200.000 dispositivi IoT compromessi.
La piattaforma all-in-one per un SEO efficace
Dietro ogni azienda di successo c'è una forte campagna SEO. Ma con innumerevoli strumenti e tecniche di ottimizzazione tra cui scegliere, può essere difficile sapere da dove iniziare. Ebbene, non temete più, perché ho quello che fa per voi. Vi presento la piattaforma Ranktracker all-in-one per una SEO efficace.
Abbiamo finalmente aperto la registrazione a Ranktracker in modo assolutamente gratuito!
Creare un account gratuitoOppure accedi con le tue credenziali
Perché è così grande?
Yandex è una delle più grandi aziende informatiche della Russia. All'interno del Paese fornisce una gamma di servizi più ampia di quella di Google. Immaginate un'azienda che sostituisca Google, Uber, Amazon, Netflix e Spotify.
Questa fuga di notizie è reale?
Personalmente non ho mai lavorato presso Yandex, ma conosco diverse persone che vi hanno lavorato in tempi diversi o vi lavorano tuttora. Ho verificato che almeno alcuni degli archivi contengono sicuramente codice sorgente moderno per i servizi dell'azienda, nonché documentazione che punta a URL intranet reali.
Cosa c'è dentro
Il leaker ha condiviso un link magnetico contenente 44,7 GB di file collegati alle fonti git di Yandex. I file sarebbero stati rubati da Yandex nel luglio 2022. Oltre a contenere linee guida anti-spam, si ritiene che i repository di codice contengano il codice sorgente di Yandex.
La fuga di notizie ha rivelato circa 1.922 fattori di ranking che il motore di ricerca utilizza nel suo algoritmo di ricerca. Il codice è stato diffuso sotto forma di torrent. Secondo l'analisi pubblicata dall'utente di Twitter Alex Buraks, i dati trapelati includono numerosi fattori di ranking, tra cui la pertinenza del testo, il PageRank, l'età dei contenuti, la freschezza, ecc.
Probabilmente avrete sentito parlare di Yandex, il quarto motore di ricerca per quota di mercato a livello mondiale. Ieri è trapelato il codice sorgente proprietario di Yandex.
- Alex Buraks (@alex_buraks) 27 gennaio 2023
La parte più interessante per la comunità SEO è: l'elenco di tutti i 1922 fattori di ranking utilizzati nell'algoritmo di ricerca.
[🧵THREAD] pic.twitter.com/6x82AAmbON
Inoltre, esistono diversi fattori legati al comportamento dell'utente finale, ai link e all'affidabilità dell'host. I SEO trovano alcuni fattori di ranking insoliti, come il numero di visitatori unici, il posizionamento medio del dominio tra le query e la percentuale di traffico organico.
Sembra che sia trapelato almeno il codice sorgente di tutti i principali servizi di Yandex:
- Motore di ricerca e bot di indicizzazione
- Mappe - Come Google Maps e Street View
- Alice - Assistente AI come Siri / Alexa
- Taxi - Servizio taxi simile a Uber
- Diretto - Servizio di annunci come Google Ads / Adwords
- Mail - Servizio di posta elettronica come GMail
- Disco - Servizio di archiviazione file come Google Drive
- Mercato - Mercato come Amazon
- Viaggi - Come Booking.com più biglietti aerei, treni e autobus
- Yandex360 - Come Google Workspaces per i servizi sul proprio dominio
- Cloud - Probabilmente non tutto il codice dell'infrastruttura è trapelato.
- Pay - Elaborazione dei pagamenti come Stripe, ma con un set limitato di funzioni.
- Metrika - Come Google Analytics
- E almeno la parte backend della maggior parte degli altri servizi aziendali è presente. Il più grande archivio chiamato "frontend" deve ancora essere esplorato.
Shestakov ha inoltre notato alcune chiavi API, che molto probabilmente sono state utilizzate per testare la distribuzione.
I dettagli su questa fuga di notizie sono disponibili qui:
https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/
Yandex smentisce il tentativo di hackeraggio
Yandex afferma di essere a conoscenza della fuga di notizie e di aver già avviato un'indagine per verificare come i "frammenti" di codice sorgente siano stati esposti al pubblico. Vale la pena notare che la fuga di notizie non comprende dati personali di utenti o dipendenti.
Tuttavia, considerando l'importanza di Yandex nell'infrastruttura informatica russa e i dati trapelati, si potrebbe ipotizzare che l'attacco sia stato motivato dall'invasione dell'Ucraina da parte del Paese. Quindi, potrebbero essere coinvolti hacker pro-Ucraina.
La piattaforma all-in-one per un SEO efficace
Dietro ogni azienda di successo c'è una forte campagna SEO. Ma con innumerevoli strumenti e tecniche di ottimizzazione tra cui scegliere, può essere difficile sapere da dove iniziare. Ebbene, non temete più, perché ho quello che fa per voi. Vi presento la piattaforma Ranktracker all-in-one per una SEO efficace.
Abbiamo finalmente aperto la registrazione a Ranktracker in modo assolutamente gratuito!
Creare un account gratuitoOppure accedi con le tue credenziali
Nella sua dichiarazione ufficiale, Yandex ha chiarito che l'azienda non è stata violata e che un ex dipendente potrebbe essere coinvolto nella fuga di codice sorgente di pubblico dominio. L'azienda informatica leader in Russia ha fatto notare che l'archivio trapelato comprende frammenti di codice che fanno parte di un repository interno, i cui dati sono diversi da quelli utilizzati nell'ultima versione del repository.
"Yandex non è stata violata. Il nostro servizio di sicurezza ha trovato frammenti di codice di un repository interno di dominio pubblico, ma il contenuto differisce dalla versione attuale del repository utilizzato nei servizi di Yandex", si legge nella dichiarazione dell'azienda.
Tuttavia, le fughe di codice sorgente sono pericolose perché pongono seri problemi di sicurezza alle organizzazioni, poiché gli attori delle minacce possono osservare la proprietà intellettuale e i dati di sistema dell'azienda. La fuga di codice sorgente aiuterebbe gli aggressori a creare exploit di sicurezza mirati.
In teoria, qual è la differenza tra gli algoritmi utilizzati da Google e da Yandex?
Sono abbastanza simili:
- esiste un analogo di RankBrain- MatrixNet
- utilizzano il PageRank (quasi lo stesso di Google);
- molti algoritmi di testo sono gli stessi.
- Ci sono molti ex-googler in Yandex
- Yanex è stato costruito come clone di Google;
- Gli specialisti SEO in Russia utilizzano quasi le stesse tattiche SEO white hat per Yandex e per Google.
Ovviamente ci sono molte differenze, ma l'approccio e la maggior parte dei fattori di ranking sembrano essere simili.
In pratica: confrontando i risultati di ricerca di Google con quelli di Yandex si ottiene una corrispondenza del 70% circa.
Secondo Statcounter, Yandex è vicino a Yahoo e Bing per quota di mercato:
Il file con i fattori di ranking: https://dropbox.com/s/toyehkkfduogbwk/factors_gen.txt?dl=0
Struttura per ogni fattore:
- nome
- link al wiki interno (riservato)
- AntiSeoUpperBound (haha)
- descrizione (è in russo, l'ho tradotta per voi)
- ecc.
1. Il primo fattore della lista: il PageRank.
Le principali intuizioni emerse dall'analisi di questo elenco: L'età dei link è un fattore di ranking.
2. Il traffico e la percentuale di traffico organico sono fattori di ranking.
L'acquisto di PPC influisce sulle classifiche.
3. I numeri negli URL sono dannosi per le classifiche
4. Troppi slash negli URL sono dannosi per il ranking
5. Pessimizzazione rigida uguale PR=0
6. L'affidabilità dell'host è un fattore di ranking
Meno errori 40x/50x ci sono, meglio è per il vostro traffico organico.
7. C'è un fattore di ranking separato per l'elevazione di Wikipedia
8. Numerosi fattori di ranking legati al comportamento degli utenti: CTR, ultimo clic, tempo di permanenza sul sito, frequenza di rimbalzo.
Nota: siamo quasi certi che in Yandex questi fattori abbiano un impatto molto maggiore che in Google.
9. L'età del documento e l'ultimo aggiornamento sono entrambi fattori di ranking
10. La posizione media del dominio in tutte le query è un fattore di ranking
11. La profondità di crawl è un fattore di ranking
Mantenete le pagine importanti più vicine alla pagina principale:
- pagine principali: 1 clic dalla pagina principale
- pagine importanti: <3 clic
12. Inoltre: fattore di ranking per le pagine orfane
Potete trovarlo attraverso il nostro strumento di verifica del sito web
13. I backlink provenienti dalle pagine principali sono più importanti di quelli provenienti dalle pagine interne.
14. Il numero di query di ricerca del vostro sito/url è un fattore di ranking
Più sono, meglio è
15. Il traffico da Wikipedia è un fattore di ranking
16. Se il vostro url fosse l'ultimo per la sessione di ricerca (l'utente troverà ciò di cui ha bisogno), ciò avrebbe un impatto sulle classifiche.
Ci sono fattori severi e fattori prevedibili.
17. Fattore di ranking dei segnalibri
Più utenti aggiungono ai segnalibri un url, più valore di fattore ha
18. Fattori di ranking speciali per i video brevi (tiktok, corti, reel)
19. Maps js-api sulla pagina (per esempio Google Maps) è un fattore di ranking
Anche in Google (ad esempio nella nicchia dei viaggi) l'aggiunta di mappe con informazioni/funzionalità utili funziona.
20. Le parole chiave nell'URL sono fattori di ranking
Come si evince dalla descrizione, l'optimum sarebbe includere fino a 3 parole della query di ricerca.
21. Il ritorno degli utenti è un fattore di ranking
Costruite prodotti con una buona fidelizzazione e ne beneficerà il vostro SEO (ci sono molti fattori di ranking per misurarlo).
22. La percentuale di LETTERE MAIUSCOLE nel <titolo> è un fattore di ranking
23. La percentuale di traffico diretto è un fattore di ranking
Ovvero. Se tutto il vostro traffico proviene dalla ricerca organica, è sospetto e negativo per le classifiche.
24. Un altro fattore di ranking per la qualità dei contenuti - video incorporati rotti nella pagina
- Incorporare i video: ottimo per le classifiche.
- Video incorporati rotti - male.
25. Gli account verificati sui social network vengono classificati in modo diverso rispetto agli altri url.
Importante per le ricerche sul marchio - idealmente, se si cerca il proprio marchio, nella top 10 dovrebbero esserci solo i domini + i social network verificati.
26. Se le ancore dei vostri backlink contengono tutte le parole delle parole chiave, è un bene per la SEO.
Se è in un unico link, è più vantaggioso. Soprattutto se l'ordine delle parole è lo stesso.
27. Il rapporto tra backlink "buoni" e "cattivi" è un fattore di ranking
![Il rapporto tra backlink "buoni" e "cattivi" è un fattore di ranking](https://www.ranktracker.com/media/yandex-leaked-code-containing-search-ranking-factors-ranktracker-explains-all-ranking-factors/images/i84.png "Il rapporto tra backlink "buoni" e "cattivi" è un fattore di ranking")
28. Il grado di qualità dei testi presenti sul dominio è un fattore di ranking
Le pagine con contenuti di bassa qualità influenzano l'intero dominio.
29. La quantità di pubblicità su una pagina è un fattore di ranking
30. La casualità è un fattore di classifica separato
Quando non si capisce perché alcune pagine sono in cima, potrebbe essere solo un caso (per testare i fattori di comportamento).
31. Il JS di Google Analytics è un fattore di ranking
Prevedibilmente. I siti web buoni utilizzano GA / Google analytics più spesso di quelli cattivi.
32. I backlink dai 100 migliori siti web in base al PageRank hanno un impatto sulle classifiche
33. L'URL non ha cifre
❌ /100-best-credit-cards
✅ /best-credit-cards
34. Numero di barre nell'URL
❌ /finanza/articoli/2023/consigli per gli investimenti
✅ /investimenti-consigli
35. Numero di non lettere nell'URL
❌ /pet-toys&all$currency=dollar#mobile
✅ /pet-toys
36. Il simbolo '?' nell'URL è un fattore di ranking
❌ /movies?genre=action
✅ /film d'azione
37. Query di ricerca = URL, compresi punti e spazi (??)
La ricerca è "Franklin D. Roosevelt":
❌ /roosevelt
✅ /Franklin_D._Roosevelt
38. Vecchia data nell'URL
❌ /2009/12/01/come legare una cravatta
✅ /come-legare-una-cravatta
39. Le parole chiave sono nell'URL, non nel testo della pagina.
❌ /videogiochi & pagina dedicata alla musica
✅ /video-games & pagina dedicata ai videogiochi
40. Copertura dell'URL con i trigrammi della query di ricerca
✅ /hotels-new-zealand
❌ /nz
❌ /alberghi-economici-nuova-zealandia-migliori-offerte
- Includete le 1-3 parole più importanti nell'URL;
- Meno spazi/cifre/non lettere, se non fanno parte della parola chiave
41. pesi iniziali dei fattori di ranking Yandex
Pesi finali calcolati da AI(matrixnet), ma sono utili anche i valori iniziali.
Conclusione
Ecco, questo è tutto ciò che condividiamo per ora. Abbiamo appena iniziato. Questo fornisce una panoramica approssimativa di ciò che c'è dentro.
Stiamo solo grattando la superficie e ci aspettano molte altre preziose intuizioni.
Ma avevamo ragione su molte ipotesi e interpretazioni dall'esterno di come avrebbe funzionato un motore di ricerca così esteso, almeno per quanto riguarda i link.
Nel complesso, la fuga di codice di Yandex offre una visione affascinante del funzionamento interno di un moderno motore di ricerca.
La piattaforma all-in-one per un SEO efficace
Dietro ogni azienda di successo c'è una forte campagna SEO. Ma con innumerevoli strumenti e tecniche di ottimizzazione tra cui scegliere, può essere difficile sapere da dove iniziare. Ebbene, non temete più, perché ho quello che fa per voi. Vi presento la piattaforma Ranktracker all-in-one per una SEO efficace.
Abbiamo finalmente aperto la registrazione a Ranktracker in modo assolutamente gratuito!
Creare un account gratuitoOppure accedi con le tue credenziali
Anche se non tutti i risultati possono essere applicati direttamente a Google, molte ipotesi formulate negli ultimi anni sul funzionamento generale dei grandi motori di ricerca su Internet vengono confermate.
Suppongo che l'industria SEO abbia ancora qualche mese interessante davanti a sé grazie alle nuove conoscenze ottenute da questa fuga di notizie.
Tenete d'occhio questa pagina perché continueremo ad aggiungere fattori di ranking nelle prossime settimane e mesi.
Crediti speciali a https://twitter.com/alex_buraks