Intro
Prawdopodobnie słyszeliście o Yandexie, jest to 4. największa wyszukiwarka pod względem udziału w rynku na świecie. Wczoraj wyciekł zastrzeżony kod źródłowy Yandexa.
Najciekawszą częścią dla społeczności SEO jest: lista wszystkich 1922 czynników rankingowych używanych w algorytmie wyszukiwania
Pobraliśmy kod, przeanalizowaliśmy go i tutaj jest on przedstawiony w pomocny sposób.
Incydent nie powinien być zaskoczeniem, ponieważ Yandex lub jego produkty są często przedmiotem cyberataków. W 2016 roku Hackread.com wyłącznie informował o tym, jak sprzedawca z ciemnej sieci sprzedawał 6,3 mln danych o kontach użytkowników Yandexa.
Wewrześniu 2021 r. rosyjski gigant wyszukiwarek został dotknięty jednym z największych ataków DDoS zasilanych przez 200 000 skompromitowanych urządzeń IoT.
Platforma "wszystko w jednym" dla skutecznego SEO
Za każdym udanym biznesem stoi silna kampania SEO. Ale z niezliczonych narzędzi optymalizacji i technik tam do wyboru, może być trudno wiedzieć, gdzie zacząć. Cóż, nie obawiaj się więcej, ponieważ mam właśnie coś, co może pomóc. Przedstawiamy Ranktracker - platformę all-in-one dla skutecznego SEO.
W końcu otworzyliśmy rejestrację do Ranktrackera całkowicie za darmo!
Załóż darmowe kontoLub Zaloguj się używając swoich danych uwierzytelniających
Dlaczego to jest duże?
Yandex jest jedną z największych firm informatycznych w Rosji. Na terenie kraju świadczy szerszy zakres usług niż Google. Wyobraź sobie jedną firmę, która zastępuje Google, Uber, Amazon, Netflix i Spotify.
Czy ten przeciek jest prawdziwy?
Osobiście nigdy nie pracowałem w Yandexie, ale znam kilka osób, które pracowały tam w różnych okresach lub pracują tam nadal. Sprawdziłem, że przynajmniej niektóre archiwa na pewno zawierają współczesny kod źródłowy usług firmowych, a także dokumentację wskazującą na prawdziwe intranetowe adresy URL.
Co jest w środku
Leaker udostępnił link magnet zawierający 44,7 GB plików powiązanych ze źródłami Yandex git. Pliki zostały rzekomo skradzione z Yandexa w lipcu 2022 roku. Oprócz tego, że zawierają wytyczne antyspamowe, uważa się, że repozytoria kodu posiadają kod źródłowy Yandexa.
Wyciek ujawnił około 1,922 czynników rankingowych, które wyszukiwarka wykorzystuje w swoim algorytmie wyszukiwania. Kod został wycieknięty w formie torrenta. Według analizy zamieszczonej przez użytkownika Twittera Alexa Buraksa, wyciekłe dane obejmują liczne czynniki rankingowe, w tym trafność tekstu, PageRank, wiek treści, świeżość itp.
Zapewne słyszeliście o Yandexie, to 4. największa wyszukiwarka pod względem udziału w rynku na świecie. Wczoraj wyciekł zastrzeżony kod źródłowy Yandexa.
- Alex Buraks (@alex_buraks) January 27, 2023
Najciekawszą częścią dla społeczności SEO jest: lista wszystkich 1922 czynników rankingowych używanych w algorytmie wyszukiwania
[🧵THREAD] pic.twitter.com/6x82AAmbON
Ponadto istnieje kilka czynników związanych z zachowaniem użytkownika końcowego, czynników związanych z linkiem i niezawodnością hosta. SEO znajdują kilka nietypowych czynników rankingowych, takich jak liczba unikalnych odwiedzających, średnia pozycja domeny w całym zapytaniu i procent ruchu organicznego.
Wygląda na to, że przynajmniej kod źródłowy dla wszystkich głównych usług Yandex został wycieknięty:
- Wyszukiwarki i boty indeksujące
- Mapy - jak Google Maps i Street View
- Alice - asystentka AI na wzór Siri / Alexy
- Taxi - usługa taksówkowa podobna do Ubera
- Bezpośrednio - usługa reklamowa typu Google Ads / Adwords
- Mail - usługa pocztowa taka jak GMail
- Disk - Usługa przechowywania plików, taka jak Google drive
- Market - Marketplace jak Amazon
- Podróże - Jak Booking.com plus bilety lotnicze, kolejowe i autobusowe
- Yandex360 - Jak Google Workspaces dla usług na własnej domenie
- Cloud - Prawdopodobnie nie cały kod infrastruktury został wycieknięty.
- Pay - przetwarzanie płatności jak Stripe, ale z ograniczonym zestawem funkcji.
- Metrika - jak Google Analytics
- A przynajmniej jest tam część backendowa większości innych serwisów firmowych. Największe archiwum o nazwie "frontend" jest jeszcze do odkrycia.
Shestakov zauważył ponadto kilka kluczy API, które najprawdopodobniej zostały wykorzystane do testowania wdrożeń.
Szczegóły dotyczące tego wycieku: można znaleźć tutaj:
https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/
Yandex zaprzecza próbom włamania
Yandex twierdzi, że jest świadomy wycieku i już rozpoczął dochodzenie, aby sprawdzić, w jaki sposób "fragmenty" kodu źródłowego zostały wystawione na widok publiczny. Warto zauważyć, że wyciek nie obejmuje danych osobowych użytkowników lub pracowników.
Jednak biorąc pod uwagę znaczenie Yandexa w infrastrukturze IT Rosji i wyciek danych, można przypuszczać, że atak był motywowany inwazją tego kraju na Ukrainę. W grę mogli więc wchodzić proukraińscy hakerzy.
Platforma "wszystko w jednym" dla skutecznego SEO
Za każdym udanym biznesem stoi silna kampania SEO. Ale z niezliczonych narzędzi optymalizacji i technik tam do wyboru, może być trudno wiedzieć, gdzie zacząć. Cóż, nie obawiaj się więcej, ponieważ mam właśnie coś, co może pomóc. Przedstawiamy Ranktracker - platformę all-in-one dla skutecznego SEO.
W końcu otworzyliśmy rejestrację do Ranktrackera całkowicie za darmo!
Załóż darmowe kontoLub Zaloguj się używając swoich danych uwierzytelniających
W swoim oficjalnym oświadczeniu Yandex wyjaśnił, że firma nie została zhakowana, a w wyciek jej kodu źródłowego do domeny publicznej mógł być zamieszany były pracownik. Czołowa rosyjska firma IT zauważyła, że wycieknięte archiwum zawiera fragmenty kodu będące częścią wewnętrznego repozytorium, którego dane różnią się od tych, które są wykorzystywane w najnowszej wersji repozytorium.
"Yandex nie został zhakowany. Nasza służba bezpieczeństwa znalazła fragmenty kodu z wewnętrznego repozytorium w domenie publicznej, ale zawartość różni się od obecnej wersji repozytorium używanego w usługach Yandex" - czytamy w oświadczeniu firmy.
Niemniej jednak, wycieki kodu źródłowego są niebezpieczne ze względu na stwarzanie poważnych problemów bezpieczeństwa dla organizacji, ponieważ aktorzy zagrożeń mogą obserwować własność intelektualną firmy i dane systemowe. Wyciek kodu źródłowego ułatwiłby napastnikom tworzenie ukierunkowanych exploitów bezpieczeństwa.
Teoretycznie, jaka jest różnica między algorytmami stosowanymi w Google i w Yandexie?
Są one dość podobne:
- istnieje analog RankBrain- MatrixNet
- używają PageRank (prawie taki sam jak w Google);
- wiele algorytmów tekstowych jest takich samych.
- W Yandexie jest wielu byłych agentów.
- Yanex został zbudowany jako klon Google;
- Specjaliści SEO w Rosji używają prawie takich samych taktyk white hat SEO dla Yandex i dla Google
Oczywiście różnic jest sporo, ale podejście i większość czynników rankingowych wydaje się być podobna.
W praktyce: porównując wyniki wyszukiwania Google vs Yandex są one w ~70% zgodne.
Według Statcounter Yandex jest bliski Yahoo i Bingowi pod względem udziału w rynku:
Plik z czynnikami rankingowymi: https://dropbox.com/s/toyehkkfduogbwk/factors_gen.txt?dl=0
Struktura dla każdego czynnika:
- nazwa
- link do wewnętrznego wiki (ograniczony)
- AntiSeoUpperBound (haha)
- opis (jest po rosyjsku, przetłumaczyłem go dla Ciebie)
- itp.
1. Pierwszy czynnik na liście - PageRank.
Główne spostrzeżenia po analizie tej listy: Wiek linków jest czynnikiem rankingowym.
2. Ruch i % ruchu organicznego są czynnikami rankingowymi.
Wykupienie PPC wpływa na rankingi.
3. Numery w adresach URL są złe dla rankingów
4. Zbyt wiele ukośników w adresach URL jest niekorzystne dla rankingu
5. Twarda pesymizacja równa PR=0
6. Niezawodność hosta jest czynnikiem rankingowym
Mniej błędów 40x/50x, które masz, tym lepiej dla Twojego ruchu organicznego
7. Istnieje osobny czynnik rankingowy dla upliftingu Wikipedii
8. Wiele czynników rankingowych związanych z zachowaniem użytkownika - CTR, last-click, time on site, bounce rate
Uwaga: Jesteśmy prawie pewni, że w Yandexie te czynniki wpływają znacznie bardziej niż w Google.
9. Wiek dokumentu i ostatnia aktualizacja są czynnikami rankingowymi
10. Średnia pozycja domeny na wszystkie zapytania jest czynnikiem rankingowym
11. Głębokość indeksowania jest czynnikiem rankingowym
Trzymaj ważne strony bliżej strony głównej:
- górne strony: 1 kliknięcie ze strony głównej
- ważne strony: <3 kliknięcia
12. Dodatkowo: czynnik rankingowy dla stron osieroconych
Można to znaleźć za pomocą naszego narzędzia do audytu strony internetowej
13. Backlinki ze stron głównych są ważniejsze niż ze stron wewnętrznych
14. Liczba zapytań o Twoją stronę/url jest czynnikiem rankingowym
Im więcej tym lepiej
15. Ruch z Wikipedii jest czynnikiem rankingowym
16. Jeśli Twój adres url byłby ostatnim dla sesji wyszukiwania (użytkownik znajdzie to, czego potrzebuje) - wpłynęłoby to na rankingi
Są na to czynniki ścisłe, jak i przewidywalne.
17. Czynnik rankingowy zakładek
Im więcej użytkowników doda do zakładek dany adres url, tym większa będzie jego wartość czynnikowa
18. Specjalne czynniki rankingowe dla krótkich filmów (tiktok, szort, reel)
19. Mapy js-api na stronie (na przykład Google Maps) są czynnikiem rankingowym
W Google (np. w niszy podróżniczej) dodawanie map z przydatnymi informacjami/funkcjami też się sprawdza.
20. Słowa kluczowe w URL są czynnikami rankingowymi
Jak widzimy z opisu - optymalny zawierałby do 3 słów z zapytania ofertowego.
21. Powracający użytkownicy są czynnikiem rankingowym
Buduj produkty z dobrą retencją, a będzie to korzystne dla Twojego SEO (jest wiele czynników rankingowych do mierzenia tego).
22. Procentowy udział wielkich liter w <title> jest czynnikiem rankingowym
23. Procentowy udział ruchu bezpośredniego jest czynnikiem rankingowym
Aka. Jeśli cały Twój ruch pochodził z Organic Search - jest to podejrzane + złe dla rankingów.
24. Jeszcze jeden czynnik rankingowy jakości treści - złamane osadzone na stronie wideo
- Osadzanie filmów - dobre dla rankingów.
- Broken embed videos - złe.
25. Zweryfikowane konta na portalach społecznościowych plasują się inaczej niż inne urle
Ważne przy wyszukiwaniu marki - w idealnym przypadku przy wyszukiwaniu Twojej marki w top 10 powinny znajdować się tylko Twoje domeny + zweryfikowane sieci społecznościowe
26. Jeśli anchory backlinków zawierają wszystkie słowa ze słów kluczowych - jest to dobre dla SEO
Jeśli jest w jednym linku - jest to korzystniejsze. Zwłaszcza jeśli kolejność słów jest taka sama.
27. Stosunek "dobrych" do "złych" backlinków jest czynnikiem rankingowym
![Ratio "good" vs "bad" backlinks is a rank factor](https://www.ranktracker.com/media/yandex-leaked-code-containing-search-ranking-factors-ranktracker-explains-all-ranking-factors/images/i84.png "Ratio "good" vs "bad" backlinks is a rank factor")
28. Ranga jakości tekstów na domenie jest czynnikiem rankingowym
Strony o niskiej jakości treści wpływają na całą domenę.
29. Ilość reklam na stronie jest czynnikiem rankingowym
30. Istnieje losowość jako osobny czynnik rankingowy
Kiedy nie rozumiesz, dlaczego niektóre strony są na górze - może to być po prostu losowe (aby przetestować czynniki zachowania).
31. JS z Google Analytics jest czynnikiem rankingowym
Przewidywalnie. Dobre strony internetowe korzystające z GA / Google analytics częściej niż złe strony.
32. Wpływ backlinków z 100 najlepszych stron internetowych według PageRank na rankingi
33. Adres URL nie ma cyfr
❌ /100-best-credit-cards
✅ /best-credit-cards
34. Liczba ukośników w adresie URL
❌ /finanse/articles/2023/investment-advices
✅ /investment-advices
35. Liczba nie-litery w adresie URL
❌ /pet-toys&all$currency=dollar#mobile
✅ /pet-toys
36. Symbol '?' w adresie URL jest czynnikiem rankingowym
❌ /movies?genre=action
✅ /action-movies
37. Zapytanie do wyszukiwarki = adres URL, łącznie z kropkami i spacjami (??)
Szukane zapytanie to "Franklin D. Roosevelt":
❌ /roosevelt
✅ /Franklin_D._Roosevelt
38. Stara data w URL
❌ /2009/12/01/how-to-tie-a-tie
✅ /jak zawiązać krawat
39. Słowa kluczowe znajdują się w adresie URL, a nie w tekście strony
❌ /gry wideo & strona jest o muzyce
✅ /video-gry & strona jest o gra
ch wideo
40. Pokrycie adresów URL trygramami z zapytania wyszukiwawczego
✅ /hotele-new-zealand
❌ /nz
❌ /cheap-hotels-in-new-zealand-best-deals
- Zawrzyj 1-3 najważniejsze słowa w adresie URL;
- Mniej ukośników/cyfr/nielitery, jeśli nie jest to część słowa kluczowego
41. początkowe wagi czynników rankingowych Yandex
Ostateczne wagi obliczone przez AI(matrixnet), ale wartości początkowe też są przydatne.
Wniosek
No to mamy, to wszystko, czym się dzielimy na razie. Dopiero zaczynamy. To zapewnia przybliżony przegląd tego, co tam jest.
To tylko zarysowanie powierzchni, a przed nami jeszcze wiele cennych spostrzeżeń.
Mieliśmy jednak sporo racji w wielu założeniach i interpretacjach z zewnątrz, jak będzie działać tak rozbudowana wyszukiwarka, przynajmniej jeśli chodzi o linki.
W sumie, wyciek kodu Yandex oferuje fascynujący wgląd w wewnętrzne funkcjonowanie nowoczesnej wyszukiwarki.
Platforma "wszystko w jednym" dla skutecznego SEO
Za każdym udanym biznesem stoi silna kampania SEO. Ale z niezliczonych narzędzi optymalizacji i technik tam do wyboru, może być trudno wiedzieć, gdzie zacząć. Cóż, nie obawiaj się więcej, ponieważ mam właśnie coś, co może pomóc. Przedstawiamy Ranktracker - platformę all-in-one dla skutecznego SEO.
W końcu otworzyliśmy rejestrację do Ranktrackera całkowicie za darmo!
Załóż darmowe kontoLub Zaloguj się używając swoich danych uwierzytelniających
Choć nie wszystkie ustalenia można bezpośrednio odnieść do Google'a, to jednak potwierdza się wiele założeń poczynionych w ostatnich latach na temat ogólnego funkcjonowania dużych wyszukiwarek internetowych.
Zakładam, że branża SEO ma przed sobą jeszcze kilka ciekawych miesięcy z nowymi spostrzeżeniami z tego wycieku.
Miej oko na tę stronę, ponieważ będziemy nadal dodawać czynniki rankingowe w ciągu najbliższych tygodni i miesięcy.
Specjalne kredyty dla https://twitter.com/alex_buraks.