• Tecnologia

Yandex vazou código contendo 1.922 fatores de ranking de busca Ranktracker explica todos os fatores de ranking

  • Felix Rose-Collins
  • 8 min read
Yandex vazou código contendo 1.922 fatores de ranking de busca Ranktracker explica todos os fatores de ranking

Introdução

Você provavelmente ouviu falar de Yandex, é o 4º maior mecanismo de busca por participação no mercado mundial. Ontem, o código fonte proprietário de Yandex foi divulgado.

A parte mais interessante para a comunidade SEO é: a lista de todos os fatores de classificação de 1922 utilizados no algoritmo de busca

Fizemos o download do código, analisamos e aqui ele é apresentado de uma forma útil.

Yandex leak

O incidente não deve ser uma surpresa, uma vez que Yandex ou seus produtos estão frequentemente sob ataque cibernético. Em 2016, a Hackread.com relatou exclusivamente como um vendedor da web negra estava vendendo 6,3 milhões de dados de conta de usuário Yandex.

Em setembro de 2021, o gigante russo dos mecanismos de busca foi atingido por um dos maiores ataques DDoS alimentado por 200.000 dispositivos IoT comprometidos.

Conheça o Ranktracker

A plataforma All-in-One para uma SEO eficaz

Por trás de cada negócio de sucesso está uma forte campanha de SEO. Mas com inúmeras ferramentas e técnicas de otimização por aí para escolher, pode ser difícil saber por onde começar. Bem, não tenha mais medo, porque eu tenho exatamente o que ajudar. Apresentando a plataforma multifuncional Ranktracker para uma SEO eficaz

Finalmente abrimos o registro para o Ranktracker absolutamente grátis!

Criar uma conta gratuita

Ou faça login usando suas credenciais

Yandex git sources

Por que isso é grande?

A Yandex é uma das maiores empresas de TI da Rússia. Dentro do país, ela fornece uma gama mais ampla de serviços do que o Google. Imagine uma empresa que substitui o Google, Uber, Amazon, Netflix e Spotify.

Este vazamento é real?

Eu pessoalmente nunca trabalhei em Yandex, mas conheço várias pessoas que trabalharam lá em momentos diferentes ou que ainda trabalham lá. Verifiquei que pelo menos alguns dos arquivos com certeza contêm código fonte moderno para serviços da empresa, bem como documentação apontando para URLs reais da intranet.

O que há dentro

O leaker compartilhou um link magnético contendo 44,7GB de arquivos ligados a fontes de git Yandex. Os arquivos foram supostamente roubados de Yandex em julho de 2022. Além de conter diretrizes anti-spam, acredita-se que os repositórios de código tenham o código fonte de Yandex.

O vazamento revelou cerca de 1.922 fatores de classificação que o mecanismo de busca usa em seu algoritmo de busca. O código foi vazado como uma torrente. Pela análise postada pelo usuário do Twitter Alex Buraks, os dados vazados incluem numerosos fatores de classificação, incluindo relevância do texto, PageRank, idade do conteúdo, frescor, etc.

Além disso, existem vários fatores de comportamento do usuário final, fatores relacionados com a linha e a confiabilidade do hospedeiro. Os SEOs encontram alguns fatores incomuns na classificação, tais como o número de visitantes únicos, a classificação média de domínios entre as consultas e a porcentagem do tráfego orgânico.

Parece que pelo menos o código fonte para todos os principais serviços de Yandex foi vazado:

  • Motor de busca e garrafa de indexação
  • Mapas - Como Google Maps e Street View
  • Alice - Assistente de IA como Siri / Alexa
  • Táxi - Serviço de táxi tipo Uber
  • Direto - Serviço de anúncios como Google Ads / Adwords
  • Correio - Serviço de correio como GMail
  • Disco - Serviço de armazenamento de arquivos como unidade do Google
  • Mercado - Mercado como a Amazônia
  • Viagens - Como um Booking.com mais bilhetes de avião, trem e ônibus
  • Yandex360 - Como o Google Workspaces para serviços em seu próprio domínio
  • Nuvem - Provavelmente nem todo código de infra-estrutura foi vazado.
  • Pagamento - Processamento de pagamentos como Stripe, mas com um conjunto limitado de características
  • Metrika - Como o Google Analytics
  • E pelo menos a parte de trás da maioria dos outros serviços da empresa está lá. O maior arquivo chamado "frontend" ainda está para ser explorado.

Shestakov observou ainda algumas chaves API, que muito provavelmente foram usadas para testar a implantação.

Detalhes sobre este vazamento: podem ser encontrados aqui:

https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/

Yandex nega tentativa de hacking

Yandex afirma que está ciente do vazamento e já iniciou uma investigação para verificar como os 'fragmentos' do código fonte foram expostos ao público. Vale ressaltar que o vazamento não inclui dados pessoais de usuários ou funcionários.

Entretanto, considerando o significado de Yandex na infra-estrutura de TI da Rússia e os dados vazados, pode-se supor que o ataque foi motivado pela invasão do país à Ucrânia. Portanto, os hackers pró-Ucrânia poderiam estar envolvidos.

Conheça o Ranktracker

A plataforma All-in-One para uma SEO eficaz

Por trás de cada negócio de sucesso está uma forte campanha de SEO. Mas com inúmeras ferramentas e técnicas de otimização por aí para escolher, pode ser difícil saber por onde começar. Bem, não tenha mais medo, porque eu tenho exatamente o que ajudar. Apresentando a plataforma multifuncional Ranktracker para uma SEO eficaz

Finalmente abrimos o registro para o Ranktracker absolutamente grátis!

Criar uma conta gratuita

Ou faça login usando suas credenciais

Em sua declaração oficial, Yandex esclareceu que a empresa não foi invadida e que um ex-funcionário poderia estar envolvido no vazamento de seu código fonte em domínio público. A principal empresa de TI da Rússia observou que o arquivo vazado inclui fragmentos de código que fazem parte de um repositório interno, cujos dados são diferentes dos utilizados na última versão do repositório.

"Yandex não foi hackeado. Nosso serviço de segurança encontrou fragmentos de código de um repositório interno de domínio público, mas o conteúdo difere da versão atual do repositório utilizado nos serviços de Yandex", leu a declaração da empresa.

No entanto, as fugas de código fonte são perigosas para colocar sérios problemas de segurança às organizações, uma vez que os atores da ameaça podem observar a propriedade intelectual da empresa e os dados do sistema. O vazamento do código-fonte ajudaria os atacantes a criar explorações de segurança direcionadas.

Teoricamente, qual é a diferença entre os algoritmos usados no Google e no Yandex?

Eles são bastante semelhantes:

  • existe o análogo RankBrain- MatrixNet
  • estão usando o PageRank (quase o mesmo que no Google);
  • muitos algoritmos de texto são os mesmos.

Yandex vs Google

  • Há muitos ex-goleiros em Yandex
  • Yanex foi construído como clone do Google;
  • Especialistas em SEO na Rússia estão usando quase a mesma tática de SEO de chapéu branco para Yandex e para Google

É claro que há muitas diferenças, mas a abordagem e a maioria dos fatores de classificação parecem ser semelhantes.

Na prática: comparando os resultados de pesquisa do Google com os do Yandex, eles correspondem a ~70%.

De acordo com Statcounter Yandex está próxima a Yahoo e Bing por participação de mercado:

search engine market share worldwide

O arquivo com os fatores de classificação: https://dropbox.com/s/toyehkkfduogbwk/factors_gen.txt?dl=0

Estrutura para cada fator:

  1. nome
  2. link para wiki interno (restrito)
  3. AntiSeoUpperBound (haha)
  4. descrição (está em russo, eu o traduzi para você)
  5. etc

1. Primeiro fator na lista - PageRank.

First factor in the list - PageRank

Principais percepções após a análise desta lista: A idade dos links é um fator de classificação.

Age of links is a ranking factor.

2. O tráfego e % do tráfego orgânico são fatores de classificação.

A compra de PPC afeta as classificações.

Traffic and % of organic traffic are ranking factors

3. Números em URLs são ruins para rankings

Numbers in URLs is bad for rankings

4. Demasiados cortes em URLs é ruim para classificação

Too many slashes in URLs is bad for ranking

5. Pessimização dura igual a PR=0

Hard pessimization equal PR=0

6. A confiabilidade do hospedeiro é um fator de classificação

Menos erros 40x/50x você tem, o melhor para seu tráfego orgânico

Host reliability is a ranking factor

7. Há um fator de classificação separado para a elevação da Wikipédia

there is a separate ranking factor for uplifting Wikipedia

8. Muitos fatores de classificação relacionados ao comportamento do usuário - CTR, último clique, tempo no local, taxa de salto

Nota: Estamos quase certos de que em Yandex esses fatores têm um impacto muito maior do que no Google.

A lot of ranking factors connected with user behaviour - CTR, last-click, time on site, bounce rate

9. A idade do documento e a última atualização são fatores de classificação

Document age and last update both are ranking factors

10. A posição média do domínio em todas as consultas é um fator de classificação

Average domain position across all queries is a ranking factor

11. A profundidade do rastejamento é um fator de classificação

Mantenha suas páginas importantes mais próximas da página principal:

  • páginas superiores: 1 clique a partir da página principal
  • páginas importantes: <3 cliques

Crawl depth is a ranking factor

12. Além disso: fator de ranking para páginas órfãs

Você pode encontrar isto através de nossa ferramenta de auditoria no site

Additionally: ranking factor for orphan pages

13. Backlinks de páginas principais são mais importantes do que de páginas internas

Backlinks from main pages are more important than from internal pages

14. O número de consultas de busca de seu site/url é um fator de classificação

Quanto mais, melhor.

Number of search queries of your site/url is a ranking factor

15. O tráfego da Wikipédia é um fator de classificação

Traffic from Wikipedia is a ranking factor

16. Se sua url fosse a última para a sessão de busca (o usuário encontrará o que precisa) - isso teria impacto nos rankings

Há fatores rigorosos para isso e também fatores previsíveis.

If your url would be the last for search session (user will find what he needs) - it would impact rankings

17. Fator de classificação dos Favoritos

Quanto mais usuários adicionam aos favoritos uma url, mais valor tem o fator

Bookmarks ranking factor

18. Fatores especiais de classificação para vídeos curtos (tiktok, shorts, carretéis)

Special ranking factors for short videos (tiktok, shorts, reels)

19. Mapas js-api na página (por exemplo, Google Maps) é um fator de classificação

No Google (por exemplo, no nicho de viagens), adicionar mapas com informações/funcionalidade útil também está funcionando.

Maps js-api on page (for example Google Maps) is a ranking factor

20. As palavras-chave na URL são fatores de classificação

Como podemos ver pela descrição - o ideal seria incluir até 3 palavras da consulta de busca.

Keywords in URL are ranking factors

21. O retorno dos usuários é um fator de classificação

Construa produtos com boa retenção e isso beneficiaria seu SEO (há muitos fatores de classificação para medi-lo).

Returning users is a ranking factor

22. Porcentagem de CARTAS DE CAPITAL em <título> é um fator de classificação

Percentage of CAPITAL LETTERS in title> is a ranking factor

23. A porcentagem de tráfego direto é um fator de classificação

Aka. Se todo o seu tráfego veio da Busca Orgânica - é suspeito + ruim para rankings.

Percentage of direct traffic is a ranking factor

24. Mais um fator de classificação da qualidade do conteúdo - vídeo embutido quebrado na página

  • Incorporar vídeos - bom para rankings.
  • Vídeos embutidos quebrados - ruins.

One more ranking factor for content quality - broken embedded video on the page

25. As contas verificadas nas redes sociais têm classificações diferentes das de outras urls.

Importante para as buscas de marcas - idealmente, para buscar sua marca deve haver apenas seus domínios + redes sociais verificadas nos 10 primeiros

Verified accounts on social networks ranks differently as other urls

26. Se suas âncoras de backlinks contêm todas as palavras-chave - é bom para SEO

Se estiver em um link - é mais benéfico. Especialmente se a ordem das palavras for a mesma.

If your backlinks anchors contain all words from the keywords - it's good for SEO

27. A relação "bom" vs "mau" backlinks é um fator de classificação

![Razão "bom" vs "ruim" backlinks é um fator de ranking](https://www.ranktracker.com/media/yandex-leaked-code-containing-search-ranking-factors-ranktracker-explains-all-ranking-factors/imagens/i84.png "Razão "bom" vs "ruim" backlinks é um fator de ranking")

28. A classificação de qualidade dos textos no domínio é um fator de classificação

Páginas com conteúdo de baixa qualidade afetam todo o domínio.

The quality rank of texts on the domain is a ranking factor

29. A quantidade de propagandas em uma página é um fator de classificação

Amount of advertisements on a page is a ranking factor

30. Há a aleatoriedade como um fator de classificação separado

Quando você não entende porque algumas das páginas estão no topo - pode ser apenas aleatório (para testar fatores de comportamento).

There is a random as a separate ranking factor

31. O JS do Google Analytics é um fator de classificação

Previsivelmente. Bons sites que utilizam análises GA / Google com mais freqüência do que sites ruins.

JS from Google Analytics is a ranking factor

32. Backlinks dos 100 melhores sites por PageRank têm impacto nos rankings

Backlinks from the top 100 best websites by PageRank impacts on rankings

33. A URL não tem dígitos

/100-best-credit-cards

/best-credit-cards

URL has no digits

34. Número de cortes na URL

/finance/articles/2023/investment-advices

/investment-advices

Number of slashes in URL

35. Número de não-livros no URL

/pet-toys&all$currency=dollar#mobile

/pet-toys

Number of non-letters in URL

36. O símbolo "..." na URL é um fator de classificação

/movies?genre=ação

/action-movies

'?' symbol in the URL is a ranking factor

37. Busca = URL, incluindo pontos e espaços (???)

A busca é "Franklin D. Roosevelt":

/roosevelt

/Franklin_D._Roosevelt

Search query = URL, including dots and spaces (??)

38. Data antiga no URL

/2009/12/01/how-to-tie-a-tie

/how-to-tie-a-tie

Old date in the URL

39. As palavras-chave estão no URL, não no texto da página

/video-games & página é sobre música

/video-games & página é sobre videogames

Keywords is in URL, not in the text of the page

40. Cobertura URL com trigramas da consulta de busca

/hotels-new-zealand

/nz

/cheap-hotels-in-new-zealand-best-deals

URL coverage with trigrams from the search query

  • Incluir 1-3 palavras mais importantes na URL;
  • Menos cortes/dígitos/não-letras, se não fizer parte de sua palavra-chave

41. Pesos iniciais dos fatores de classificação Yandex

Os pesos finais calculados pela IA(matrixnet), mas os valores iniciais também são úteis.

initial weights of Yandex ranking factors

Conclusão

Bem aí está, isto é tudo o que estamos compartilhando por enquanto. Estamos apenas começando. Isto fornece uma visão geral aproximada do que está lá dentro.

Estamos apenas arranhando a superfície aqui com tantos outros insights valiosos pela frente.

Mas estávamos bastante certos em muitas suposições e interpretações de fora de como um mecanismo de busca tão extenso funcionaria, pelo menos no que diz respeito aos links.

Em suma, o vazamento do código Yandex oferece uma visão fascinante do funcionamento interno de um mecanismo de busca moderno.

Conheça o Ranktracker

A plataforma All-in-One para uma SEO eficaz

Por trás de cada negócio de sucesso está uma forte campanha de SEO. Mas com inúmeras ferramentas e técnicas de otimização por aí para escolher, pode ser difícil saber por onde começar. Bem, não tenha mais medo, porque eu tenho exatamente o que ajudar. Apresentando a plataforma multifuncional Ranktracker para uma SEO eficaz

Finalmente abrimos o registro para o Ranktracker absolutamente grátis!

Criar uma conta gratuita

Ou faça login usando suas credenciais

Embora nem todas as descobertas possam ser aplicadas diretamente ao Google, muitas suposições feitas nos últimos anos sobre o funcionamento geral dos grandes mecanismos de busca na Internet são confirmadas.

Presumo que a indústria de SEO ainda tenha alguns meses interessantes pela frente com novas percepções a partir deste vazamento.

Fique de olho nesta página, pois continuaremos a adicionar fatores de classificação durante as próximas semanas e meses.

Créditos especiais para https://twitter.com/alex_buraks

Felix Rose-Collins

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Felix Rose-Collins is the Co-founder and CEO/CMO of Ranktracker. With over 15 years of SEO experience, he has single-handedly scaled the Ranktracker site to over 500,000 monthly visits, with 390,000 of these stemming from organic searches each month.

Comece a usar o Ranktracker... De graça!

Descubra o que está impedindo o seu site de voltar ao ranking.

Criar uma conta gratuita

Ou faça login usando suas credenciais

Different views of Ranktracker app