• 기술

1,922개의 검색 순위 요소가 포함된 Yandex 유출 코드 Ranktracker가 모든 순위 요소를 설명합니다.

  • Felix Rose-Collins
  • 6 min read
1,922개의 검색 순위 요소가 포함된 Yandex 유출 코드 Ranktracker가 모든 순위 요소를 설명합니다.

소개

전 세계 시장 점유율 기준으로 4번째로 큰 검색 엔진인 Yandex에 대해 들어보셨을 것입니다. 어제 Yandex의 독점 소스 코드가 유출되었습니다.

SEO 커뮤니티에서 가장 흥미로운 부분은 검색 알고리즘에 사용되는 1922개의 모든 순위 요소 목록입니다.

코드를 다운로드하고 분석하여 여기에 유용한 방식으로 제시했습니다.

Yandex leak

Yandex나 그 제품은 종종 사이버 공격을 받아왔기 때문에 이번 사건은 놀랄 일이 아닙니다. 2016년에는 한 다크웹 판매업체가 630만 개의 Yandex 사용자 계정 데이터를 판매한 사실을 Hackread.com이 단독 보도한 바 있습니다.

2021년 9월, 러시아의 거대 검색 엔진 업체는 20만 대의 손상된 IoT 디바이스를 이용한 대규모 디도스 공격에 시달렸습니다.

랭크트래커를 만나보세요

효과적인 SEO를 위한 올인원 플랫폼

모든 성공적인 비즈니스의 배후에는 강력한 SEO 캠페인이 있습니다. 하지만 선택할 수 있는 최적화 도구와 기법이 무수히 많기 때문에 어디서부터 시작해야 할지 알기 어려울 수 있습니다. 이제 걱정하지 마세요. 제가 도와드릴 수 있는 방법이 있으니까요. 효과적인 SEO를 위한 Ranktracker 올인원 플랫폼을 소개합니다.

드디어 랭크트래커에 무료로 등록할 수 있게 되었습니다!

무료 계정 만들기

또는 자격 증명을 사용하여 로그인

Yandex git sources

왜 이렇게 큰가요?

Yandex는 러시아에서 가장 큰 IT 회사 중 하나입니다. 러시아 내에서 구글보다 더 광범위한 서비스를 제공합니다. 구글, 우버, 아마존, 넷플릭스, 스포티파이를 대체하는 회사가 하나 있다고 상상해 보세요.

이 유출이 진짜인가요?

저는 개인적으로 Yandex에서 일한 적은 없지만, 다른 시기에 그곳에서 일했거나 지금도 그곳에서 일하는 여러 사람을 알고 있습니다. 적어도 일부 아카이브에는 회사 서비스에 대한 최신 소스 코드와 실제 인트라넷 URL을 가리키는 문서가 포함되어 있음을 확인했습니다.

내부 내용

유출자는 44.7GB의 파일이 포함된 마그넷 링크를 공유했으며, 이 마그넷 링크는 Yandex git 소스에 연결되어 있습니다. 이 파일은 2022년 7월에 Yandex에서 도난당한 것으로 추정됩니다. 이 코드 저장소에는 스팸 방지 가이드라인이 포함되어 있을 뿐만 아니라 Yandex의 소스 코드가 있는 것으로 추정됩니다.

이 유출로 인해 검색 엔진이 검색 알고리즘에 사용하는 약 1,922개의 순위 요소가 공개되었습니다. 이 코드는 토렌트로 유출되었습니다. 트위터 사용자 Alex Buraks가 게시한 분석에 따르면, 유출된 데이터에는 텍스트 관련성, 페이지랭크, 콘텐츠 연령, 최신성 등 다양한 순위 요소가 포함되어 있습니다.

또한 최종 사용자 행동 요인, 링크 관련 요인, 호스트 신뢰도 등 여러 가지 요소가 존재합니다. SEO는 순 방문자 수, 쿼리별 평균 도메인 순위, 오가닉 트래픽 비율 등 몇 가지 특이한 순위 요소를 찾습니다.

적어도 얀덱스의 모든 주요 서비스에 대한 소스 코드가 유출된 것으로 보입니다:

  • 검색 엔진 및 인덱싱 봇
  • 지도 - Google 지도 및 거리 뷰처럼
  • Alice - Siri / Alexa와 같은 AI 비서
  • 택시 - 우버와 유사한 택시 서비스
  • 다이렉트 - 구글 애즈/애드워즈와 같은 광고 서비스
  • 메일 - GMail과 같은 메일 서비스
  • 디스크 - Google 드라이브와 같은 파일 저장 서비스
  • 마켓 - Amazon과 같은 마켓플레이스
  • 여행 - Booking.com과 비행기, 기차, 버스 티켓처럼
  • Yandex360 - 내 도메인의 서비스를 위한 Google 워크스페이스와 같은 서비스
  • 클라우드 - 모든 인프라 코드가 유출된 것은 아닐 수 있습니다.
  • Pay - Stripe와 같은 결제 처리이지만 기능이 제한되어 있습니다.
  • Metrika - 구글 애널리틱스처럼
  • 그리고 적어도 대부분의 다른 회사 서비스의 백엔드 부분은 있습니다. "프론트엔드"라고 불리는 가장 큰 아카이브는 아직 탐색되지 않았습니다.

셰스타코프는 또한 배포를 테스트하는 데 사용되었을 가능성이 높은 몇 가지 API 키에 대해서도 언급했습니다.

이번 유출에 대한 자세한 내용은 여기에서 확인할 수 있습니다:

https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/

Yandex, 해킹 시도 부인

Yandex는 유출 사실을 인지하고 있으며 소스 코드 '조각'이 어떻게 대중에게 노출되었는지 확인하기 위해 이미 조사를 시작했다고 주장합니다. 이번 유출에는 사용자 또는 직원의 개인 데이터는 포함되지 않았다는 점은 주목할 가치가 있습니다.

그러나 러시아의 IT 인프라에서 얀덱스가 차지하는 중요성과 유출된 데이터를 고려할 때, 이번 공격은 러시아의 우크라이나 침공이 동기가 된 것으로 추정할 수 있습니다. 따라서 친우크라이나 해커가 연루되었을 가능성이 있습니다.

랭크트래커를 만나보세요

효과적인 SEO를 위한 올인원 플랫폼

모든 성공적인 비즈니스의 배후에는 강력한 SEO 캠페인이 있습니다. 하지만 선택할 수 있는 최적화 도구와 기법이 무수히 많기 때문에 어디서부터 시작해야 할지 알기 어려울 수 있습니다. 이제 걱정하지 마세요. 제가 도와드릴 수 있는 방법이 있으니까요. 효과적인 SEO를 위한 Ranktracker 올인원 플랫폼을 소개합니다.

드디어 랭크트래커에 무료로 등록할 수 있게 되었습니다!

무료 계정 만들기

또는 자격 증명을 사용하여 로그인

얀덱스는 공식 성명에서 회사가 해킹당한 것이 아니며 전직 직원이 소스 코드를 공개 도메인에 유출하는 데 관여했을 수 있다고 해명했습니다. 러시아의 선도적인 IT 기업은 유출된 아카이브에 내부 저장소의 일부인 코드 조각이 포함되어 있으며, 해당 데이터는 최신 버전의 저장소에서 사용되는 것과 다르다고 언급했습니다.

"얀덱스는 해킹 당하지 않았습니다. 당사의 보안 서비스가 퍼블릭 도메인의 내부 저장소에서 코드 조각을 발견했지만, 그 내용은 Yandex 서비스에 사용되는 저장소의 현재 버전과 다릅니다."라고 회사 성명을 통해 밝혔습니다.

그럼에도 불구하고 소스 코드 유출은 위협 행위자가 기업의 지적 재산과 시스템 데이터를 관찰할 수 있기 때문에 조직에 심각한 보안 문제를 야기할 수 있는 위험성이 있습니다. 소스 코드 유출은 공격자가 표적 보안 익스플로잇을 만드는 데 도움이 될 수 있습니다.

이론적으로 Google과 Yandex에서 사용되는 알고리즘의 차이점은 무엇인가요?

매우 비슷합니다:

  • RankBrain아날로그가 있습니다 - MatrixNet
  • 페이지랭크 (Google과 거의 동일)를 사용하고 있습니다;
  • 많은 텍스트 알고리즘이 동일합니다.

Yandex vs Google

  • Yandex에는 전직 구글러가 많이 있습니다.
  • 야넥스는 구글 클론으로 구축되었습니다;
  • 러시아의 SEO 전문가들은 Yandex와 Google에 거의 동일한 화이트햇 SEO 전술을 사용하고 있습니다.

물론 많은 차이점이 있지만 접근 방식과 대부분의 순위 요소는 비슷한 것 같습니다.

실제로 Google과 Yandex 검색 결과를 비교하면 약 70%가 일치합니다.

Statcounter에 따르면 시장점유율 기준으로 Yandex는 야후와 빙에 근접해 있습니다:

search engine market share worldwide

순위 요소가 포함된 파일: https://dropbox.com/s/toyehkkfduogbwk/factors_gen.txt?dl=0

각 요소에 대한 구조:

  1. 이름
  2. 내부 위키 링크(제한됨)
  3. 안티서어퍼바운드 (하하)
  4. 설명(러시아어로 되어 있습니다. 제가 번역했습니다)

1. 목록의 첫 번째 요소 - 페이지 순위.

First factor in the list - PageRank

이 목록을 분석한 후의 주요 인사이트: 링크의 연령이 순위 결정 요인입니다.

Age of links is a ranking factor.

2. 트래픽과 오가닉 트래픽의 %가 순위 요소입니다.

PPC 구매는 순위에 영향을 줍니다.

Traffic and % of organic traffic are ranking factors

3. URL의 숫자는 순위에 좋지 않습니다.

Numbers in URLs is bad for rankings

4. URL에 슬래시가 너무 많으면 순위에 좋지 않습니다.

Too many slashes in URLs is bad for ranking

5. 하드 비관화 = PR=0

Hard pessimization equal PR=0

6. 호스트 신뢰도는 순위 요소입니다.

40배/50배 오류가 적을수록 오가닉 트래픽에 더 좋습니다.

Host reliability is a ranking factor

7. 위키백과를 높이기 위한 별도의 순위 요소가 있습니다.

there is a separate ranking factor for uplifting Wikipedia

8. 사용자 행동과 관련된 다양한 순위 요소 - CTR, 마지막 클릭, 사이트 체류 시간, 이탈률

참고: Yandex에서는 이러한 요소가 Google보다 훨씬 더 많은 영향을 미친다고 거의 확신합니다.

A lot of ranking factors connected with user behaviour - CTR, last-click, time on site, bounce rate

9. 문서 연한과 마지막 업데이트는 모두 순위 요소입니다.

Document age and last update both are ranking factors

10. 모든 쿼리에서 평균 도메인 위치가 순위 요소입니다.

Average domain position across all queries is a ranking factor

11. 크롤링 깊이는 순위 요소입니다.

중요한 페이지를 메인 페이지에 가깝게 유지하세요:

  • 상단 페이지로 이동합니다: 메인 페이지에서 한 번 클릭
  • 중요 페이지: 3번 미만의 클릭

Crawl depth is a ranking factor

12. 추가: 고아 페이지의 순위 요소

웹사이트 감사 도구를 통해 확인할 수 있습니다.

Additionally: ranking factor for orphan pages

13. 메인 페이지의 백링크는 내부 페이지보다 더 중요합니다.

Backlinks from main pages are more important than from internal pages

14. 사이트/URL의 검색 쿼리 수는 순위 요소입니다.

많을수록 좋습니다.

Number of search queries of your site/url is a ranking factor

15. 위키피디아의 트래픽은 순위 요소입니다.

Traffic from Wikipedia is a ranking factor

16. URL이 검색 세션의 마지막이 될 경우(사용자가 필요한 것을 찾을 수 있음) 순위에 영향을 미칩니다.

여기에는 엄격한 요소와 예측 가능한 요소도 있습니다.

If your url would be the last for search session (user will find what he needs) - it would impact rankings

17. 북마크 순위 요소

사용자가 북마크에 추가하는 URL이 많을수록 더 많은 요소 값을 갖습니다.

Bookmarks ranking factor

18. 짧은 동영상(틱톡, 쇼트, 릴)에 대한 특별 순위 요소

Special ranking factors for short videos (tiktok, shorts, reels)

19. 페이지의 지도 js-api(예: Google 지도)는 순위 요소입니다.

Google(예: 여행 틈새 시장)에서는 유용한 정보/기능이 있는 지도를 추가하는 것도 효과가 있습니다.

Maps js-api on page (for example Google Maps) is a ranking factor

20. URL의 키워드는 순위 요소입니다.

설명에서 볼 수 있듯이 최적 검색어에는 검색어에서 최대 3개의 단어가 포함됩니다.

Keywords in URL are ranking factors

21. 재방문 사용자 순위 요소

리텐션이 좋은 제품을 구축하면 SEO에 도움이 될 것입니다(이를 측정하는 순위 요소는 많습니다).

Returning users is a ranking factor

22. <제목>에 대문자가 차지하는 비율은 순위 요소입니다.

Percentage of CAPITAL LETTERS in title> is a ranking factor

23. 직접 트래픽의 비율은 순위 요소입니다.

일명. 모든 트래픽이 자연 검색에서 발생한 경우 의심스럽고 순위에도 좋지 않습니다.

Percentage of direct traffic is a ranking factor

24. 콘텐츠 품질에 대한 또 하나의 순위 요소 - 페이지에 깨진 임베디드 동영상

  • 동영상 퍼가기 - 순위에 좋습니다.
  • 깨진 임베드 동영상 - 불량.

One more ranking factor for content quality - broken embedded video on the page

25. 소셜 네트워크에서 인증된 계정은 다른 URL과 다르게 순위가 매겨집니다.

브랜드 검색에 중요 - 브랜드 검색 시 도메인 + 검증된 소셜 네트워크만 상위 10위 안에 있어야 하는 것이 이상적입니다.

Verified accounts on social networks ranks differently as other urls

26. 백링크 앵커에 키워드의 모든 단어가 포함되어 있으면 SEO에 좋습니다.

하나의 링크에 있는 경우 더 유용합니다. 특히 단어의 순서가 같은 경우 더욱 그렇습니다.

If your backlinks anchors contain all words from the keywords - it's good for SEO

27. "좋은" 백링크 대 "나쁜" 백링크의 비율은 순위 요소입니다.

!"[비율 "좋은" 대 "나쁜" 백링크는 순위 요소입니다](/images/i84.png "비율 "좋은" 대 "나쁜" 백링크는 순위 요소입니다")

28. 도메인에 있는 텍스트의 품질 순위는 순위 요소입니다.

품질이 낮은 콘텐츠가 있는 페이지는 전체 도메인에 영향을 줍니다.

The quality rank of texts on the domain is a ranking factor

29. 페이지에 게재된 광고의 양은 순위 요소입니다.

Amount of advertisements on a page is a ranking factor

30. 별도의 순위 요소로 무작위성이 있습니다.

일부 페이지가 상단에 표시되는 이유를 이해할 수 없는 경우 (행동 요인을 테스트하기 위해) 무작위로 표시되는 것일 수 있습니다.

There is a random as a separate ranking factor

31. Google 애널리틱스의 JS는 순위 요소입니다.

예상대로. 좋은 웹사이트는 나쁜 웹사이트보다 GA/Google 애널리틱스를 더 자주 사용합니다.

JS from Google Analytics is a ranking factor

32. 페이지랭크 기준 상위 100대 웹사이트의 백링크가 순위에 미치는 영향

Backlinks from the top 100 best websites by PageRank impacts on rankings

33. URL에 숫자가 없음

/100-최고-신용카드

/best-credit-cards

URL has no digits

34. URL의 슬래시 개수

/금융/기사/2023/투자-자문

/투자-자문

Number of slashes in URL

35. URL의 비문자 수

/pet-toys&all$currency=달러#모바일

/펫-토이즈

Number of non-letters in URL

36. URL의 '?' 기호는 순위 요소입니다.

/영화?장르=액션

/액션-영화

'?' symbol in the URL is a ranking factor

37. 검색 쿼리 = 점과 공백(??)을 포함한 URL

검색어는 "프랭클린 D. 루즈벨트"입니다:

/루즈벨트

/Franklin_D._Roosevelt

Search query = URL, including dots and spaces (??)

38. URL의 이전 날짜

/2009/12/01/HOW-TO-TIE-A-TIE

/HOW-TO-TIE-A-TIE

Old date in the URL

39. 키워드가 페이지 텍스트가 아닌 URL에 있습니다.

/비디오-게임 & 페이지는 음악에 관한 것입니다.

/비디오-게임 & 페이지는 비디오 게임에 관한 것입니다.

Keywords is in URL, not in the text of the page

40. 검색 쿼리에서 트라이그램을 사용한 URL 범위

/hotels-new-zealand

/nz

/cheap-hotels-in-new-zealand-best-deals

URL coverage with trigrams from the search query

  • URL에 가장 중요한 단어 1~3개를 포함합니다;
  • 키워드에 포함되지 않은 경우 슬래시/숫자/비문자 사용 줄이기

41. Yandex 순위 요소의 초기 가중치

AI(매트릭스넷)에 의해 계산된 최종 가중치이지만 초기 값도 유용합니다.

initial weights of Yandex ranking factors

결론

지금까지 공유한 내용은 여기까지입니다. 이제 시작에 불과합니다. 여기에는 대략적인 개요가 나와 있습니다.

앞으로 더 많은 가치 있는 인사이트가 제공될 예정이며, 여기서는 그 시작에 불과합니다.

그러나 적어도 링크와 관련하여 이러한 광범위한 검색 엔진이 어떻게 작동할지에 대한 외부의 많은 가정과 해석은 상당히 옳았습니다.

전반적으로 Yandex 코드 유출 사건은 최신 검색 엔진의 내부 작동 방식에 대한 흥미로운 통찰력을 제공합니다.

랭크트래커를 만나보세요

효과적인 SEO를 위한 올인원 플랫폼

모든 성공적인 비즈니스의 배후에는 강력한 SEO 캠페인이 있습니다. 하지만 선택할 수 있는 최적화 도구와 기법이 무수히 많기 때문에 어디서부터 시작해야 할지 알기 어려울 수 있습니다. 이제 걱정하지 마세요. 제가 도와드릴 수 있는 방법이 있으니까요. 효과적인 SEO를 위한 Ranktracker 올인원 플랫폼을 소개합니다.

드디어 랭크트래커에 무료로 등록할 수 있게 되었습니다!

무료 계정 만들기

또는 자격 증명을 사용하여 로그인

모든 연구 결과를 Google에 직접 적용할 수는 없지만, 최근 몇 년간 대형 인터넷 검색 엔진의 일반적인 기능에 대한 많은 가정이 확인되었습니다.

SEO 업계는 이번 유출로 인한 새로운 인사이트를 통해 앞으로 몇 달간 흥미로운 시간을 보낼 수 있을 것으로 예상합니다.

앞으로 몇 주 및 몇 달에 걸쳐 순위 요소를 계속 추가할 예정이므로 이 페이지를 계속 지켜봐 주세요.

특별 크레딧: https: //twitter.com/alex_buraks

Felix Rose-Collins

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Felix Rose-Collins is the Co-founder and CEO/CMO of Ranktracker. With over 15 years of SEO experience, he has single-handedly scaled the Ranktracker site to over 500,000 monthly visits, with 390,000 of these stemming from organic searches each month.

랭크트래커 사용 시작하기... 무료로!

웹사이트의 순위를 떨어뜨리는 요인이 무엇인지 알아보세요.

무료 계정 만들기

또는 자격 증명을 사용하여 로그인

Different views of Ranktracker app