소개
최근 연휴 기간 동안 소셜 미디어에는 Google의 검색어 순위 알고리즘과 관련된 데이터 유출 의혹에 관한 게시물이 등장했습니다. 이러한 데이터 유출에 대한 초기 논의는 랜드 피쉬킨과 같은 인물의 오랜 믿음을 '확인'하는 데 초점을 맞추었지만 데이터의 실제 성격에 대한 맥락은 부족했습니다.
컨텍스트가 중요합니다: 문서 AI 웨어하우스
유출된 데이터는 데이터를 분석, 정리, 검색 및 저장하는 데 사용되는 공용 Google 클라우드 플랫폼인 Google의 Document AI Warehouse와 관련된 것으로 보입니다. 이 공개 문서의 제목은 "Document AI Warehouse 개요"입니다. Facebook과 같은 플랫폼의 게시물에 따르면 유출된 데이터는 이 공개 문서의 '내부 버전'으로, Google 검색 운영에만 국한된 것이 아닐 수 있음을 시사합니다.
내부 검색 데이터 유출?
SparkToro의 원래 게시물은 해당 데이터가 Google 검색에서 가져온 것이라고 주장하지 않았지만 Rand Fishkin에게 데이터를 제공한 출처가 이러한 주장을 했다고 명시했습니다. 꼼꼼한 접근 방식으로 유명한 피쉬킨은 Google 검색에서 가져온 데이터라는 주장은 검증된 출처가 아니라 이메일을 보낸 사람이 한 말이라고 지적했습니다.
피쉬킨이 이메일을 인용했습니다:
"Google 검색 부서 내부에서 대규모로 유출된 API 문서에 액세스할 수 있다고 주장하는 사람으로부터 이메일을 받았습니다."
그럼에도 불구하고 피쉬킨의 자문을 구한 전직 구글러들은 해당 데이터가 구글 내부 정보와 유사하다는 사실만 확인할 수 있었을 뿐, 구글 검색에서 가져온 것인지 명시적으로 확인하지는 못했습니다.
전직 구글러의 인사이트
전직 구글러가 댓글을 달았습니다:
-
"제가 그곳에서 일할 때는 이 코드에 액세스할 수 없었습니다. 하지만 이것은 확실히 합법적으로 보입니다."
-
"내부 Google API의 모든 특징을 갖추고 있습니다."
-
"Java 기반 API입니다. 그리고 문서화 및 이름 지정에 대한 Google의 자체 내부 표준을 준수하는 데 많은 시간을 할애했습니다."
-
"확실히 하려면 시간이 더 필요하겠지만, 제가 잘 알고 있는 내부 문서와 일치합니다."
-
"간략한 리뷰에서 본 어떤 것도 이것이 합법적이지 않다는 것을 암시하지 않습니다."
이러한 진술은 데이터가 진짜인 것처럼 보이지만 Google 검색에서 가져온 것이라는 확실한 증거는 없다는 점을 강조합니다.
열린 마음 유지
데이터의 대부분은 아직 검증되지 않았으므로 열린 마음을 유지하는 것이 중요합니다. 섣불리 결론을 내리거나 데이터를 사용하여 기존의 신념을 확인하는 것은 기존의 견해를 강화하는 방식으로 정보를 해석하는 확증 편향으로 이어질 수 있습니다.
확증 편향의 정의:
"확증 편향은 자신의 기존 신념이나 가치를 확인하거나 지지하는 방식으로 정보를 검색하고, 해석하고, 선호하고, 기억하는 경향을 말합니다."
Google 데이터 유출에 관한 주요 질문
-
유출된 정보의 맥락: 데이터가 Google 검색 또는 기타 목적과 관련이 있나요?
-
데이터의 목적: 실제 검색 결과를 위해 사용되었나요, 아니면 내부 데이터 관리 또는 조작을 위해 사용되었나요?
-
전직 구글러의 확인: 전직 구글러들은 해당 데이터가 구글 검색과 관련된 데이터인지 확인하지 않았으며, 구글에서 제공한 것으로 보인다는 점만 확인했습니다.
-
열린 마음으로 분석하기: 확증 편향을 방지하기 위해 데이터를 사용하여 오랜 신념을 확인하지 마세요.
-
문서 AI 웨어하우스와의 관계: 증거에 따르면 데이터는 Google 검색이 아닌 문서 웨어하우스 구축을 위한 외부 API와 관련이 있을 수 있습니다.
"유출된" 데이터에 대한 전문가 의견
SEO 전문가인 라이언 존스가 공유했습니다:
-
데이터가 프로덕션용인지 테스트용인지 불확실성.
-
웹 검색이나 Google 홈 또는 뉴스와 같은 다른 업종에 대한 경우 명확성이 부족합니다.
-
일부 필드는 모든 사이트가 아닌 학습 데이터 세트에만 적용되는 것으로 추측됩니다.
DavidGQuaid가 트윗했습니다:
효과적인 SEO를 위한 올인원 플랫폼
모든 성공적인 비즈니스의 배후에는 강력한 SEO 캠페인이 있습니다. 하지만 선택할 수 있는 최적화 도구와 기법이 무수히 많기 때문에 어디서부터 시작해야 할지 알기 어려울 수 있습니다. 이제 걱정하지 마세요. 제가 도와드릴 수 있는 방법이 있으니까요. 효과적인 SEO를 위한 Ranktracker 올인원 플랫폼을 소개합니다.
"이것이 구글 검색용인지, 구글 클라우드 문서 검색용인지 알 수 없습니다. 엔지니어가 모든 품질 검사를 생략하고 싶다면 어떻게 해야 할까요?" 엔터프라이즈 지식창고용 콘텐츠 웨어하우스 앱을 구축하려는 것처럼 보입니다.
결론
현재로서는 '유출된' 데이터가 Google 검색에서 유출되었다는 구체적인 증거는 없습니다. 데이터의 맥락과 목적은 여전히 모호하며, Google 검색 알고리즘의 핵심 구성 요소라기보다는 문서 관리를 위한 외부용 API로 추정되는 정황이 있습니다. 이 정보는 신중하게 접근해야 하며 추가 확인 없이 단정적인 결론을 내리는 것은 피해야 합니다.