イントロ
先日の休暇期間中、Googleのランキングアルゴリズムに関連するデー タのリーク疑惑に関するソーシャルメディアへの投稿が登場した。これらのリークに関する最初の議論は、ランド・フィッシュキン氏のような人物による長年の信念を「確認する」ことに焦点が当てられていたが、データの真の性質に関する文脈は欠けていた。
コンテキストの重要性ドキュメントAIウェアハウス
流出したデータは、データの分析、整理、検索、保存に使用されるグーグルのパブリックなグーグル・クラウド・プラットフォーム「ドキュメントAIウェアハウス」に関連しているようだ。この公開文書のタイトルは "Document AI Warehouse overview "である。Facebookなどのプラットフォームへの投稿によると、流出したデータはこの一般公開されているドキュメントの「内部バージョン」であり、Google検索業務専用ではない可能性を示唆している。
社内検索データの流出?
SparkToroの元の投稿では、データはGoogle検索からとは主張しておらず、ランド・フィッシュキンにデータを提供したソースがこのように主張したと述べている。綿密なアプローチで知られるFishkin氏は、Google検索からのデータという主張は、検証された情報源からではなく、彼にメールを送った人物からだと指摘した。
フィッシュキンはそのメールを引用した:
"グーグルの検索部門内部から大量に流出したAPIドキュメントにアクセスできると主張する人物からメールを受け取った。"
にもかかわらず、フィッシュキンが相談した元グーグ ラーは、そのデータがグーグル社内の情報に似ていることを確認できただけで、グーグル検索のものであることを明確に確認できなかった。
元グーグラーからの洞察
元グーグラーはこうコメントしている:
-
「私が働いていたときは、このコードにはアクセスできなかった。しかし、これは確かに合法的に見える"
-
「グーグル内部のAPIの特徴をすべて備えている。
-
「JavaベースのAPIだ。そして誰かが、ドキュメントと命名に関するグーグル独自の内部標準を守ることに多くの時間を費やした"
-
「確かめるにはもう少し時間が必要だが、これは私がよく知っている社内文書と一致する」。
-
"簡単なレビューでは、これが合法的なものであることを示唆するものは何もなかった"
これらの記述は、データは本物であるように見えるが、それがGoogle検索によるものであるという決定的な証拠はないことを強調している。
オープンマインド
データの多くは未検証のままであるため、オープンマインドでいることが重要である。結論を急いだり、既存の信念を確認するためにデータを利用したりすることは、確証バイアスにつながる可能性がある。
確証バイアスの定義:
「確証バイアスとは、自分の事前の信念や価値観を確認したり支持したりするような方法で、情報を探したり、解釈したり、好意を持ったり、思い出したりする傾向のことである。
グーグルのデータ流出に関する主な質問
-
流出した情報の文脈:そのデータはグーグル検索に関連したものか、それとも他の目的か?
-
データの目的:実際の検索結果のためか、社内のデータ管理や操作のためか。
-
元グーグラーからの確認:元グーグラーたちは、このデータがグーグル検索に特有のものであることは確認していない。
-
オープンマインドな分析:確証バイアスを防ぐため、長年の信念を確認するためにデータを使用することは避ける。
-
ドキュメントAIウェアハウスとの関係:証拠によると、このデータはGoogle検索ではなく、ドキュメントウェアハウスを構築するための外部向けAPIに関連している可能性がある。
流出」データに関する専門家の見解
SEOのエキスパート、ライアン・ジョーンズが語った:
-
データが本番用かテスト用かは不明。
-
ウェブ検索なのか、Google Homeやニュースのような他の分野なのかが明確でない。
-
いくつかのフィールドはトレーニングデータセットにのみ適用され、すべてのサイトには適用されないという推測。
とDavidGQuaidはツイートした:
効果的なSEOのためのオールインワン・プラットフォーム
ビジネスが成功する背景には、強力なSEOキャンペーンがあります。しかし、数え切れないほどの最適化ツールやテクニックがあるため、どこから手をつければいいのかわからないこともあります。でも、もう心配はありません。効果的なSEOのためのオールインワンプラットフォー ム「Ranktracker」を紹介します。
"これがGoogle検索用なのかGoogleクラウド文書検索用なのかわかりません。APIは選んでいるように見える - アルゴリズムが実行されることを期待しているわけではない - もしエンジニアが全ての品質チェックをスキップしたいのであればどうすればいいのだろう - これは、企業のナレッジベース用にコンテンツウェアハウスアプリを作りたいように見える。"
結論
現在のところ、"流出 "したデータがグーグル検索のものであるという具体的な証拠はない。データの文脈と目的はあいまいなままであり、グーグルの検索アルゴリズムのコア・コンポーネントではなく、ドキュメント管理のための外部向けAPIであるとの指摘もある。この情報には慎重に接近し、さらなる検証なしに決定的な結論を出すことは避ける必要がある。