イントロ
Googleは25年間、一つのコアシステムを完成させることに注力してきました:
クロール → インデックス → ランク付け → 提供
しかし現代のAI検索エンジン——ChatGPT Search、Perplexity、Gemini、Copilot——は全く異なるアーキテクチャで動作する:
クロール → 埋め込み → 取得 → 合成
これらのシステムは従来の意味での検索エンジンではない。 文書をランク付けしない。 キーワードを評価しない。 PageRankを計算しない。
代わりに、LLMはウェブを意味に圧縮し、その意味をベクトルとして保存し、以下に基づいて回答を再構築します:
-
意味理解
-
合意形成シグナル
-
信頼パターン
-
検索スコアリング
-
文脈推論
-
エンティティの明確性
-
プロバンス
これはマーケターがコンテンツの構造化、エンティティの定義、権威性の構築方法を根本的に再考する必要があることを意味します。
本ガイドでは、LLMがウェブを「クロール」する方法、それを「インデックス」する方法、そしてそのプロセスがGoogleの従来の検索パイプラインとは全く異なる理由を解説します。
1. Googleのパイプライン vs. LLMのパイプライン
両システムを可能な限り簡潔に比較します。
Googleパイプライン(従来型検索)
Googleは予測可能な4段階のアーキテクチャに従います:
1. クロール
Googlebotがページを取得します。
2. インデックス
Googleはテキストを解析し、トークンを保存し、キーワードを抽出し、スコアリングシグナルを適用します。
3. ランク付け
アルゴリズム(PageRank、BERT、評価者ガイドラインなど)がどのURLを表示するかを決定します。
4. 提供
ユーザーは順位付けされたURLリストを閲覧します。
このシステムはURLファースト、ドキュメントファースト、キーワードファーストである。
LLMパイプライン(AI検索+モデル推論)
LLMは全く異なるスタックを使用します:
1. クロール
AIエージェントがオープンウェブと高信頼性ソースからコンテンツを取得します。
2. 埋め込み
コンテンツはベクトル埋め込み(高密度な意味表現)に変換されます。
3. 取得
クエリが到着すると、意味検索システムがURLではなく最適な対応ベクトルを抽出します。
4. 統合
LLMが情報を統合して物語形式の回答を生成し、必要に応じて出典を引用します。
このシステムは意味優先、エンティティ優先、文脈優先である。
LLM駆動型検索では、関連性はランキングではなく関係性を通じて算出される。
2. LLMクローリングの実態(Googleとは全く異なる)
LLMシステムは単一の巨大なクローラーを運用しません。 ハイブリッドなクローリング層を使用します:
レイヤー1 — トレーニングデータクロール(大規模、低速、基盤的)
これには以下が含まれます:
-
Common Crawl
-
ウィキペディア
-
政府データセット
-
参考資料
-
書籍
-
ニュースアーカイブ
-
高権威サイト
-
Q&Aサイト
-
学術情報源
-
ライセンスコンテンツ
このクロールには数か月、時には数年を要し、基礎モデルを生成します。
効果的なSEOのためのオールインワン・プラットフォーム
ビジネスが成功する背景には、強力なSEOキャンペーンがあります。しかし、数え切れないほどの最適化ツールやテクニックがあるため、どこから手をつければいいのかわからないこともあります。でも、もう心配はありません。効果的なSEOのためのオールインワンプラットフォーム「Ranktracker」を紹介します。
このクロールに「SEO対策」で介入することは不可能だ。 影響を与える手段は:
-
権威あるサイトからのバックリンク
-
強力なエンティティ定義
-
広範な言及
-
一貫した記述
ここでエンティティ埋め込みが最初に形成される。
レイヤー2 — リアルタイム検索クローラー(高速、頻繁、狭域)
ChatGPT Search、Perplexity、Geminiにはライブクロール層が存在します:
-
リアルタイムフェッチャー
-
オンデマンドボット
-
最新コンテンツ検出器
-
正規URL解決ツール
-
引用クローラー
これらはGooglebotとは異なる挙動を示します:
-
✔ 取得するページ数が大幅に少ない
-
✔ 信頼できる情報源を優先する
-
✔ 主要セクションのみを解析
-
✔ キーワード索引ではなく意味的要約を生成する
-
✔ エンベディングを保存し、トークンは保存しない
ページは「順位付け」される必要はなく、 モデルが意味を容易に抽出できる状態であることが求められます。
レイヤー3 — RAG(検索拡張生成)パイプライン
多くのAI検索エンジンは、ミニ検索エンジンのように動作するRAGシステムを採用しています:
-
独自の埋め込みを構築する
-
独自のセマンティックインデックスを維持する
-
コンテンツの新鮮さを確認する
-
構造化された要約を優先する
-
文書をAI適性に基づいてスコアリングする
この層は機械可読性を最優先とする — キーワードよりも構造が重要である。
レイヤー4 — 内部モデルクローリング(「ソフトクローリング」)
LLMがウェブをクロールしていなくても、自身の知識を「クロール」します:
-
埋め込み
-
クラスター
-
エンティティグラフ
-
合意パターン
コンテンツを公開すると、LLMは以下を評価します:
-
これは既存の知識を補強するか?
-
コンセンサスと矛盾するか?
-
曖昧なエンティティを明確化するか?
-
事実の信頼性を向上させるか?
このソフトクロールこそがLLMOの真価が発揮される領域です。
3. LLMがウェブを「インデックス」する方法(Googleとは全く異なる)
Googleのインデックスが保存するのは:
-
トークン
-
キーワード
-
逆引きインデックス
-
ページメタデータ
-
リンクグラフ
-
鮮度シグナル
LLMが保存するのは:
-
✔ ベクトル(密な意味)
-
✔ 意味的クラスター
-
✔ エンティティ関係
-
✔ 概念マップ
-
✔ コンセンサス表現
-
✔ 事実確率重み
-
✔ プロバニエンス信号
この違いは強調してもしすぎることはありません:
**Googleは文書をインデックス化する。
LLMは意味をインデックス化する。**
インデックス化のために最適化するのではありません—— 理解のために最適化するのです。
4. LLM「インデックス化」の6段階
LLMがページを処理する際の段階:
段階1 — チャンキング
ページは意味ブロック(段落ではない)に分割される。
構造化されたコンテンツ = 予測可能なチャンク。
ステージ2 — 埋め込み
各チャンクはベクトル(意味の数学的表現)に変換されます。
弱く不明確な文章 = ノイズの多い埋め込み表現。
ステージ3 — エンティティ抽出
LLMは以下のようなエンティティを識別する:
-
ランクトラッカー
