• ウェブ・スクレイピング

敵地でのデータスクレイピング:プロキシの回復力について数字が示すもの

  • Felix Rose-Collins
  • 4 min read

イントロダクション

すべてのブロックされたリクエストは、CPU時間、帯域幅、アナリストの注目度において、単なる不具合ではなく、無言の評価損となる。クローラーの規模を拡大する前に、ベテランのエンジニアは逸話ではなく数字から始めます。現在、ウェブにはボット対策用の仕掛けが施されている:Cloudflareのラーニングセンターは、「インターネットトラフィックの40%以上がボットトラフィックであり、その多くは悪意あるものである」と推定している。クラウドフレアのラーニングセンターは、「すべてのインターネットトラフィックの40%以上がボットトラフィックであり、その多くは悪意のあるものである」と推定している。スクレイパーが利益を上げ続けるためには、この敵対的な統計を予測可能な項目に変え、モデル化し、軽減し、予算を組むことができなければならない。

以下では、4つのデータに基づいたチェックポイントで誇大広告を一刀両断し、1つの教訓で締めくくる。全文:~710ワード

1 隠れた失敗税:40% ボット ≠ 40% 悪質業者

公開エンドポイントに到達するパケットの半分近くが自動化されたものと分類された場合、オリジンサイトはJavaScriptの課題、行動スコアリング、ネットワーク層のスロットリングをエスカレートさせた防御で対応する。余分なラウンドトリップやCAPTCHAは、それぞれ測定可能な待ち時間を追加します。前四半期に実施したパフォーマンスベンチマークでは、1回の強制再試行により、10URLのサンプルで平均スクレイプ時間が38%増加した。これを何百万ものURLにかけると、"失敗税 "はハードウェアのコストを凌駕する。すべてのGETを保証ではなく、確率的なイベントとして扱う。Cloudflareの40%という指標は、その方程式における開始係数であり、脚注ではありません。

2 成功率の経済学:住宅用プールはそれ自体でペイする

調査によると、あるレジデンシャルネットワークのリクエスト成功率は99.82%、レスポンスの中央値は0.41秒であり、最も近い競合他社の成功率は98.96%でした。実際には、成功率が1ポイント上がると、再キューのオーバーヘッドなしで100万ページあたり1万ページ増えることになる。規模が大きくなれば、このマージンは家庭用トラフィックのGBあたりの割高なレートを相殺する。計算は簡単だ:

extra_pages = (success_res - success_alt) × total_requests

どのプロキシでも "高すぎる "と宣言する前に、自分のボリュームをこの式に当てはめてみよう。また、SOCKSプロトコルによるトランスポート層のトンネリングにより、TCPとUDPの両方を同じ認証チャンネルに通すことができるので、クローラーがSeleniumと生のソケットプローブを混在させる場合に便利です。

3 フィンガープリントのエントロピー: ユーザエージェントはあなたを裏切る

電子フロンティア財団のPanopticlick研究では、典型的なブラウザのフィンガープリントのエントロピーを18.1ビット測定し、286,777のブラウザから1つのブラウザを特定するのに十分な値を示しました。FlashやJavaを搭載しているブラウザのうち、94.2%がユニークであった。スクレイパーにとっては、IPのスワップだけでは見栄えが悪いということだ。デフォルト設定のヘッドレスChromeは、デバイス・プロファイリング・レーダーに引っかかるだろう。本当のミティゲーションは、IPローテーションと同じように、ヘッダーのランダム化、フォントの抑制、タイムゾーンスプーフィングを要求する。フィンガープリントの分散をプロキシプールのエントロピー予算の一部として扱うこと。

4 ローテーションの周期と偽陽性:0.01%を追う

完璧なプロキシでさえも熱狂的なボットマネージャーによって引っかかることがある。DataDome は、ミリ秒レベルのデバイスチェックにより、何十億ものリクエストで0.01 % 未満の誤検知率を報告しています。もし、あなたのスクレイパーの正当なリクエストが、1万分の1以上の頻度でブロックされるのであれば、あなたは収益をテーブルの上に残していることになります。パイプラインに「ブロックバジェット」アラートを設定し、それを超えたら、ターゲットドメインがサブネット全体をブラックリストに登録する前に、出口ノードをスロットルまたはスワップする。

重要な教訓

プロキシの選択は、もはや生のIP数ではなく、リスク算術の練習です。(a)経験的なボット・トラフィック比率、(b)検証された成功率テーブル、©フィンガープリント・エントロピー・メトリクス、(d)偽陽性の天井を一つの損失関数に組み合わせ、最適化する。各変数を定量化するチームは、ウェブが堀を深く掘り続けてもスクレイピングを続けるクローラーを出荷する。

Felix Rose-Collins

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Felix Rose-Collins is the Co-founder and CEO/CMO of Ranktracker. With over 15 years of SEO experience, he has single-handedly scaled the Ranktracker site to over 500,000 monthly visits, with 390,000 of these stemming from organic searches each month.

Ranktrackerを無料で使いましょう。

あなたのWebサイトのランキングを妨げている原因を突き止めます。

無料アカウント作成

または認証情報を使ってサインインする

Different views of Ranktracker app