• Вишкрібання веб-сторінок

Збирання даних у ворожому середовищі: Що цифри говорять про стійкість проксі-серверів

  • Felix Rose-Collins
  • 2 min read

Вступ

Кожен заблокований запит - це більше, ніж просто затримка, це тихе списання процесорного часу, пропускної здатності та уваги аналітиків. Перш ніж масштабувати будь-який пошуковий робот, досвідчені інженери починають з цифр, а не з анекдотів. Зараз в Інтернеті повно "розтяжок" проти ботів: За оцінками навчального центру Cloudflare, "понад 40% всього інтернет-трафіку - це трафік ботів", більшість з яких є зловмисними. Щоб залишатися прибутковим, скрейпер повинен перетворити цю ворожу статистику на передбачувану статтю витрат, яку можна змоделювати, зменшити і врахувати в бюджеті.

Нижче ми розберемося з хайпом за допомогою чотирьох контрольних точок, заснованих на даних, і закінчимо одним уроком, який можна взяти з собою додому. Загальна довжина: ~710 слів.

1 Прихований податок на невдачу: 40 % ботів ≠ 40 % поганих акторів

Коли майже половина пакетів, що потрапляють до публічних кінцевих точок, класифікуються як автоматизовані, сайти-джерела відповідають ескалацією захисних JavaScript-викликів, поведінковим скорингом та дроселюванням на мережевому рівні. Кожна додаткова передача в обидва боки або CAPTCHA додає вимірювану затримку. У тестах продуктивності, які я проводив минулого кварталу, одна примусова повторна спроба збільшувала середній час сканування на 38 % на вибірці з 10 URL-адрес. Помножте це на мільйони URL-адрес, і "податок на відмову" зменшить витрати на обладнання. Ставтеся до кожного GET як до ймовірної події, а не як до гарантії. 40-відсотковий показник Cloudflare - це початковий коефіцієнт у цьому рівнянні, а не виноска.

2 Економіка успіху: житлові пули окупають себе

Дослідження зафіксувало 99,82% успішних запитів і середню відповідь 0,41 с для деяких резидентних мереж, проти 98,96% у найближчого конкурента. На папері дельта виглядає невеликою, але на практиці збільшення успішності на один пункт означає десять тисяч додаткових сторінок на мільйон без витрат на перерозподіл черги. У масштабі ця маржа компенсує преміальну ціну за гігабайт домашнього трафіку. Розрахунок простий:

extra_pages = (success_res - success_alt) × total_requests

Підставте свої власні обсяги в цю формулу, перш ніж оголошувати будь-який проксі "занадто дорогим". І пам'ятайте: тунелювання на транспортному рівні через протокол SOCKS дозволяє вам передавати TCP і UDP через один і той же аутентифікований канал, що дуже зручно, коли ваш кроулер змішує Selenium з необробленими сокетними зондами.

3 Ентропія відбитків пальців: ваш User-Agent все ще зраджує вас

Дослідження Panopticlick, проведене Electronic Frontier Foundation, виміряло 18,1 біт ентропії в типовому відбитку пальця браузера, чого достатньо, щоб виділити один браузер з 286 777. Серед браузерів з Flash або Java 94,2 % були унікальними. Для зловмисників це означає, що заміна IP-адреси є косметичною; безголовий Chrome з налаштуваннями за замовчуванням засвітиться на будь-якому радарі, що профілює пристрої. Реальне зменшення впливу вимагає рандомізації заголовків, придушення шрифтів і підміни часових поясів на одному диханні зі зміною IP. Розглядайте дисперсію відбитків пальців як частину вашого бюджету на ентропію пулу проксі-серверів.

4 Частота ротації і помилкові спрацьовування: женіться за 0,01 %

Навіть ідеальні проксі-сервери можуть підставлятися під удари надмірно старанних бот-менеджерів. DataDome повідомляє про рівень помилкових спрацьовувань нижче 0,01 % на мільярди запитів завдяки перевірці пристроїв на мілісекундному рівні. Це встановлює практичний орієнтир: якщо легітимні запити вашого власного скрепера блокуються частіше, ніж один на десять тисяч, ви втрачаєте дохід. Оснастіть свій конвеєр сповіщенням про перевищення "бюджету блокування", дроселюванням або заміною вихідного вузла до того, як цільовий домен внесе до чорного списку всю підмережу.

Ключовий урок

Вибір проксі більше не зводиться до простого підрахунку IP-адрес - це вправа в арифметиці ризиків. Об'єднайте (а) емпіричні співвідношення ботів і трафіку, (б) перевірені таблиці успішності, © метрики ентропії відбитків пальців і (г) стелі помилкових спрацьовувань в єдину функцію втрат, а потім оптимізуйте. Команди, які кількісно оцінюють кожну змінну, керують гусеницями, які продовжують скребти, навіть коли павутина риє все глибший рів.

Felix Rose-Collins

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Felix Rose-Collins is the Co-founder and CEO/CMO of Ranktracker. With over 15 years of SEO experience, he has single-handedly scaled the Ranktracker site to over 500,000 monthly visits, with 390,000 of these stemming from organic searches each month.

Почніть користуватися Ranktracker... Безкоштовно!

Дізнайтеся, що стримує ваш сайт від ранжування.

Створіть безкоштовний обліковий запис

Або Увійдіть, використовуючи свої облікові дані

Different views of Ranktracker app