• Vyškrabávání z webu

Vyhledávání dat v nepřátelském terénu: Co čísla ukazují o odolnosti proxy serverů?

  • Felix Rose-Collins
  • 2 min read

Úvodní stránka

Každý zablokovaný požadavek je víc než jen zádrhel, je to tichý odpis času procesoru, šířky pásma a pozornosti analytiků. Před škálováním jakéhokoli crawleru začínají zkušení inženýři s čísly, ne s anekdotami. Web je nyní protkán antibotovými drátky: Podle odhadů vzdělávacího centra společnosti Cloudflare "více než 40 % veškerého internetového provozu tvoří botový provoz", z velké části škodlivý. Aby si scraper udržel ziskovost, musí tuto nepřátelskou statistiku proměnit v předvídatelnou položku, kterou lze modelovat, zmírnit a zahrnout do rozpočtu.

Níže probereme humbuk čtyřmi kontrolními body založenými na datech a zakončíme jediným poučením. Celková délka: ~710 slov.

1 Skrytá daň za selhání: 40 % botů ≠ 40 % špatných aktérů

Když je téměř polovina paketů dopadajících na veřejné koncové body klasifikována jako automatická, reagují weby původu stupňující se obranou JavaScriptovými výzvami, behaviorálním skórováním a škrcením na síťové vrstvě. Každý další kruhový průchod nebo CAPTCHA zvyšuje měřitelné zpoždění. Ve výkonnostních benchmarcích, které jsem provedl v minulém čtvrtletí, prodloužilo jediné vynucené opakování průměrnou dobu scrapování o 38 % na vzorku 10 URL. Vynásobte to miliony adres URL a "daň za selhání" je mnohem vyšší než náklady na hardware. Ke každému GET přistupujte jako k pravděpodobné události, nikoli jako k záruce. Čtyřicetiprocentní metrika společnosti Cloudflare je výchozím koeficientem v této rovnici, nikoli poznámkou pod čarou.

2 Ekonomika úspěšnosti: rezidenční pooly se vyplatí.

Výzkum zaznamenal 99,82 % úspěšných požadavků a 0,41 s medián odezvy u některé rezidenční sítě oproti 98,96 % u nejbližšího konkurenta. Na papíře vypadá rozdíl malý; v praxi znamená nárůst úspěšnosti o jeden bod deset tisíc stránek navíc za milion bez režijních nákladů na re-queue. V měřítku tato marže vyrovnává vyšší sazbu za GB provozu v domácnostech. Výpočet je jednoduchý:

extra_pages = (success_res - success_alt) × total_requests.

Než prohlásíte nějakého zástupce za "příliš drahého", dosaďte do tohoto vzorce vlastní objemy. A nezapomeňte: tunelování transportní vrstvy prostřednictvím protokolu SOCKS vám umožňuje vést protokoly TCP i UDP stejným ověřeným kanálem, což se hodí, když váš crawler kombinuje Selenium se sondami pro surové sokety.

3 Entropie otisků prstů: váš User-Agent vás stále prozrazuje

Studie Panopticlick organizace Electronic Frontier Foundation naměřila 18,1 bitů entropie v typickém otisku prstu prohlížeče, což je dost na to, aby bylo možné vyčlenit jeden prohlížeč z 286 777. Mezi prohlížeči s Flashem nebo Javou bylo 94,2 % jedinečných. Pro scrapery to znamená, že pouhá výměna IP adres je kosmetická; bezhlavý Chrome s výchozím nastavením rozsvítí jakýkoli radar pro profilování zařízení. Skutečné zmírnění vyžaduje náhodnou změnu hlavičky, potlačení písma a podvržení časového pásma jedním dechem spolu se střídáním IP. Považujte odchylku otisků prstů za součást rozpočtu na entropii proxy-poolu.

4 Kadence rotace a falešně pozitivní výsledky: honba za 0,01 %

I dokonalé proxy servery mohou být podraženy příliš horlivými správci botů. DataDome uvádí míru falešně pozitivních výsledků pod 0,01 % u miliard požadavků díky milisekundovým kontrolám zařízení. To stanovuje praktické měřítko: pokud jsou legitimní požadavky vašeho vlastního scrapperu blokovány častěji než jeden z deseti tisíc, necháváte na stole příjmy. Instrumentujte svůj pipeline pomocí upozornění "block budget", jakmile dojde k jeho překročení, zaškrťte nebo vyměňte výstupní uzel dříve, než cílová doména zařadí celou podsíť na černou listinu.

Klíčová lekce

Výběr proxy serveru již není o hrubém počtu IP, ale o aritmetice rizik. Zkombinujte (a) empirické poměry bot-traffic, (b) ověřené tabulky úspěšnosti, © metriky entropie otisků prstů a (d) stropy falešně pozitivních výsledků do jediné ztrátové funkce a poté optimalizujte. Týmy, které kvantifikují každou proměnnou, dodávají crawlery, které pokračují ve škrábání, i když web hloubí stále hlubší příkop.

Felix Rose-Collins

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Felix Rose-Collins is the Co-founder and CEO/CMO of Ranktracker. With over 15 years of SEO experience, he has single-handedly scaled the Ranktracker site to over 500,000 monthly visits, with 390,000 of these stemming from organic searches each month.

Začněte používat Ranktracker... zdarma!

Zjistěte, co brání vašemu webu v umístění.

Vytvoření bezplatného účtu

Nebo se přihlaste pomocí svých přihlašovacích údajů

Different views of Ranktracker app