• Lær SEO

Proxies til webscraping: Det væsentlige

  • Felix Rose-Collins
  • 3 min read
Proxies til webscraping: Det væsentlige

Intro

Ved webscraping i større omfang er det et absolut krav at bruge proxyer, da mange af de mest berømte websteder blokerer adgangen til visse IP-adresser, og webscraping uden Backconnect, roterende eller private proxyer kan være problematisk.

Ved at bruge boligproxies, Backconnect-proxies, roterende proxies eller andre IP-rotationsstrategier kan udviklere scrape populære websteder uden at få deres scraper begrænset eller lukket ned. En tilfældig IP-adresse bliver ofte blokeret for at besøge store forbrugerinternetsteder i datacentre, hvilket er et problem, når man driver scrapers.

Hvad er fuldmagter?

What are proxies (Billedkilde: Unsplash)

Ved hjælp af en proxyserver kan du sende din forespørgsel gennem en tredjeparts servere og få deres IP-adresse i processen. Du kan skrabe internettet anonymt ved at bruge en proxy, som skjuler din rigtige IP-adresse bag en falsk proxyserveradresse.

En skrapningsproxytjeneste bruges til at administrere proxyer til skrapningsprojekter. En simpel proxytjeneste til scraping kan bestå af en gruppe af proxyer, der bruges parallelt for at simulere, at flere personer har adgang til webstedet samtidig. Proxytjenester er vigtige for store skrapningsforsøg for at neutralisere antibot-forsvaret og fremskynde den parallelle behandling af anmodninger. Desuden kan skrabere øge hastigheden med en proxy-pool, der giver dem mulighed for at bruge ubegrænsede parallelle forbindelser.

Sådan bruger du en proxy-rotor

En proxy rotator er enten noget, du har skabt helt fra bunden eller en del af en tjeneste, du har købt. Brugen af den er forskellig, og du skal henvise til den valgte løsnings manual for at få detaljerede instruktioner.

Generelt modtager en klient typisk én entry node med det nødvendige antal statiske proxyer. Rotatoren vælger en tilfældig IP-adresse og roterer den ved hver anmodning, der leveres til destinationen. Datacenterproxyer efterligner således opførslen af organisk trafik og bliver ikke stoppet så hurtigt.

Sådan bruger du en proxy med webscraping-software

Det er en forholdsvis enkel proces at bruge en proxyliste med din nuværende webscraping-software. Der er kun to komponenter til proxy-integration:

1. Send forespørgslerne fra din webscraper gennem en proxy

Denne firste fase er typisk ligetil; det afhænger dog af, hvilket bibliotek dit webscraping-program bruger. Et grundlæggende eksempel ville være:

import requests

proxies = {'http': 'https://_user:pass_@_IP:PortNumber/_'}

requests.get('https://example.com', proxies=proxies)

URL'en til proxyforbindelsen kræver, at du indsamler de oplysninger, der er kursiveret i eksemplet. Din proxytjenesteudbyder bør tilbyde dig de værdier, du har brug for til at oprette forbindelse til dine lejede servere.

Når du har konstrueret URL'en, skal du henvise til den dokumentation, der følger med dit netværksanmodningsbibliotek. I denne dokumentation bør du finde en metode til at sende proxyoplysninger gennem netværket.

Mød Ranktracker

Alt-i-en-platformen til effektiv SEO

Bag enhver succesfuld virksomhed ligger en stærk SEO-kampagne. Men med utallige optimeringsværktøjer og -teknikker at vælge imellem kan det være svært at vide, hvor man skal starte. Nå, frygt ikke mere, for jeg har lige det, der kan hjælpe dig. Jeg præsenterer Ranktracker alt-i-en platformen til effektiv SEO

Vi har endelig åbnet for gratis registrering til Ranktracker!

Opret en gratis konto

Eller logge ind med dine legitimationsoplysninger

Det er godt at sende nogle testforespørgsler til et websted og derefter undersøge det svar, du får tilbage, hvis du er usikker på, om du har gennemført integrationen med succes eller ej. Disse websteder returnerer den IP-adresse, som de observerer, at forespørgslen stammer fra. Derfor bør du se oplysningerne om proxyserveren snarere end oplysningerne vedrørende din computer i svaret. Denne adskillelse sker, fordi proxyserveren er en mellemmand mellem din computer og webstedet.

2. Ændring af proxyserverens IP-adresse mellem anmodninger

Overvej flere variabler i den anden fase, f.eks. hvor mange parallelle processer du kører, og hvor tæt dit mål ligger på målwebstedets hastighedsgrænse.

Du kan gemme en grundlæggende proxyliste i hukommelsen og fjerne en bestemt proxy i slutningen af listen efter hver anmodning og indsætte den forrest på listen, når den er blevet fjernet. Dette fungerer, hvis du bruger en worker, proces eller tråd til at foretage sekventielle anmodninger efter hinanden.

Ud over den enkle kode sikrer den en ensartet rotation over alle dine tilgængelige IP-adresser. Dette er at foretrække frem for "tilfældigt" at vælge en proxy fra listen ved hver forespørgsel, da det kan resultere i, at den samme proxy vælges i træk.

Lad os antage, at du kører en webscraper i et miljø med flere arbejdere. I så fald skal du spore IP-adresserne for alle medarbejdere for at sikre, at flere medarbejdere ikke bruger én IP i en kort periode, hvilket kan resultere i, at IP'en bliver "brændt" af målwebstedet og ikke længere kan sende anmodninger videre.

Når en proxy-IP bliver brændt, vil destinationswebstedet sandsynligvis give et fejlsvar, der informerer dig om, at din forbindelse er blevet langsommere. Efter et par timer kan du begynde at bruge proxyen igen, hvis målwebstedet ikke længere begrænser anmodninger fra den pågældende IP-adresse. Hvis dette sker, kan du indstille proxyen til at "time out".

Vigtigheden af IP-rotation

Antibot-systemer identificerer typisk automatisering, når de observerer mange anmodninger fra den samme IP-adresse inden for meget kort tid. Denne metode er en af de mest almindelige. Hvis du bruger en IP-rotationstjeneste til webscraping, vil dine forespørgsler rotere på tværs af flere forskellige adresser, hvilket gør det vanskeligere at bestemme placeringen af forespørgslerne.

Konklusion

Et stigende antal virksomheder bruger proxyer for at opnå en konkurrencefordel.

Webscraping er nyttigt for din virksomhed, da det giver dig mulighed for at følge de seneste tendenser i branchen, hvilket er vigtig information at have. Derefter kan du bruge oplysningerne til at optimere din prissætning, dine reklamer, fastlægge din målgruppe og mange andre aspekter af din virksomhed.

Proxyservere kan hjælpe dig, hvis du ønsker, at din data scraper skal indsamle oplysninger fra mange steder, eller hvis du ikke vil risikere at blive opdaget som en bot og få dine rettigheder til at scrappe inddraget.

Felix Rose-Collins

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Felix Rose-Collins is the Co-founder and CEO/CMO of Ranktracker. With over 15 years of SEO experience, he has single-handedly scaled the Ranktracker site to over 500,000 monthly visits, with 390,000 of these stemming from organic searches each month.

Begynd at bruge Ranktracker... Gratis!

Find ud af, hvad der forhindrer dit websted i at blive placeret på ranglisten.

Opret en gratis konto

Eller logge ind med dine legitimationsoplysninger

Different views of Ranktracker app