Afklaring på Googles datalækage: Hvad du har brug for at vide

Intro

I løbet af den seneste ferieperiode dukkede der indlæg op på de sociale medier om en påstået lækage af data relateret til Googles rangeringsalgoritmer. De første diskussioner om disse lækager fokuserede på at "bekræfte" gamle overbevisninger fra personer som Rand Fishkin, men manglede kontekst om dataenes sande natur.

Konteksten er vigtig: Dokument AI-lager

De lækkede data ser ud til at være relateret til Googles Document AI Warehouse, en offentlig Google Cloud-platform, der bruges til at analysere, organisere, søge og lagre data. Denne offentlige dokumentation har titlen "Document AI Warehouse overview". Indlæg på platforme som Facebook antyder, at de lækkede data er en "intern version" af denne offentligt tilgængelige dokumentation, hvilket indikerer, at de måske ikke er eksklusive for Google Search-operationer.

Lækage af interne søgedata?

I det oprindelige indlæg på SparkToro blev det ikke påstået, at dataene stammede fra Google Search, men at den kilde, der havde leveret dataene til Rand Fishkin, kom med denne påstand. Fishkin, der er kendt for sin omhyggelige tilgang, bemærkede, at påstanden om, at dataene stammede fra Google Search, kom fra den person, der havde sendt ham en e-mail, og ikke fra verificerede kilder.

Fishkin citerede e-mailen:

"Jeg modtog en e-mail fra en person, der hævdede at have adgang til en massiv lækage af API-dokumentation fra Googles søgeafdeling."

På trods af dette kunne tidligere googlere, som Fishkin spurgte, kun bekræfte, at dataene lignede interne Google-oplysninger, men de bekræftede ikke eksplicit, at de stammede fra Google Search.

Indsigt fra tidligere googlere

Tidligere googlere kommenterede:

"Jeg havde ikke adgang til denne kode, da jeg arbejdede der. Men det ser bestemt legitimt ud."
"Det har alle kendetegnene ved et internt Google API."
"Det er et Java-baseret API. Og nogen har brugt meget tid på at overholde Googles egne interne standarder for dokumentation og navngivning."
"Jeg har brug for mere tid for at være sikker, men det stemmer overens med den interne dokumentation, jeg kender til."
"Intet, jeg så i en kort gennemgang, tyder på, at det er andet end lovligt."

Disse udsagn understreger, at selvom dataene ser ægte ud, er der ikke noget endegyldigt bevis for, at de kommer fra Google Search.

At have et åbent sind

Det er vigtigt at forholde sig åbent til disse data, da meget af det stadig ikke er verificeret. Hvis man drager forhastede konklusioner eller bruger data til at bekræfte allerede eksisterende overbevisninger, kan det føre til bekræftelsesbias, hvor man fortolker information på en måde, der styrker ens eksisterende synspunkter.

Definition af bekræftelsesbias:

"Bekræftelsesbias er tendensen til at søge efter, fortolke, favorisere og huske information på en måde, der bekræfter eller støtter ens tidligere overbevisninger eller værdier."

Vigtige spørgsmål om Googles datalækage

Konteksten for de lækkede oplysninger: Er dataene relateret til Google Search eller andre formål?
Formålet med dataene: Blev de brugt til faktiske søgeresultater eller til intern datahåndtering eller -manipulation?
Bekræftelse fra eks-googlere: De tidligere googlere bekræftede ikke, at dataene er specifikke for Google Search, kun at de ser ud til at komme fra Google.
Analyse med åbent sind: Undgå at bruge data til at bekræfte gamle overbevisninger for at undgå bekræftelsesbias.
Relation til Document AI Warehouse: Der er tegn på, at dataene kan være relateret til en ekstern API til opbygning af et dokumentlager i stedet for Google Search.

Ekspertudtalelser om de "lækkede" data

SEO-ekspert Ryan Jones delte:

Usikkerhed om dataene er til produktion eller test.
Uklarhed om, hvorvidt det er til websøgning eller andre vertikaler som Google Home eller News.
Spekulation om, at nogle felter kun gælder for træningsdatasæt, ikke alle steder.

DavidGQuaid tweetede:

"Vi ved ikke, om dette er til Google-søgning eller Google cloud-dokumenthentning. API'er ser ud til at vælge og vrage - det er ikke sådan, jeg forventer, at algoritmen skal køre - hvad hvis en ingeniør vil springe alle disse kvalitetstjek over - det ser ud til, at jeg vil bygge en content warehouse-app til min virksomheds vidensbase."

Konklusion

På nuværende tidspunkt er der ingen konkrete beviser for, at de "lækkede" data stammer fra Google Search. Konteksten og formålet med dataene er stadig tvetydig, og noget tyder på, at der er tale om et eksternt API til dokumenthåndtering snarere end en kernekomponent i Googles søgealgoritme. Det er vigtigt at behandle disse oplysninger med forsigtighed og undgå at drage endelige konklusioner uden yderligere verifikation.

Afklaring på Googles datalækage: Hvad du har brug for at vide

Intro

Konteksten er vigtig: Dokument AI-lager

Lækage af interne søgedata?

Indsigt fra tidligere googlere

At have et åbent sind

Vigtige spørgsmål om Googles datalækage

Ekspertudtalelser om de "lækkede" data

Konklusion

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Afklaring på Googles datalækage: Hvad du har brug for at vide

Intro

Konteksten er vigtig: Dokument AI-lager

Lækage af interne søgedata?

Indsigt fra tidligere googlere

At have et åbent sind

Vigtige spørgsmål om Googles datalækage

Ekspertudtalelser om de "lækkede" data

Konklusion

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Begynd at bruge Ranktracker... Gratis!