Clarification sur la fuite de données de Google : Ce qu'il faut savoir

Intro

Au cours des dernières vacances, des messages sont apparus sur les réseaux sociaux concernant une fuite présumée de données relatives aux algorithmes de classement de Google. Les premières discussions autour de ces fuites se sont concentrées sur la "confirmation" de croyances de longue date par des personnalités telles que Rand Fishkin, mais manquaient de contexte sur la véritable nature des données.

Le contexte compte : Entrepôt de documents AI

Les données divulguées semblent être liées à Document AI Warehouse de Google, une plateforme publique de Google Cloud utilisée pour l'analyse, l'organisation, la recherche et le stockage de données. Cette documentation publique est intitulée "Document AI Warehouse overview". Des messages publiés sur des plateformes telles que Facebook suggèrent que les données divulguées sont une "version interne" de cette documentation publique, ce qui indique qu'elles ne sont peut-être pas réservées aux opérations de recherche de Google.

Fuite de données de recherche interne ?

Le post original sur SparkToro ne prétendait pas que les données provenaient de Google Search mais indiquait que la source qui avait fourni les données à Rand Fishkin avait fait cette affirmation. Fishkin, connu pour son approche méticuleuse, a noté que l'affirmation selon laquelle les données provenaient de Google Search venait de la personne qui lui avait envoyé un courriel, et non de sources vérifiées.

Fishkin a cité l'e-mail :

"J'ai reçu un courriel d'une personne affirmant avoir eu accès à une fuite massive de la documentation de l'API au sein de la division Recherche de Google.

Malgré cela, les ex-Googlers consultés par Fishkin n'ont pu que confirmer que les données ressemblaient à des informations internes de Google, mais n'ont pas explicitement vérifié qu'elles provenaient de Google Search.

Points de vue d'ex-googlers

Les ex-Googlers ont commenté :

"Je n'avais pas accès à ce code lorsque je travaillais là-bas. Mais cela semble tout à fait légitime".
"Elle présente toutes les caractéristiques d'une API interne de Google.
"Il s'agit d'une API basée sur Java. Et quelqu'un a passé beaucoup de temps à respecter les normes internes de Google en matière de documentation et de dénomination."
"Il me faudrait plus de temps pour en être sûr, mais cela correspond à la documentation interne que je connais.
"Rien de ce que j'ai vu lors d'un bref examen ne laisse penser que ce n'est pas légitime.

Ces déclarations soulignent que si les données semblent authentiques, il n'y a pas de preuve définitive qu'elles proviennent de Google Search.

Garder l'esprit ouvert

Il est essentiel de faire preuve d'ouverture d'esprit face à ces données, car la plupart d'entre elles ne sont pas vérifiées. Tirer des conclusions hâtives ou utiliser les données pour confirmer des croyances préexistantes peut conduire à un biais de confirmation, c'est-à-dire que l'on interprète les informations d'une manière qui renforce ses opinions existantes.

Définition du biais de confirmation :

"Le biais de confirmation est la tendance à rechercher, interpréter, privilégier et se rappeler des informations d'une manière qui confirme ou soutient les croyances ou les valeurs antérieures d'une personne.

Questions clés sur la fuite de données de Google

Contexte de la fuite d'informations : Les données sont-elles liées à la recherche Google ou à d'autres objectifs ?
Objectif des données : Ont-elles été utilisées pour obtenir des résultats de recherche réels ou pour la gestion ou la manipulation de données internes ?
Confirmation des ex-googlers : Les ex-Googlers n'ont pas confirmé que les données étaient spécifiques à Google Search, mais seulement qu'elles semblaient provenir de Google.
Analyse ouverte : Éviter d'utiliser les données pour confirmer des croyances de longue date afin d'éviter le biais de confirmation.
Relation avec l'entrepôt de documents AI : Il semble que les données soient liées à une API externe pour la création d'un entrepôt de documents plutôt qu'à Google Search.

Avis d'experts sur les données ayant fait l'objet d'une fuite

L'expert en référencement Ryan Jones a fait part de son point de vue :

Incertitude quant à savoir si les données sont destinées à la production ou aux essais.
Le manque de clarté quant à savoir s'il s'agit d'une recherche sur le web ou d'autres secteurs verticaux tels que Google Home ou News.
Il est possible que certains champs ne s'appliquent qu'aux ensembles de données de formation et non à tous les sites.

a tweeté DavidGQuaid :

"Nous ne savons pas s'il s'agit d'une recherche Google ou d'une recherche de documents dans le nuage Google. Les API semblent choisir - ce n'est pas ainsi que je m'attends à ce que l'algorithme soit exécuté - que se passe-t-il si un ingénieur veut ignorer tous ces contrôles de qualité - on dirait que je veux construire une application d'entrepôt de contenu pour la base de connaissances de mon entreprise".

Conclusion

À l'heure actuelle, il n'existe aucune preuve concrète que les données ayant fait l'objet d'une "fuite" proviennent de Google Search. Le contexte et l'objectif des données restent ambigus, et certains éléments indiquent qu'il s'agit d'une API externe pour la gestion des documents plutôt que d'un composant essentiel de l'algorithme de recherche de Google. Il est essentiel d'aborder ces informations avec prudence et d'éviter de tirer des conclusions définitives sans vérification supplémentaire.

Clarification sur la fuite de données de Google : Ce qu'il faut savoir

Intro

Le contexte compte : Entrepôt de documents AI

Fuite de données de recherche interne ?

Points de vue d'ex-googlers

Garder l'esprit ouvert

Questions clés sur la fuite de données de Google

Avis d'experts sur les données ayant fait l'objet d'une fuite

Conclusion

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Clarification sur la fuite de données de Google : Ce qu'il faut savoir

Intro

Le contexte compte : Entrepôt de documents AI

Fuite de données de recherche interne ?

Points de vue d'ex-googlers

Garder l'esprit ouvert

Questions clés sur la fuite de données de Google

Avis d'experts sur les données ayant fait l'objet d'une fuite

Conclusion

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Commencez à utiliser Ranktracker... gratuitement !