Les secrets du moteur de recherche de Google ne sont plus vraiment secrets

Fuite massive

 
Le 5 mai 2024, un séisme secoue le monde de la tech : des documents internes de Google ont été publiés. Ces révélations mettent en lumière des aspects cachés de l’algorithme de recherche de Google, souvent en contradiction avec ses déclarations publiques.

Pour comprendre pourquoi l’algorithme de Google est si important, il faut savoir que c’est lui qui décide quelles pages apparaissent en premier quand vous faites une recherche. C’est le secret de la réussite de Google : un algorithme ultra perfectionné qui garantit des résultats pertinents et fiables. En tout cas, en théorie, car c’est très critiqué actuellement.

L’algorithme n’a pas été publié, mais on trouve beaucoup de données sur son fonctionnement // Source : Spartoro

Mais voilà, le 5 mai 2024, une fuite massive de documents internes révèle les rouages de ce mécanisme si bien gardé. C’est Rand Fishkin (SparkToro) qui a reçu cet e-mail explosif d’une source anonyme. Depuis, Google en a confirmé l’authenticité.

Il semble que Google ait accidentellement rendu ces documents publics sur GitHub vers le 27 mars et qu’ils aient été supprimés le 7 mai. Cependant, quelqu’un les a indexés, ils sont donc toujours accessibles.

La fuite de ces documents secoue l’industrie du SEO (qui avait déjà beaucoup de sujets à gérer).

Pour aller plus loin
Le très mauvais week-end de Google

Google est habituellement très secret sur le fonctionnement de son algorithme de recherche. Cela donne donc une nouvelle clarté sur les signaux que Google prend en compte pour classer les sites web. Cela pourrait transformer les stratégies des professionnels du SEO, des marketeurs et des éditeurs (oui, nous aussi), qui tentent de comprendre et de devancer l’algorithme de Google.

Ce qui est intéressant ici, c’est que certaines informations dévoilées contredisent les déclarations publiques de Google concernant les algorithmes de recherche et les facteurs de classement.

Par exemple, Google a toujours nié traiter les sous-domaines différemment dans les classements et a affirmé qu’il n’utilisait pas de signaux centrés sur les clics pour l’indexation du contenu, mais les fuites suggèrent tout le contraire.

Ce que les documents révèlent

Les documents montrent que les clics et les comportements post-clics jouent un rôle important dans le classement des résultats de recherche. Un système appelé NavBoost utilise les données de clics pour réorganiser les résultats. Par exemple, si vous cliquez sur un lien et restez longtemps sur la page (un clic long), cela indique que le résultat est pertinent. À l’inverse, si vous revenez vite aux résultats (un clic court), cela montre une insatisfaction.

Utilisation des données de Chrome

On apprend aussi que Google utilise les données de clics provenant de son navigateur Chrome. Contrairement à ce qu’ils affirment publiquement, Google suit ce que vous faites sur Chrome pour évaluer la pertinence des pages. Si une page reçoit beaucoup de clics, elle est considérée comme plus fiable et mieux classée.

Les listes blanches et les filtres de qualité

Autre révélation : Google utilise des listes blanches pour certaines requêtes sensibles. Pendant la pandémie de COVID-19, par exemple, ils ont favorisé certains sites pour s’assurer que les informations fiables apparaissent en premier. Cela permet d’éviter les fausses infos et de garantir des résultats de qualité.

Le fameux NavBoost

NavBoost, mentionné pour la première fois lors d’un procès antitrust, collecte des données de la barre d’outils PageRank et de Chrome. Ce système analyse des données comme le nombre de recherches pour un mot-clé, les clics sur les résultats, et la distinction entre clics longs et courts. Il évalue aussi les requêtes selon l’intention de l’utilisateur, ce qui peut influencer les fonctionnalités affichées dans les résultats, comme les vidéos ou les images.

L’importance de l’expertise et de l’autorité

Google identifie aussi les auteurs de contenu et les traite comme des entités. Cela signifie que renforcer son influence en tant qu’auteur peut améliorer le classement de ses contenus. Bien que Google affirme ne pas utiliser l’autorité de domaine comme facteur de classement, les documents montrent qu’une fonctionnalité appelée SiteAuthority est bien utilisée.

Actuellement, des milliers de pages de documents publiées sont minutieusement étudiées par de nombreux experts en SEO, développeurs et chercheurs. Chaque jour, de nouvelles découvertes émergent, ce qui offre des informations précieuses sur le fonctionnement interne de Google. Ce processus d’analyse est loin d’être terminé, et on s’attend à ce que de nombreux autres secrets soient révélés au fur et à mesure que ces documents continuent d’être examinés en profondeur.

Tout cela se déroule dans un contexte où Google vient de mettre en ligne AI Overview, l’un des plus grands changements de son histoire. Précisons enfin que, si les informations révélées sont authentiques, elles témoignent d’une réalité à un moment donné. Les algorithmes de Google évoluent continuellement.

Pour aller plus loin
Pourquoi Google risque d’avoir un gros problème avec Gemini


Envie de rejoindre une communauté de passionnés ? Notre Discord vous accueille, c’est un lieu d’entraide et de passion autour de la tech.

Les derniers articles