Tout savoir sur RankBrain

Octobre 2015

Hier, 26 octobre 2015, Google a mis un nom sur un nouvel algorithme de son moteur de recherche : RankBrain.

Sur cette page, je vais tenter de regrouper toutes les informations connues sur RankBrain. Elle sera donc sans doute mise à jour régulièrement.

TLDR : si vous voulez savoir ce que cela change pour le référencement / SEO, allez directement à la dernière partie de ce texte.

RankBrain : une simple AI ?

Google a présenté RankBrain comme une intelligence artificielle. Ce système serait déjà le 3ème critère le plus significatif pour le moteur de recherche et il serait utilisé sur 15% des requêtes effectuées sur le moteur de recherche. (source)

Il s'agit d'un système de "machine learning" (apprentissage automatique). Ce terme signifie simplement que le système apprend et s'enrichit au fur et à mesure du temps et quand il rencontre de cas de figure inconnus.

A quoi sert RankBrain ?

RankBrain est un outil interne à Google qui va analyser la requête formulée par l'internaute. Il ne s'agit donc pas réellement d'un système de classement de pages web comme le Page Rank.

En pratique, lorsqu'une personne fait une recherche sur Google, RankBrain va essayer de comprendre ce que la personne souhaite réellement obtenir.

Par exemple, si je cherchais "François Hollande" il y a quelques années, Google m'aurait retourné les pages qui contiennent ce nom dans leur titre, dans leur contenu et dans les ancres de liens qui pointent vers ces pages (c'est une caricature mais vous voyez le principe).

Maintenant, ce que RankBrain va essayer de faire c'est de rapprocher ce nom "François Hollande" d'un groupe connu d'autres noms ou expressions.

Dans ce cas, "François Hollande" va être rapproché de "Président de la république", peut-être de "gouvernement français", de "politique", etc.

RankBrain va alors essayer de traduire "François Hollande" en une expression plus précise comme "François Hollande président de la République" pour vous fournir un résultat plus pertinent.

Ce système est déjà connu et déployé en partie depuis l'été 2013 via un autre système interne à Google appelé Hummingbird.

Un apprentissage automatique ?

Hummingbird travaille aussi sur le contexte, les synonymes et les cooccurrences. L'apport de RankBrain est donc son système d'apprentissage.

Alors que les paramètres de Hummingbird sont fixes, RankBrain peut apprendre et changer en fonction de ce que font les internautes et de l'actualité en cours.

En d'autres termes, si on reprend l'exemple précédent de "François Hollande" et, qu'en 2017, le président français change.

Imaginons que le nouveau président devienne Gérard Depardieu (et on entre dans la science fiction là). Auparavant, ce nom était associé à des groupes comme "acteurs français" ou "vignerons" dans le système de RankBrain chez Google.

Petit à petit, et en raison des nouvelles fonctions de Gerard Depardieu, RankBrain va comprendre et apprendre qu'il n'est plus seulement un acteur mais aussi le Président de la République Française.

C'est pour cela qu'on parle d'apprentissage automatique : aucune intervention d'un ingénieur de Google n'est nécessaire pour changer le comportement de RankBrain.

Comment cela fonctionne ?

Pour comprendre comment fonctionne RankBrain, il faut se plonger dans le "machine learning". De nombreuses ressources sont disponibles un peu partout sur Internet, mais j'ai pu trouver quelques éléments qui semblent adaptés à RankBrain.

Le système est donc basé sur l'analyse de la requête de l'internaute. Il traduit celle-ci en "vecteurs" qui vont capturer le sens de la requête.

RankBrain est sans doute conçu sur la base des travaux de Geoffrey E. Hinton, un professeur de Toronto qui travaille maintenant à temps partiel pour Google.

Dans une vidéo publiée sur Youtube, il parle de ce système (vers 30 / 32 minutes) :

Voici ce qui est dit en français (c'est ma traduction) :

"Si nous pouvons convertir une phrase en vecteurs qui capturent le sens de la phrase, alors Google peut réaliser de bien meilleures recherches. Ils peuvent chercher sur la base de ce qui est dit dans un document. Aussi, si vous pouvez convertir chaque phrase d'un document en un vecteur, vous pouvez alors prendre cette phrase de vecteurs et essayer de comprendre pourquoi on obtient ce vecteur en fonction d'autres vecteurs (NDT : d'un même document). C'est un raisonnement naturel et c'est ce qui est au cœur de l'intelligence artificielle traditionnelle. Ils ne pourraient jamais faire cela car le raisonnement naturel est un métier compliqué et la logique n'est pas un bon modèle pour cela. Mais, si on arrive à lire tous les documents anglais du web et si on transforme chaque phrase en un vecteur nous avons beaucoup de données pour apprendre à un système à raisonner comme une personne."

On comprend donc assez facilement le fonctionnement du système mis au point par Google : comme il a déjà indexé des millions de pages web, il a transformé celles-ci en vecteurs (autrement dit en données informatiques compréhensibles par un ordinateur ou un algorithme).

Ensuite, un système d'apprentissage a utilisé toutes ces données pour comprendre le lien entre toutes ces phrases dans un même document.

Qu'est-ce que cette histoire de vecteurs ?

Dans l'explication précédente on parle de vecteurs et de la relation entre chaque phrase.

Mais ces termes sont des termes informatiques qu'il faut bien maîtriser si on veut chercher à intégrer toutes les subtilités de la démarche de Google.

Voici quelques éléments de réponses avec ces deux algorithmes :

A l'heure ou j'écris ces lignes, je n'ai pas encore pris le temps de bien me pencher sur ces deux éléments du Machine Learning.

A priori, Word2vec semble être le plus plausible compte tenu des explications fournies par Google et Hinton.

Qu'est-ce que ça change pour le référencement de mon site ?

Maintenant qu'on comprend ce qu'il en est, on va voir que cela ne change pas grand chose au référencement des sites.

Hummingbird comme RankBrain sont des outils qui vont analyser le contenu de vos pages pour élaborer des relations entre les éléments de contenus (à la fois sur vos pages, sur tout le site, mais aussi par rapport aux pages d'un même corpus).

Dans les parties précédentes, on a compris que Google classe de manière automatisée les textes de vos sites par rapport à un ensemble de vecteurs déjà connus. Le contenu de votre site est important, de plus en plus important.

RankBrain n'est que la confirmation (au niveau requête) de la manière dont Google parvient à classer et à comprendre les pages de vos sites Internet sans intervention humaine.

Mais, il n'y a pas vraiment de surprise à ce niveau. Et, si vous êtes familier avec le référencement, vous avez déjà intuitivement la réponse : le cocon sémantique et le glissement sémantique de Laurent Bourrelly sont parfaitement indiqués pour fournir à Google des sites Internet qu'il sera à même de bien comprendre (et donc de bien classer et de bien transformer en "vecteurs").

Si vous voulez un site bien indexé et bien compris par Google, vous devez soigner vos pages mais aussi les liens entre celles-ci à l'intérieur même du site.

Si vous utilisez déjà les bonnes pratiques en la matière, vous n'avez pas de soucis à vous faire donc.

Pour d'autres articles sur le référencement et le SEO, cliquez ICI.