Learning to Rank (L2R) : L’Algorithme qui Optimise le re-Classement SEO

Aligner les résultats des moteurs de recherche avec l’intention utilisateur est un défi majeur en SEO. Le Learning to Rank (L2R) est une famille d’algorithmes de machine learning conçus pour optimiser le classement des pages web en exploitant des signaux comme la pertinence et le comportement utilisateur. Utilisé par Google et Bing, L2R combine des approches comme Pointwise, Pairwise et Listwise pour ré-organiser efficacement les premiers résultats (souvent les 7-8). Cet article explore comment L2R, au croisement du SEO et de l’IA, peut améliorer vos classements en répondant mieux aux attentes des utilisateurs.

Table des matières

Qu’est-ce que le Learning to Rank ?

Définition

Le Learning to Rank (L2R) est une approche algorithmique qui utilise l’apprentissage supervisé pour hiérarchiser des ensembles de données selon leur pertinence. L2R exploite des signaux multiples (comme le contenu textuel, les clics utilisateur ou le contexte de la requête) pour ajuster dynamiquement le classement des résultats.

Ces familles d’algorithmes de classement améliorent la qualité perçue des résultats. L2R est aujourd’hui devenu un standard pour les moteurs de recherche comme Google et Bing.

Amélioration de la pertinence des résultats de recherche
Des résultats de recherche améliorés

Histoire et évolution du Learning to Rank

Le Learning to Rank (L2R) est né des recherches en ‘Recherche d’information’, avec des travaux fondateurs de Wong (1988), Fuhr (1992) et Gey (1994). Ces premières approches utilisaient des modèles linéaires et probabilistes pour pondérer des résultats en fonction des attentes humaines, mais restaient limitées.

En 2000, Altavista introduit une méthode combinant plusieurs signaux pour classer les résultats, marquant un tournant. Toutefois, son algorithme, surnommé le « Hollandais volant », nécessitait encore plusieurs jours pour recalculer un classement.

Le brevet illustré ici représente l’une des premières implémentations de Learning to Rank (L2R), déposé par AltaVista, un pionnier des moteurs de recherche dans les années 1990. Ce brevet pose les bases des algorithmes modernes de classement utilisés aujourd’hui.

Le véritable bond en avant arrive en 2005 avec RankNet (Microsoft), réduisant les temps de calcul à quelques heures grâce à des réseaux de neurones. Ce progrès a mené à des algorithmes plus avancés comme LambdaRank et LambdaMART, aujourd’hui standards pour de nombreux moteurs, tandis que Google développe son propre système, le TF-Ranking.

De ses débuts théoriques à son adoption massive, le L2R continue de transformer la recherche en ligne.

Évolution des algorithmes L2R depuis 1988 jusqu'à aujourd'hui
Évolution des algorithmes L2R depuis 1988 jusqu’à aujourd’hui

Analogies pour comprendre le Learning To Rank

Cette première analogie est inspirée des explications de Guillaume et Sylvain Peyronnet dans leur formation sur l’Algorithmie des moteurs de recherche Réf. [2]

Analogie : La Classe de Lycée et le Learning to Rank

Comprendre le Learning to Rank avec une Analogie : La Classe de Lycée et le Learning to Rank

Imaginez une classe de lycée. Chaque élève suit plusieurs matières : Maths, Sport, Arts, Biologie… Mais pour évaluer leur niveau à la fin de l’année, on ne donnera pas la même importance à chaque matière. Un élève en filière scientifique aura des coefficients élevés pour les Maths et la Biologie, tandis que les Arts compteront moins. Tout est pondéré selon ce qui est attendu.

Le Learning to Rank (L2R), c’est un peu pareil, mais dans le monde des moteurs de recherche. Il ajuste la « pondération » des signaux pour répondre à une intention bien précise.

Par exemple, Si vous cherchez un produit sur un site e-commerce, le L2R d’un moteur de recherche mettra l’accent sur des signaux comme les avis clients ou les prix. Sur un site d’actualités, ce sera plutôt la fraîcheur et la pertinence des articles.

Le L2R modifie ses priorités en fonction du contexte pour afficher ce que l’utilisateur attend vraiment.

Mon Analogie : Le Chef d’Orchestre et le Learning to Rank

Comprendre le Learning to Rank avec une autre Analogie : Le Chef d’Orchestre et le Learning to Rank

Imaginez un orchestre en pleine préparation pour un concert. Le chef d’orchestre doit organiser les musiciens pour que la performance corresponde parfaitement aux attentes du public. Si le thème du soir est une symphonie classique, il donnera plus d’importance aux violons et aux bois. Mais si le concert est une pièce contemporaine, il mettra plutôt en avant les percussions et les cuivres. Chaque instrument joue un rôle, mais leur poids dans l’ensemble varie en fonction du thème attendu par le public.

Le Learning to Rank (L2R), c’est exactement ça, mais pour les moteurs de recherche. Il agit comme le chef d’orchestre, pondérant les signaux (comme les clics, le contenu ou la fraîcheur) en fonction du contexte.

Par exemple, pour une recherche sur des recettes de cuisine, il priorisera des signaux comme la clarté des instructions ou les images des plats. En revanche, pour une recherche académique, ce seront des signaux comme la fiabilité des sources et les citations qui auront le plus de poids.

Le public, c’est l’utilisateur. Le L2R ajuste la « musique » des résultats pour que l’expérience corresponde à ses attentes, garantissant une harmonie parfaite entre intention et contenu.

Quand un moteur de recherche joue sa partition, c’est le L2R qui tient la baguette ! 🎻

Votre Analogie : Et vous, comment imaginez-vous le Learning to Rank ?

Principes et Théorie de L2R

Comment fonctionne le Learning to Rank ?

L’objectif principal d’un algorithme L2R est de déterminer l’ordre optimal des résultats à afficher en fonction de l’intention de l’utilisateur. Pour y parvenir, L2R , avec une fonction mathématique plus ou moins compliquée, pondère et combine divers signaux (comme la pertinence, la popularité, ou encore la fraîcheur). Ce mécanisme permet d’évaluer chaque élément pour établir un classement cohérent avec les attentes.

Voici une vidéo YouTube (en anglais) qui explique le Learning to Rank (L2R) de manière claire et détaillée :

Learning to Rank : le problème de Machine Learning dont vous n’avez peut-être jamais entendu parlé

Quelques exemples de signaux qui peuvent être pris en compte par les moteurs de recherche :

  • Popularité et confiance : mesures comme le PageRank ou la réputation thématique.
  • Analyse sémantique : techniques comme TF-IDF, Cosinus de Salton, BM25, Word2Vec, FastText, BERT…
  • Performances techniques : TTFB (Time to First Byte), vitesse de chargement du site.
  • Structure et contenu : présence de mots-clés dans les balises title, h1, h2, etc.

Et ce n’est que la surface : on dénombre des centaines de signaux influençant les algorithmes.

Microsoft, par exemple, a publié en 2013 une liste de signaux probablement utilisés dans son moteur de recherche Réf. [4], fournissant un aperçu précieux des éléments potentiellement pris en compte pour le classement.

Construire un Mini Learning to Rank (L2R) : Exemple Simplifié

Nous allons créer ensemble un système de Learning to Rank qui permet de classer des pages de la plus pertinente à la moins pertinente.

  1. Définir les signaux et leur pondération

Tout d’abord, on définit les Signaux (critères) qui permettent d’évaluer la Pertinence d’un résultat.

C’est un peu comme si commençait par définir
les différentes fonctionnalités d’un cahier des charges.

IdSignalValeur possible
S1Fréquence du mot-clé dans la page 0 à 1
S2Nombre de backlinks0 à 1
S3Qualité des liens entrants0 à 1

Ensuite, on attribue un poids de départ (pondération) à chaque critère qui indique si une page est pertinente ou non, ce qui permet de déterminer un premier classement.

IdSignalValeurPoids
S1Fréquence du mot-clé dans la page 0 à 1 60%
S2Nombre de backlinks0 à 1 20%
S3Qualité des liens entrants0 à 1 20%

2. Collecter et normaliser les signaux

Chaque signal est normalisé entre 0 et 1 en divisant chaque valeur brute par le maximum observé pour ce signal.

3. Calcul du score global

On calcule le score global de pertinence d’une page avec la formule mathématique suivante :

Score Global = 0.6xS1 + 0.2xS2 + 0.2xS3

4. Classement des pages

Les pages sont triées par leur score global décroissant.

Exemple pratique :

Imaginons que nous ayons trois pages avec le « cahier des charges » suivant :

PageFréquence mot-clé (S1 brut)Backlinks (S2 brut)Qualité des backlinks (S3 brut)
A15100.8
B10200.6
C5150.9

Comme définit précédemment, la deuxième étape qui suit la définition des signaux de pondérations consiste à normaliser les signaux :

PageFréquence mot-clé
(S1 brut)
S1 Normalisé
A1515/15 ​= 1.0
B1010/15 = 0.67
C55/15 = 0.33
Normalisation du Signal S1
PageBacklinks (S2 brut)S2 Normalisé
A1010/20 ​= 0.5
B2020/20 = 1.0
C1515/20 = 0.75
Normalisation du Signal S2
PageQualité des backlinks (S3 brut)S3 Normalisé
A0.80.8
B0.60.6
C0.90.9
Pas besoin de normalisation pour S3 car ses valeurs sont déjà comprises entre 0 et 1.

En résumé, on se retrouve avec les signaux normalisés suivants :

PageFréquence mot-clé (S1 normalisé)Backlinks (S2 normalisé)Qualité des backlinks (S3 normalisé)
A10.50.8
B0.6710.6
C0.330.750.9
SI, S2 et S3 normalisés

La troisième étape consiste alors à calculer le score global pour chaque page via la formule d’évaluation du score Global :

PageScore Global = 0.6xS1 + 0.2xS2 + 0.2xS3
A0.6×1.0+0.2×0.5+0.2×0.8=0.6+0.1+0.16 = 0.86
B0.6×0.67+0.2×1.0+0.2×0.6=0.402+0.2+0.12 = 0.722
C0.6×0.33+0.2×0.75+0.2×0.9=0.198+0.15+0.18 = 0.528
Calcul du Score Global pour chaque page

Enfin, on établit le classement final :

  1. Page A (Score : 0.86)
  2. Page B (Score : 0.722)
  3. Page C (Score : 0.528)

Bravo, vous venez de construire votre premier système de Learning to Rank !

Ce mini L2R composé de seulement trois signaux nous montre comment un système peut classer des pages en combinant pertinence, popularité et qualité des liens.

Mais le travail ne s’arrête pas là : l’objectif est de refléter les attentes réelles des utilisateurs.

Initialement basé sur des hypothèses d’un résultat attendu, le L2R évolue en analysant les comportements utilisateurs (clics, temps passé, taux de rebond) pour vérifier si le classement répond à leurs besoins.

Ce retour permet d’ajuster le modèle, pour rendre les résultats toujours plus alignés avec la réalité perçue.

L’algorithme L2R apprend donc à classer les résultats en continu grâce à l’apprentissage machine et les retours utilisateurs !

Nous allons voir ensuite comment ces données enrichissent des systèmes encore plus avancés.

Les Approches Mathématiques en Learning to Rank : Pointwise, Pairwise, Listwise

Dans notre exemple de mini L2R, nous avons, sans le savoir, utilisé une approche Pointwise. Cette méthode consiste à attribuer un score unique à chaque couple requête/page, pour prédire si une page est pertinente ou non.

Cependant, ce n’est qu’une des approches possibles en Learning to Rank, et d’autres méthodes plus avancées sont apparues avec le temps, comme l’approche Pairwise et l’approche Listwise.

Approches mathématiques de Learning to Rank : Pointwise, Pairwise et Listwise
Approches mathématiques de Learning to Rank : Pointwise, Pairwise et Listwise

L’Approche Pointwise : Ce que nous venons de faire

Avec l’approche Pointwise, chaque page est évaluée individuellement. Dans notre exemple, nous avons attribué un score de pertinence à chaque page en fonction de trois signaux : fréquence du mot-clé, nombre de backlinks, et qualité des backlinks. Ces scores permettent ensuite de classer les pages.

Cette méthode, bien qu’intuitive, présente des limites : elle ne tient pas compte des relations entre les pages ou de leur ordre dans les résultats (SERP). Après 2010, cette approche a été progressivement abandonnée dans les moteurs de recherche, car elle ne permet pas de traiter efficacement les préférences des utilisateurs.

L’Approche Pairwise : Comparer 2 pages

L’approche Pairwise va plus loin en se concentrant sur les relations entre deux pages. Elle cherche à établir des préférences entre les résultats.

Par exemple, elle répond à des questions comme :

« La page A est-elle meilleure que la page B pour une requête donnée ? ».

Fonctionnement de l’approche Pairwise :

  • On observe les préférences des utilisateurs (clics, temps passé, etc.) pour comparer deux pages.
  • Si les utilisateurs préfèrent systématiquement la page B à la page A, l’algorithme apprend à inverser leur position dans la SERP.
  • Chaque inversion dans l’ordre a un coût d’inversion. Ce coût est plus élevé si les pages sont éloignées dans la SERP (par exemple, inverser la page 1 et la page 10 coûte plus cher qu’inverser la page 1 et la page 2).

Exemple pratique :

Imaginons une SERP avec 4 résultats : Page 1, Page 2, Page 3, Page 4.

Les utilisateurs indiquent qu’ils préfèrent la Page 3 à la Page 1 et la Page 4 à la Page 3 (via l’analyse de leurs comportements).

L’algorithme apprend ces préférences et réorganise la SERP : Nouvel ordre : Page 3, Page 4, Page 1, Page 2.

Réorganisation de la SERP selon les retours utilisateurs avec l'approche Pairwise
Réorganisation de la SERP selon les retours utilisateurs avec l’approche Pairwise

Cette méthode est utilisée dans de nombreux moteurs de recherche modernes, car elle permet d’ajuster l’ordre des résultats pour mieux refléter les attentes des utilisateurs.

L’Approche Listwise : Voir l’ensemble des résultats

L’approche Listwise pousse l’analyse encore plus loin en regardant l’intégralité des résultats pour une requête donnée, au lieu de se limiter à des paires ou des pages isolées.

Cette méthode évalue une liste entière de résultats et cherche à optimiser leur ordre global.

Fonctionnement de l’approche Listwise :

  • On analyse les classements de plusieurs requêtes simultanément pour minimiser les erreurs sur l’ensemble de la liste.
  • Cette méthode est plus complexe à mettre en place, mais elle permet d’obtenir un impact plus fort, car elle tient compte de toutes les interactions possibles entre les résultats.

Dans la réalité, les moteurs de recherche modernes utilisent principalement l’approche Pairwise, renforcée par des gradients (LambdaRank, LambdaMART).

Ces algorithmes cherchent non seulement à minimiser les inversions, mais aussi à ajuster dynamiquement l’ordre des résultats en fonction des signaux humains, comme les clics ou les préférences perçues.

Dans la prochaine étape, nous verrons comment ces approches s’intègrent dans des systèmes encore plus sophistiqués pour prédire avec précision ce que les utilisateurs veulent vraiment.

Le Comportement Utilisateur au Cœur de L2R

Pour améliorer les classements, il est essentiel de comprendre la qualité perçue par les utilisateurs. Mais demander directement leur avis serait inefficace et problématique. Cela ralentirait leur expérience, créerait des biais, et pourrait être manipulé par des acteurs malveillants.

Alors, comment faire ? En analysant leurs comportements.

Le L2R utilise des signaux comportementaux, collectés passivement, pour comprendre ce qui fonctionne ou non dans les résultats. Deux métriques principales permettent de mesurer cette qualité perçue : le taux de clics et les clics « skip ».

Le Taux de Clics : Dévier de la moyenne pour détecter des anomalies

Le taux de clics (CTR, Click-Through Rate) mesure la fréquence à laquelle un utilisateur clique sur un résultat spécifique. Chaque position dans une SERP a un CTR moyen attendu (par exemple, 15 % pour le 1er résultat, 10 % pour le 2e, etc.).

En comparant le CTR réel d’un résultat à sa moyenne attendue, on peut détecter des anomalies :

  • Déficit de clics : Si le CTR d’un résultat est inférieur à la moyenne, cela peut indiquer une qualité perçue inférieure.

    Exemple : Le 1er résultat a un CTR de 13 %, en dessous des 15 % attendus. Ce résultat pourrait être jugé moins pertinent par les utilisateurs.

  • Surplus de clics : Si le CTR dépasse la moyenne, le résultat est probablement plus attrayant ou pertinent.

    Exemple : Le 2e résultat a un CTR de 14 %, bien au-dessus des 10 % attendus. Cela montre une qualité perçue élevée.

Cependant, mesurer le CTR ne suffit pas si l’on se limite à une seule SERP. Le L2R doit analyser des groupes de requêtes similaires (par exemple, toutes liées au thème « assurance » : « assurance habitation », « prix d’une assurance ») pour ajuster les pondérations et améliorer non pas une seule requête, mais un ensemble de thématiques.

Le Clic « Skip » : Comprendre les comportements inattendus

Le « clic skip » se concentre sur les résultats ignorés par les utilisateurs. Cela permet d’identifier les pages moins attrayantes.

Voici comment cela fonctionne :

1. Analyse des retours utilisateurs :

  • Si un utilisateur clique sur un résultat, revient à la SERP, puis clique sur un autre résultat, cela peut indiquer une insatisfaction avec le premier clic.
  • Si un utilisateur ignore un résultat et clique directement sur un autre (ex. saute le 2e pour cliquer sur le 3e), cela indique que le résultat ignoré n’est pas jugé pertinent.
Exemple d'un scénario de clic skip
Exemple d’un scénario de clic skip

2. Envoi au L2R :

Ces données comportementales sont envoyées au L2R, qui réapprend à pondérer les signaux pour ajuster le classement. Le résultat final est une SERP améliorée non seulement pour cette requête, mais aussi pour des requêtes similaires.

SEO et implications pratiques : Une Perspective pour Améliorer l’Expérience Utilisateur avec L2R

Le Learning to Rank (L2R) a des implications directes pour le SEO. En comprenant son fonctionnement, vous pouvez non seulement améliorer vos classements, mais aussi offrir une meilleure expérience utilisateur. Deux axes principaux concrets se dégagent : attirer des clics depuis la SERP et retenir les visiteurs sur votre site.

Attirer les clics : Optimiser votre visibilité dans la SERP

Un bon classement ne suffit pas : si personne ne clique sur votre site, le L2R finira par dégrader votre position, estimant que votre contenu est peu attractif ou pertinent. Voici des actions concrètes pour rendre votre site plus visible et séduisant dans les résultats de recherche.

Créer un snippet attrayant

  • Un titre clair et impactant qui répond immédiatement au besoin de l’utilisateur. Exemples : « Assurance Habitation : Comparez les Meilleurs Tarifs en 2024 » ou « Guide Pratique pour Rénover Votre Cuisine ».
  • Une meta description informative, qui incite à cliquer en mettant en avant un avantage unique.
  • Ajouter des émoticônes ou des caractères spéciaux pour se démarquer dans certains cas (sans abuser).

Utiliser les données structurées (Schema.org)

  • Ajouter des éléments comme les extraits d’avis, les prix ou un fil d’Ariane peut occuper plus d’espace dans la SERP et capter davantage l’attention.

Occuper plus de place visuellement

  • Ajouter des éléments comme des questions fréquentes (FAQ), des carrousels d’images ou des sitelinks. Ces éléments renforcent votre présence et augmentent les chances de clic.

⚠️ Manipulation du CTR : Certains utilisent des techniques pour artificiellement gonfler leur taux de clics dans la SERP (par exemple, via des bots ou des groupes d’échanges). Je ne recommande pas cette approche « black hat », mais elle fera l’objet de tests sur un site dédié pour mieux comprendre et juger ses effets.

Optimiser l’expérience utilisateur pour maximiser la rétention

Une fois l’utilisateur sur votre site, l’objectif est de le garder. Pourquoi ? Parce que si un utilisateur retourne rapidement à la SERP (pogo-sticking), cela envoie un signal négatif au L2R, qui pourrait considérer votre contenu comme peu pertinent.

Voici des actions concrètes pour optimiser la rétention :

Créer un contenu captivant et utile :

  • Assurez-vous que votre contenu répond directement à l’intention de recherche.
  • Structurez vos articles avec des titres clairs, des listes, et des sections courtes pour faciliter la lecture.

Ajouter des éléments visuels pertinents :

  • Utilisez des images explicatives ou des infographies qui simplifient les informations complexes.

Proposer des fonctionnalités interactives :

Pour les sites e-commerce ou informatifs, offrir des outils engageants peut retenir les visiteurs plus longtemps :

  • Configurateurs de produits : Permettez aux utilisateurs de personnaliser un produit avant achat. Exemple : Configurer une voiture ou une cuisine.
  • Générateurs de devis : Offrez une estimation rapide et facile via un formulaire interactif.
  • Calculatrices ou outils pratiques : Proposez des fonctionnalités adaptées à votre secteur (ex. : simulateur de prêt immobilier).

Inciter à continuer la navigation :

  • Ajouter des articles recommandés ou des liens internes à la fin de vos pages pour guider l’utilisateur vers d’autres contenus pertinents. Exemple : Après un article sur « Comment choisir son assurance habitation », proposez « Les erreurs à éviter dans un contrat d’assurance ».

Soigner la vitesse de chargement :

  • Un site rapide améliore non seulement l’expérience utilisateur, mais réduit aussi le risque qu’un visiteur quitte la page prématurément.

Mesurer l’engagement pour ajuster en continu

Le comportement utilisateur est au cœur du L2R. Il est donc essentiel de surveiller des métriques clés pour comprendre comment les visiteurs interagissent avec votre site :

  • Temps passé sur la page : Un utilisateur qui reste longtemps est souvent satisfait, mais cela dépend aussi du contexte.
  • Taux de rebond : Si un utilisateur quitte rapidement votre site, c’est souvent un signe que le contenu ne correspond pas à ses attentes.
  • Navigation interne : Analysez les chemins empruntés par les utilisateurs pour identifier les points où ils décrochent.

Ces données comportementales permettent d’ajuster votre stratégie en continu pour améliorer à la fois l’expérience utilisateur et les classements.

Le SEO moderne dépasse le simple fait de se positionner dans la SERP. Il s’agit de séduire les utilisateurs en créant des snippets irrésistibles et d’offrir une expérience engageante une fois sur le site. Grâce au L2R, les moteurs de recherche privilégient les pages qui attirent et retiennent les visiteurs.

Conclusion : Le L2R, Une Technologie au Service des Expériences Personnalisées

Ce que l’on retient, c’est que le L2R ne se limite pas à trier des résultats : il crée des expériences personnalisées et engageantes dans des contextes très variés. À mesure que les données se multiplient et que les attentes des utilisateurs deviennent plus complexes, le L2R continuera d’évoluer, offrant des solutions toujours plus intelligentes et pertinentes, où que ce soit.

Utilisé non seulement dans les moteurs de recherche, il trouve aussi sa place dans les systèmes de recommandation comme Netflix ou Amazon, ou encore dans les réseaux sociaux, qui s’appuient sur le L2R pour proposer des suggestions d’amis ou classer les publications dans les fils d’actualité. Le L2R est bien plus qu’un algorithme : il est au cœur de l’intelligence numérique moderne.

Références et ressources :

Réf. [1] Learning to Rank using Gradient Descent par Chris J.C. Burges, Tal Shaked, Erin Renshaw, Ari Lazier, Matt Deeds, Nicole Hamilton, Greg Hullender – MSR-TR-2005-06 | August 2005

Réf. [2] Algorithmie des moteurs de recherche Formation FormaSEO Niveau 2
et Le learning-to-rank : l’algorithme qui pondère les critères de pertinence d’un moteur par Guillaume et Sylvain Peyronnet.

Réf. [3] Méthode et apprentissage automatique d’une fonction pour établir la pertinence de document (EN) par David Cossock

Réf. [4] Introducing LETOR 4.0 Datasets Par Tao Qin et Tie-Yan Liu


Commentaires

Une réponse à “Learning to Rank (L2R) : L’Algorithme qui Optimise le re-Classement SEO”

  1. Avatar de Patrick

    Super ! Continuez à poster ce types de contenu.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *