Classer les sites web par Catégories de contenu et niveau d’expertise

Le système de vecteurs de représentation de Google

Vous avez entendu parler de vecteurs et de classification dans le contexte du Machine Learning (IA) ou du SEO ? Si ce n’est pas encore le cas, restez avec moi : on va parler d’un brevet Google fascinant, qui pourrait bien expliquer comment et pourquoi votre site monte (ou chute) dans les résultats.

En février 2020, un brevet intitulé Website Representation Vector to Generate Search Results and Classify Website (WO2020033805) a été publié. Derrière ce nom aride se cache une logique simple :

Google cherche à regrouper les sites selon leurs domaines d’expertise, pour ensuite répondre aux requêtes en s’appuyant uniquement sur les “bons” groupes.

En clair : tous les sites ne sont pas mis sur un pied d’égalité. Et c’est voulu.

Classifier les sites AVANT la requête

Traditionnellement, on pourrait penser que Google analyse les pages à la volée en fonction d’une requête.

Mais ce brevet propose une approche plus proactive : les sites sont déjà classés dans des “dossiers” thématiques, avec différents niveaux d’expertise.

Lorsqu’une requête est lancée (ex. : “symptômes mononucléose”), Google ne fouille pas l’ensemble du web. Il pioche directement dans son dossier “santé”, et même dans la sous-catégorie “contenus d’experts”.

Résultat : plus de pertinence… et plus de sélectivité à un coût réduit pour Google.

Comment Google classe-t-il les sites ?

Voici le processus simplifié, tel que décrit dans le brevet :

Google utilise des algorithmes d’apprentissage automatique (Machine Learning) basés sur des « vecteurs de caractéristiques » extraits du site (texte, images, liens…).

Mon analogie : le comité éditorial de Google

Imaginez que Google gère une immense bibliothèque. Plutôt que de lire chaque livre à chaque fois qu’on pose une question, il a classé les ouvrages à l’avance dans des rayons bien distincts : médecine, finance, astrologie…

Mais ce n’est pas tout. Pour chaque rayon, il a aussi trié les auteurs :

  • Les experts : reconnus, fiables, cohérents
  • Les apprentis : débutants, mais dans le bon cadre
  • Les amateurs : passionnés, mais pas toujours rigoureux qui expriment surtout leur opinion

Quand une requête est faite, Google prend un raccourci pour éviter de passer trop de temps à chercher : il ne consulte que les ouvrages d’experts du bon rayon.

Votre site, c’est comme un livre. La question est : dans quel rayon êtes-vous classé ? Et à quel niveau ?

Vecteurs de représentation : le nerf de la sémantique

Le terme peut faire peur, mais un vecteur de représentation, c’est simplement un profil numérique d’un site. Un genre de carte d’identité mathématique générée par un réseau de neurones.

Ce profil contient des centaines de dimensions :

  • Thématiques abordées
  • Niveau de spécialisation
  • Cohérence sémantique
  • Références, liens, structure…

Chaque site est donc compressé en une forme vectorielle qui peut être comparée à des modèles-types. On mesure ensuite la “distance” entre votre site et un site expert du domaine (voir « Similarité cosinus« ).

➡️ Plus vous êtes proche du modèle expert, plus vous êtes valorisé.

Conséquences SEO concrètes

Identifier sa classe d’expertise

Voici les quatre listes de référence que je propose d’utiliser par corrélation pour se rapprocher au maximum de la segmentation thématique de Google :

SourceNb. catégoriesLien
Google Cloud Natural Language – Content Categories700https://cloud.google.com/natural-language/docs/categories?hl=fr
IAB Tech Lab – Content Taxonomy 3.11300https://iabtechlab.com/standards/content-taxonomy/
Google Ads / Privacy Sandbox – Topics API469https://developers.google.com/google-ads/api/data/topics?hl=fr
Google Business Profile – Catégories4000https://developers.google.com/my-business/reference/businessinformation/rest/v1/categories/list?hl=fr

Aucune de ces références n’est exactement celle du brevet, mais leur intersection couvre déjà l’immense majorité des thématiques. En combinant plusieurs sources publiques et fiables (dont 3 appartenant aux services Google), on obtient une « classification probable » interne de Google.

Et Vous ?

Savoir dans quelle catégorie Google classe votre contenu avec l’API ClassifyText

Pour savoir dans quelle catégorie Google classe probablement une de vos pages, vous pouvez :

  • Extraire le texte avec r.jina.ai (ex : https://r.jina.ai/https://votre-site.com/page)
  • Traduire ce texte en anglais avec deepl ou chatgpt
  • Coller ce texte dans l’API Google ClassifyText et cliquez sur Exécuter
{
  "document": {
    "type": "PLAIN_TEXT",
    "language": "en",
    "content": "votre texte extrait en anglais"
    
  }
  
}

👉 Cela vous donne la catégorie perçue par Google, utile pour vérifier l’alignement avec votre stratégie SEO.

Par exemple, cet article est classé par Google dans “Computers & Electronics” ou “Computer Science”. Pour viser la catégorie “SEO & Marketing”, il faudrait parler davantage de SEO et de marketing — ce qui n’est pas mon objectif ici.

Faire le Lien avec l’E-E-A-T en SEO

Sans jamais le citer, ce brevet touche de très près à la fameuse grille E-E-A-T (Experience, Expertise, Authoritativeness, Trustworthiness) :

Composant E-E-A-TPris en compte dans le brevet ?Comment ?
ExperienceNon explicitementAbsente du modèle vectoriel
ExpertiseOuiSites classés par niveau d’expertise
AuthoritativenessOuiPoids donné au site dans le domaine
TrustworthinessNon mesuré directementPas de notion de “fiabilité” déclarée

ET plus encore…

  • Structurer votre site autour d’un ou deux domaines forts : spécialisation
  • Multiplier les preuves d’expertise (auteurs qualifiés, certifications…)
  • Travailler la cohérence sémantique sur toutes vos pages
  • Créer des silos et clusters de contenus thématiques
  • Ajouter du contenu long format, approfondi, mis à jour

Ce brevet est un signal fort de l’évolution de Google : Le moteur ne juge pas uniquement une page, mais le site dans son ensemble, son positionnement sémantique, et sa capacité à répondre dans un domaine précis.

Références et ressources :

Réf. Vecteur de représentation de site web permettant la génération de résultats de recherche et la classification d’un site web – GOOGLE LLC 

Réf. Google Using Website Representation Vectors to Classify with Expertise and Authority – Bill Slawski

Réf. Importance of Topical Authority: A Semantic SEO Case Study – Koray Tuğberk GÜBÜR


Commentaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *