Le système de vecteurs de représentation de Google
Vous avez entendu parler de vecteurs et de classification dans le contexte du Machine Learning (IA) ou du SEO ? Si ce n’est pas encore le cas, restez avec moi : on va parler d’un brevet Google fascinant, qui pourrait bien expliquer comment et pourquoi votre site monte (ou chute) dans les résultats.
En février 2020, un brevet intitulé “Website Representation Vector to Generate Search Results and Classify Website” (WO2020033805) a été publié. Derrière ce nom aride se cache une logique simple :
Google cherche à regrouper les sites selon leurs domaines d’expertise, pour ensuite répondre aux requêtes en s’appuyant uniquement sur les “bons” groupes.
En clair : tous les sites ne sont pas mis sur un pied d’égalité. Et c’est voulu.

Classifier les sites AVANT la requête
Traditionnellement, on pourrait penser que Google analyse les pages à la volée en fonction d’une requête.
Mais ce brevet propose une approche plus proactive : les sites sont déjà classés dans des “dossiers” thématiques, avec différents niveaux d’expertise.
Lorsqu’une requête est lancée (ex. : “symptômes mononucléose”), Google ne fouille pas l’ensemble du web. Il pioche directement dans son dossier “santé”, et même dans la sous-catégorie “contenus d’experts”.
Résultat : plus de pertinence… et plus de sélectivité à un coût réduit pour Google.
Comment Google classe-t-il les sites ?
Voici le processus simplifié, tel que décrit dans le brevet :

Google utilise des algorithmes d’apprentissage automatique (Machine Learning) basés sur des « vecteurs de caractéristiques » extraits du site (texte, images, liens…).
Mon analogie : le comité éditorial de Google
Imaginez que Google gère une immense bibliothèque. Plutôt que de lire chaque livre à chaque fois qu’on pose une question, il a classé les ouvrages à l’avance dans des rayons bien distincts : médecine, finance, astrologie…
Mais ce n’est pas tout. Pour chaque rayon, il a aussi trié les auteurs :
- Les experts : reconnus, fiables, cohérents
- Les apprentis : débutants, mais dans le bon cadre
- Les amateurs : passionnés, mais pas toujours rigoureux qui expriment surtout leur opinion

Quand une requête est faite, Google prend un raccourci pour éviter de passer trop de temps à chercher : il ne consulte que les ouvrages d’experts du bon rayon.
Votre site, c’est comme un livre. La question est : dans quel rayon êtes-vous classé ? Et à quel niveau ?
Vecteurs de représentation : le nerf de la sémantique
Le terme peut faire peur, mais un vecteur de représentation, c’est simplement un profil numérique d’un site. Un genre de carte d’identité mathématique générée par un réseau de neurones.
Ce profil contient des centaines de dimensions :
- Thématiques abordées
- Niveau de spécialisation
- Cohérence sémantique
- Références, liens, structure…
Chaque site est donc compressé en une forme vectorielle qui peut être comparée à des modèles-types. On mesure ensuite la “distance” entre votre site et un site expert du domaine (voir « Similarité cosinus« ).
➡️ Plus vous êtes proche du modèle expert, plus vous êtes valorisé.
Conséquences SEO concrètes
Identifier sa classe d’expertise
Voici les quatre listes de référence que je propose d’utiliser par corrélation pour se rapprocher au maximum de la segmentation thématique de Google :
| Source | Nb. catégories | Lien |
|---|---|---|
| Google Cloud Natural Language – Content Categories | 700 | https://cloud.google.com/natural-language/docs/categories?hl=fr |
| IAB Tech Lab – Content Taxonomy 3.1 | 1300 | https://iabtechlab.com/standards/content-taxonomy/ |
| Google Ads / Privacy Sandbox – Topics API | 469 | https://developers.google.com/google-ads/api/data/topics?hl=fr |
| Google Business Profile – Catégories | 4000 | https://developers.google.com/my-business/reference/businessinformation/rest/v1/categories/list?hl=fr |
Aucune de ces références n’est exactement celle du brevet, mais leur intersection couvre déjà l’immense majorité des thématiques. En combinant plusieurs sources publiques et fiables (dont 3 appartenant aux services Google), on obtient une « classification probable » interne de Google.
Pour ma part, la catégorie qui me correspond le mieux est :
/ Internet & Telecom / Web Services / Search Engine Optimization & Marketing et
/ Business and Finance / Marketing and Advertising ou / Technology & Computing / Internet / SearchEt Vous ?
Savoir dans quelle catégorie Google classe votre contenu avec l’API ClassifyText
Pour savoir dans quelle catégorie Google classe probablement une de vos pages, vous pouvez :
- Extraire le texte avec r.jina.ai (ex :
https://r.jina.ai/https://votre-site.com/page) - Traduire ce texte en anglais avec deepl ou chatgpt
- Coller ce texte dans l’API Google ClassifyText et cliquez sur Exécuter
{
"document": {
"type": "PLAIN_TEXT",
"language": "en",
"content": "votre texte extrait en anglais"
}
}
👉 Cela vous donne la catégorie perçue par Google, utile pour vérifier l’alignement avec votre stratégie SEO.
Par exemple, cet article est classé par Google dans “Computers & Electronics” ou “Computer Science”. Pour viser la catégorie “SEO & Marketing”, il faudrait parler davantage de SEO et de marketing — ce qui n’est pas mon objectif ici.

Faire le Lien avec l’E-E-A-T en SEO
Sans jamais le citer, ce brevet touche de très près à la fameuse grille E-E-A-T (Experience, Expertise, Authoritativeness, Trustworthiness) :
| Composant E-E-A-T | Pris en compte dans le brevet ? | Comment ? |
|---|---|---|
| Experience | Non explicitement | Absente du modèle vectoriel |
| Expertise | Oui | Sites classés par niveau d’expertise |
| Authoritativeness | Oui | Poids donné au site dans le domaine |
| Trustworthiness | Non mesuré directement | Pas de notion de “fiabilité” déclarée |
ET plus encore…
- Structurer votre site autour d’un ou deux domaines forts : spécialisation
- Multiplier les preuves d’expertise (auteurs qualifiés, certifications…)
- Travailler la cohérence sémantique sur toutes vos pages
- Créer des silos et clusters de contenus thématiques
- Ajouter du contenu long format, approfondi, mis à jour
Ce brevet est un signal fort de l’évolution de Google : Le moteur ne juge pas uniquement une page, mais le site dans son ensemble, son positionnement sémantique, et sa capacité à répondre dans un domaine précis.
Références et ressources :
Réf. Vecteur de représentation de site web permettant la génération de résultats de recherche et la classification d’un site web – GOOGLE LLC
Réf. Google Using Website Representation Vectors to Classify with Expertise and Authority – Bill Slawski
Réf. Importance of Topical Authority: A Semantic SEO Case Study – Koray Tuğberk GÜBÜR
A propos de l’Auteur

Laisser un commentaire