Je vais expliquer les détails techniques.
Comment fonctionne la recherche vectorielle :
Création d’embedding
- Texte → modèle transformeur (BERT, GPT, etc.)
- Sortie : vecteur de 768 à 1536 dimensions
- Chaque dimension capture une caractéristique sémantique
Calcul de similarité
- Texte de requête → vecteur de requête
- Texte du contenu → vecteurs de contenu
- La similarité cosinus mesure la proximité
Récupération
- Trouver les k plus proches voisins
- Retourner le contenu le plus similaire
Pourquoi cela change l’optimisation :
Mots-clés : « Chaussures de course » ne correspond qu’à « chaussures de course »
Vecteurs : « Chaussures de course » correspond à « chaussures de sport », « baskets marathon », etc.
L’espace sémantique :
Des concepts similaires se regroupent :
- « Logiciel CRM » proche de « gestion client »
- « startup » près de « nouvelle entreprise », « entreprise en phase de démarrage »
- « abordable » près de « économique », « à petit budget », « bas coût »
Conséquence pour l’optimisation :
Couvrir le « voisinage sémantique », pas seulement les termes exacts.