Vysvetlím technické detaily.
Ako funguje vektorové vyhľadávanie:
Tvorba embeddingov
- Text → transformer model (BERT, GPT, atď.)
- Výstup: vektor s 768-1536 rozmermi
- Každý rozmer zachytáva sémantickú črtu
Výpočet podobnosti
- Text dopytu → vektor dopytu
- Text obsahu → vektory obsahu
- Kosínusová podobnosť meria blízkosť
Vyhľadanie
- Nájde k-najbližších susedov
- Vráti najpodobnejší obsah
Prečo to mení optimalizáciu:
Kľúčové slová: “Bežecké topánky” nájde len “bežecké topánky”
Vektory: “Bežecké topánky” nájde aj “športová obuv”, “maratónske tenisky” atď.
Sémantický priestor:
Podobné koncepty sa zhlukujú:
- “CRM softvér” pri “správa zákazníkov”
- “startup” pri “nová firma”, “začiatočný podnik”
- “cenovo dostupný” pri “rozpočtový”, “nízkonákladový”, “ekonomický”
Dôsledok pre optimalizáciu:
Pokryte sémantické okolie, nielen presné výrazy.