Deixe-me explicar os detalhes técnicos.
Como funciona a busca vetorial:
Criação de embedding
- Texto → modelo transformer (BERT, GPT, etc.)
- Saída: vetor de 768-1536 dimensões
- Cada dimensão captura uma característica semântica
Cálculo de similaridade
- Texto da consulta → vetor de consulta
- Texto do conteúdo → vetores de conteúdo
- Similaridade cosseno mede a proximidade
Recuperação
- Encontra os k-vizinhos mais próximos
- Retorna o conteúdo mais similar
Por que isso muda a otimização:
Palavras-chave: “Tênis para corrida” só corresponde “tênis para corrida”
Vetores: “Tênis para corrida” corresponde “calçado esportivo”, “tênis para maratona”, etc.
O espaço semântico:
Conceitos similares se agrupam:
- “Software de CRM” próximo de “gestão de clientes”
- “startup” próximo de “nova empresa”, “negócio em estágio inicial”
- “acessível” próximo de “econômico”, “baixo custo”, “barato”
Implicação para otimização:
Cubra o bairro semântico, não apenas os termos exatos.