Em grande escala, passamos a tratar o monitoramento de alucinações de IA como parte dos nossos indicadores de saúde de marca.
Nossa abordagem:
Fazemos “auditorias de marca em IA” trimestrais, testando 50+ prompts no ChatGPT, Claude, Perplexity e Google AI Overviews. Cada resposta é avaliada pela precisão em relação à nossa documentação oficial.
Números atuais do último relatório:
- Precisão do ChatGPT sobre nossa marca: 73%
- Claude: 71%
- Perplexity: 89%
- Google AI Overviews: 82%
O número do Perplexity é notavelmente melhor porque usa busca em tempo real e cita fontes. Os outros usam dados de treinamento antigos.
O que nos surpreendeu:
Algumas alucinações eram, na verdade, baseadas em informações ANTIGAS, mas corretas. Nosso preço mudou há 18 meses, e o ChatGPT ainda mostra o valor antigo. Não é bem alucinação – são dados desatualizados. Mas o efeito para o cliente é o mesmo.