Cuidado com significância estatística.
Tamanho da amostra importa:
Testar com 10 prompts = alta variância
Testar com 100 prompts = tendências reais
Considerações de variância:
- Respostas AI variam por sessão
- Mesmo prompt pode dar resultados diferentes
- Teste múltiplas vezes para média
Abordagem recomendada:
- Mínimo de 50 prompts por categoria
- Teste cada prompt 3x para média
- Calcule desvio padrão
- Só afirme melhoria se > 2 desvios padrão
Exemplo de cálculo:
Semana 1: 35% visibilidade (variância ±8%)
Semana 8: 48% visibilidade (variância ±7%)
Melhoria: +13%
+13% é significativo?
Se variância é ±8%, sim.
Se variância é ±15%, talvez não.
Regra prática:
- <5% de mudança: Ruído, não sinal
- 5-10%: Possível sinal, continue monitorando
10%: Provável melhoria real
Não comemore melhorias de 2%. Isso é ruído.