Fai attenzione alla significatività statistica.
La dimensione del campione conta:
Testare con 10 prompt = alta varianza
Testare con 100 prompt = trend affidabili
Considerazioni sulla varianza:
- Le risposte AI variano per sessione
- Lo stesso prompt può dare risultati diversi
- Testa più volte e fai la media
Approccio consigliato:
- Minimo 50 prompt per categoria
- Testa ogni prompt 3 volte e fai la media
- Calcola la deviazione standard
- Considera miglioramento solo se > 2 deviazioni standard
Esempio calcolo:
Settimana 1: visibilità 35% (varianza ±8%)
Settimana 8: visibilità 48% (varianza ±7%)
Miglioramento: +13%
+13% è significativo?
Se la varianza è ±8%, sì.
Se è ±15%, forse no.
Regola pratica:
- <5% cambio: Rumore, non segnale
- 5-10% cambio: Possibile segnale, continua a monitorare
10% cambio: Probabile miglioramento reale
Non festeggiare miglioramenti del 2%. È rumore.