Cuidado con la significancia estadística.
El tamaño de muestra importa:
Probar con 10 prompts = alta variabilidad
Probar con 100 prompts = tendencias significativas
Consideraciones de variabilidad:
- Las respuestas IA varían por sesión
- Un mismo prompt puede arrojar distintos resultados
- Haz varias pruebas y promedia
Enfoque recomendado:
- Mínimo 50 prompts por categoría
- Probar cada prompt 3 veces y promediar
- Calcular desviación estándar
- Solo afirmar mejora si > 2 desviaciones estándar
Ejemplo de cálculo:
Semana 1: 35% visibilidad (variancia ±8%)
Semana 8: 48% visibilidad (variancia ±7%)
Mejora: +13%
¿Es +13% significativo?
Si la variancia es ±8%, sí.
Si es ±15%, quizá no.
Regla general:
- <5% de cambio: Ruido, no señal
- 5-10% de cambio: Posible señal, seguir monitoreando
10% de cambio: Probable mejora real
No celebres mejoras del 2%. Eso es ruido.