He cubierto este tema extensamente. Algo de contexto:
El sesgo de actualidad es real:
La investigación muestra que el 65% de las citaciones en IA provienen de contenido publicado en el último año. Esto significa:
- Tu archivo tiene valor limitado para IA
- El contenido reciente importa más
- Publicar continuamente es clave para mantener visibilidad
La excepción de Wikipedia:
Wikipedia es citada en el 47,9% de las principales fuentes de ChatGPT porque tiene licencia libre (CC BY-SA 3.0). Lección: los términos de licencia importan para la visibilidad en IA.
El ejemplo de Reddit:
El acuerdo de $60M/año de Reddit con Google muestra el valor del contenido comunitario. Su dataset WebText2 recibe 5x de peso en el entrenamiento de GPT.
Conclusión:
Si no puedes negociar un gran acuerdo, concéntrate en:
- Contenido fresco y continuo
- Contenido de comunidad/discusión
- Investigación original única
- Considerar modelos RSL/marketplace