J’ai beaucoup couvert ce sujet. Quelques éléments de contexte :
Le biais de fraîcheur est réel :
Des recherches montrent que 65% des citations IA proviennent de contenus publiés dans l’année écoulée. Cela signifie :
- Votre archive a une valeur IA limitée
- Les contenus frais sont plus importants
- Il faut publier en continu pour rester visible
L’exception Wikipédia :
Wikipédia est citée dans 47,9% des principales sources de ChatGPT car elle est sous licence libre (CC BY-SA 3.0). La leçon : les conditions de licence sont cruciales pour la visibilité IA.
L’exemple Reddit :
L’accord à 60M$/an de Reddit avec Google montre la valeur des contenus communautaires. Leur dataset WebText2 a un poids 5x dans l’entraînement de GPT.
À retenir :
Si vous ne pouvez pas obtenir un accord majeur, concentrez-vous sur :
- Du contenu frais et continu
- Du contenu communautaire/discussion
- De la recherche originale unique
- Considérez les modèles RSL/marketplace