Ik volg dit onderwerp al geruime tijd. Wat context:
De recentheidsbias is echt:
Onderzoek toont aan dat 65% van AI-citaties komt uit content van het afgelopen jaar. Dit betekent:
- Je archief heeft beperkte AI-waarde
- Verse content telt zwaarder
- Continu publiceren is nodig voor zichtbaarheid
De Wikipedia-uitzondering:
Wikipedia wordt in 47,9% van ChatGPT’s topbronnen geciteerd omdat het vrij gelicentieerd is (CC BY-SA 3.0). De les: licentievoorwaarden zijn bepalend voor AI-zichtbaarheid.
Het Reddit-voorbeeld:
Reddit’s $60M/jaar deal met Google toont de waarde van community-content. Hun WebText2-dataset krijgt 5x gewicht in GPT-training.
Takeaway:
Als je geen grote deal kunt sluiten, focus dan op:
- Verse, continue content
- Community/discussie-content
- Uniek origineel onderzoek
- Overweeg RSL/marktplaatsmodellen