Od dawna zajmuję się tym tematem. Trochę kontekstu:
Efekt świeżości jest realny:
Badania pokazują, że 65% cytowań AI pochodzi z treści opublikowanych w ciągu ostatniego roku. To oznacza:
- Twoje archiwum ma niewielką wartość dla AI
- Liczy się świeża treść
- Trzeba publikować stale, aby utrzymać widoczność
Wyjątek: Wikipedia
Wikipedia jest cytowana w 47,9% głównych źródeł ChatGPT, bo jest na wolnej licencji (CC BY-SA 3.0). Wniosek: warunki licencyjne mają kluczowe znaczenie dla widoczności w AI.
Przykład Reddita:
Umowa Reddita z Google na 60 mln USD rocznie pokazuje wartość treści społecznościowej. Ich dataset WebText2 ma 5x wagę w treningu GPT.
Wnioski:
Jeśli nie możesz negocjować dużej umowy, skup się na:
- Świeżych, ciągłych publikacjach
- Treściach społecznościowych/dyskusyjnych
- Unikalnych badaniach własnych
- Rozważ model RSL/rynków licencyjnych