Ik heb veel tijd besteed aan het analyseren van AI-citatiepatronen. Dit blijkt uit het onderzoek:
Wegingen van citatiefactoren (bij benadering):
| Factor | Gewicht | Betekenis |
|---|
| Domeinautoriteit | 25-30% | Vertrouwenssignalen, backlinkprofiel, aanwezigheid in knowledge graph |
| Actualiteit content | 20-25% | Publicatiedatum, updatefrequentie, actuele data |
| Semantische relevantie | 20-25% | Hoe direct de content de vraag beantwoordt |
| Informatiestructuur | 15-20% | Koppen, lijsten, tabellen, schema markup |
| Feitendichtheid | 10-15% | Specifieke data, statistieken, expertquotes |
Het RAG-proces eenvoudig uitgelegd:
- Gebruikersvraag wordt omgezet in een vector (numerieke representatie)
- Systeem zoekt naar semantisch vergelijkbare contentblokken
- Meerdere factoren scoren elke potentiële bron
- Hoogst scorende bronnen worden geciteerd in het antwoord
Belangrijk inzicht: In tegenstelling tot traditionele zoekresultaten waar je concurreert om 10 posities, zijn AI-citaties meer binair - je wordt wel of niet geciteerd. Maar meerdere bronnen kunnen geciteerd worden, dus het is geen zero-sum.
Het autoriteitsparadox:
Onderzoek laat zien dat Reddit (40,1%) en Wikipedia (26,3%) de LLM-citaties domineren. Niet omdat ze de “beste” content hebben - maar omdat AI-systemen gevestigde, door de community gevalideerde bronnen vertrouwen.