Ich habe viel Zeit darauf verwendet, KI-Zitiermuster zu analysieren. Das zeigen die Untersuchungen:
Gewichtungen der Zitierfaktoren (ungefähr):
| Faktor | Gewicht | Bedeutung |
|---|
| Domain-Autorität | 25-30% | Vertrauenssignale, Backlink-Profil, Knowledge Graph-Präsenz |
| Aktualität der Inhalte | 20-25% | Veröffentlichungsdatum, Update-Frequenz, frische Daten |
| Semantische Relevanz | 20-25% | Wie direkt der Inhalt die Anfrage beantwortet |
| Informationsstruktur | 15-20% | Überschriften, Listen, Tabellen, Schema-Markup |
| Faktendichte | 10-15% | Konkrete Datenpunkte, Statistiken, Expertenzitate |
Das RAG-Prinzip einfach erklärt:
- Benutzeranfrage wird in einen Vektor (Zahlenrepräsentation) umgewandelt
- Das System sucht semantisch ähnliche Inhalt-Abschnitte
- Mehrere Faktoren bewerten jede potenzielle Quelle
- Die höchstbewerteten Quellen werden in der Antwort zitiert
Wichtige Erkenntnis: Anders als bei der klassischen Suche, wo man um 10 Positionen konkurriert, ist es bei KI-Zitaten binär – entweder wird man zitiert oder nicht. Es können aber mehrere Quellen zitiert werden, es ist also kein Nullsummenspiel.
Das Autoritäts-Paradoxon:
Studien zeigen, dass Reddit (40,1 %) und Wikipedia (26,3 %) die LLM-Zitate dominieren. Das liegt nicht daran, dass sie den „besten“ Inhalt haben – KI-Systeme vertrauen etablierten, community-validierten Quellen.