Strávila jsem hodně času analýzou citačních vzorců AI. Tady jsou výsledky výzkumu:
Váhování faktorů citace (přibližně):
| Faktor | Váha | Co znamená |
|---|
| Autorita domény | 25–30 % | Signály důvěry, profil zpětných odkazů, přítomnost v knowledge graph |
| Aktuálnost obsahu | 20–25 % | Datum publikace, frekvence aktualizací, čerstvá data |
| Sémantická relevance | 20–25 % | Jak přímo obsah odpovídá na dotaz |
| Struktura informací | 15–20 % | Nadpisy, seznamy, tabulky, schéma |
| Hustota faktů | 10–15 % | Konkrétní data, statistiky, citace odborníků |
Proces RAG jednoduše:
- Dotaz uživatele se převádí na vektor (číselná reprezentace)
- Systém hledá sémanticky podobné části obsahu
- Každý potenciální zdroj je skórován podle více faktorů
- Nejlépe skórované zdroje jsou citovány v odpovědi
Důležitý postřeh: Na rozdíl od tradičního vyhledávání, kde soupeříte o 10 pozic, jsou AI citace binární – buď jste citováni, nebo ne. Ale může být citováno více zdrojů, takže to není hra s nulovým součtem.
Paradox autority:
Výzkum ukazuje, že Reddit (40,1 %) a Wikipedia (26,3 %) dominují citacím LLM. Není to proto, že mají „nejlepší“ obsah – AI systémy důvěřují zavedeným a komunitně ověřeným zdrojům.