Ho passato molto tempo ad analizzare i pattern di citazione dell’IA. Ecco cosa mostrano le ricerche:
Pesi dei fattori di citazione (approssimativi):
| Fattore | Peso | Significato |
|---|
| Autorità del dominio | 25-30% | Segnali di fiducia, profilo backlink, presenza nel knowledge graph |
| Attualità dei contenuti | 20-25% | Data di pubblicazione, frequenza aggiornamenti, dati freschi |
| Rilevanza semantica | 20-25% | Quanto direttamente il contenuto risponde alla query |
| Struttura informativa | 15-20% | Header, elenchi, tabelle, schema markup |
| Densità fattuale | 10-15% | Dati specifici, statistiche, citazioni di esperti |
Il processo RAG spiegato semplicemente:
- La query dell’utente viene convertita in un vettore (rappresentazione numerica)
- Il sistema cerca segmenti di contenuto semanticamente simili
- Più fattori danno un punteggio a ogni fonte potenziale
- Le fonti con punteggio più alto vengono citate nella risposta
Insight critico: A differenza della ricerca tradizionale dove si compete per 10 posizioni, le citazioni IA sono più binarie: o vieni citato o no. Ma possono essere citate più fonti, quindi non è un gioco a somma zero.
Il paradosso dell’autorità:
La ricerca mostra che Reddit (40,1%) e Wikipedia (26,3%) dominano le citazioni LLM. Non perché abbiano i “migliori” contenuti, ma perché i sistemi IA si fidano di fonti consolidate e validate dalla community.