He dedicado bastante tiempo a analizar patrones de citación en IA. Esto es lo que muestran las investigaciones:
Ponderaciones de los factores de citación (aproximado):
| Factor | Peso | Significado |
|---|
| Autoridad del dominio | 25-30% | Señales de confianza, perfil de backlinks, presencia en el grafo de conocimiento |
| Actualidad del contenido | 20-25% | Fecha de publicación, frecuencia de actualización, datos recientes |
| Relevancia semántica | 20-25% | Qué tan directamente responde el contenido a la consulta |
| Estructura de la información | 15-20% | Encabezados, listas, tablas, marcado de esquema |
| Densidad factual | 10-15% | Datos específicos, estadísticas, citas de expertos |
El proceso RAG explicado de forma simple:
- La consulta del usuario se convierte en un vector (representación numérica)
- El sistema busca fragmentos de contenido semánticamente similares
- Se puntúan múltiples factores para cada fuente potencial
- Las fuentes con mayor puntuación se citan en la respuesta
Perspectiva clave: A diferencia de la búsqueda tradicional donde compites por 10 posiciones, las citaciones de IA son más binarias: o eres citado o no. Pero pueden citarse múltiples fuentes, así que no es suma cero.
La paradoja de la autoridad:
La investigación muestra que Reddit (40,1%) y Wikipedia (26,3%) dominan las citaciones de los LLM. Esto no es porque tengan el “mejor” contenido, sino porque los sistemas de IA confían en fuentes establecidas y validadas por la comunidad.