Flujo de trabajo práctico para analizar registros:
Paso 1: Extraer impactos de rastreadores de IA
# Formato de registro Nginx
grep -E "GPTBot|ChatGPT|Google-Extended|ClaudeBot|PerplexityBot" access.log > ai_crawlers.log
Paso 2: Analizar por rastreador
# Contar solicitudes por rastreador
awk '{print $NF}' ai_crawlers.log | sort | uniq -c | sort -rn
Paso 3: Analizar páginas rastreadas
# Páginas más rastreadas
awk '{print $7}' ai_crawlers.log | sort | uniq -c | sort -rn | head -50
Paso 4: Analizar patrones de tiempo
# Solicitudes por hora
awk '{print $4}' ai_crawlers.log | cut -d: -f2 | sort | uniq -c
Qué buscar:
| Patrón | Indica |
|---|
| Visitas diarias | Rastreo activo, buena señal |
| Enfoque en blog/contenido | El contenido está siendo considerado |
| Solicitudes a sitemap.xml | Siguen tu guía |
| Revisiones a robots.txt | Respetan directrices |
| Enfoque en una sección | Rastreo selectivo |