¿Qué rastreadores de IA debo permitir en robots.txt? GPTBot, PerplexityBot, etc.
Discusión de la comunidad sobre qué rastreadores de IA permitir o bloquear. Decisiones reales de webmasters sobre el acceso de GPTBot, PerplexityBot y otros ras...
Acabo de auditar el sitio de un cliente y descubrí algo interesante.
El hallazgo:
Su robots.txt ha estado bloqueando rastreadores de IA durante más de 2 años:
User-agent: *
Disallow: /private/
# Esto fue añadido por un plugin de seguridad en 2023
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
Impacto:
Ahora me pregunto:
Preguntas para la comunidad:
Busco configuraciones prácticas, no solo teoría.
Esto es más común de lo que la gente piensa. Déjame desglosar los rastreadores:
Tipos de rastreadores de IA:
| Rastreadores | Compañía | Propósito | Recomendación |
|---|---|---|---|
| GPTBot | OpenAI | Entrenamiento de modelos | Según decidas |
| ChatGPT-User | OpenAI | Búsqueda en tiempo real | Permitir |
| ClaudeBot | Anthropic | Citaciones en tiempo real | Permitir |
| Claude-Web | Anthropic | Navegación web | Permitir |
| PerplexityBot | Perplexity | Índice de búsqueda | Permitir |
| Perplexity-User | Perplexity | Solicitudes de usuario | Permitir |
| Google-Extended | Funciones Gemini/IA | Permitir |
La distinción clave:
La mayoría de las empresas:
Permiten rastreadores de búsqueda (quieres citas) y toman una decisión empresarial sobre los de entrenamiento.
robots.txt recomendado:
# Permitir rastreadores de búsqueda IA
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: PerplexityBot
User-agent: Perplexity-User
User-agent: Google-Extended
Allow: /
# Bloquear entrenamiento si lo deseas (opcional)
User-agent: GPTBot
Disallow: /
Sitemap: https://yoursite.com/sitemap.xml
Importante agregar: verifica si los rastreadores realmente están siendo bloqueados o simplemente no te visitan.
Cómo comprobarlo:
Lo que encontramos en un cliente:
robots.txt permitía GPTBot, pero las reglas de seguridad de Cloudflare lo bloqueaban como “bot sospechoso”.
Configuración de firewall para bots de IA:
Si usas Cloudflare:
robots.txt es necesario pero no suficiente.
Revisa todas las capas de tu stack.
Déjame explicar llms.txt ya que preguntaste:
¿Qué es llms.txt?:
Un nuevo estándar (propuesto en 2024) que da a los sistemas de IA una visión estructurada de tu sitio. Piénsalo como una tabla de contenidos específica para modelos de lenguaje.
Ubicación: yoursite.com/llms.txt
Estructura básica:
# Nombre de tu empresa
> Breve descripción de tu empresa
## Páginas principales
- [Inicio](https://yoursite.com/): Página principal
- [Productos](https://yoursite.com/products): Catálogo de productos
- [Precios](https://yoursite.com/pricing): Información de precios
## Recursos
- [Blog](https://yoursite.com/blog): Perspectivas del sector
- [Documentación](https://yoursite.com/docs): Documentos técnicos
- [Preguntas frecuentes](https://yoursite.com/faq): Preguntas comunes
## Soporte
- [Contacto](https://yoursite.com/contact): Formulario de contacto
Por qué ayuda:
Los sistemas de IA tienen ventanas de contexto limitadas. No pueden rastrear y comprender todo tu sitio. llms.txt les da un mapa curado.
Resultados tras implementarlo:
La distinción entre entrenamiento y búsqueda merece más atención.
La cuestión filosófica:
¿Quieres que tu contenido entrene modelos de IA?
Argumentos para permitir el entrenamiento:
Argumentos en contra:
Lo que hacen los editores:
| Tipo de editor | Entrenamiento | Búsqueda |
|---|---|---|
| Sitios de noticias | Bloquear | Permitir |
| Empresas SaaS | Permitir | Permitir |
| E-commerce | Varía | Permitir |
| Agencias | Permitir | Permitir |
Mi recomendación:
La mayoría de las empresas B2B deberían permitir ambos. El beneficio de la citación supera la preocupación del entrenamiento.
Si eres un editor de contenido con valor en licencias, considera bloquear el entrenamiento y permitir la búsqueda.
Comparto resultados reales tras desbloquear rastreadores de IA:
Cliente A (SaaS):
Antes: GPTBot bloqueado, 0 citas de IA Después: GPTBot + todos los rastreadores permitidos
| Métrica | Antes | 30 días | 90 días |
|---|---|---|---|
| Citaciones de IA | 0 | 12 | 47 |
| Tráfico referido por IA | 0 | 0,8% | 2,3% |
| Búsquedas de marca | línea base | +8% | +22% |
Cliente B (E-commerce):
Antes: Todos los IA bloqueados Después: Rastreadores de búsqueda permitidos, entrenamiento bloqueado
| Métrica | Antes | 30 días | 90 días |
|---|---|---|---|
| Citaciones de producto | 0 | 34 | 89 |
| Tráfico referido por IA | 0 | 1,2% | 3,1% |
| Búsquedas de producto | línea base | +15% | +28% |
El cronograma:
Idea clave:
Desbloquear no da resultados instantáneos. Toma de 4 a 8 semanas ver impacto real.
Perspectiva de seguridad sobre rastreadores de IA:
Preocupaciones legítimas:
Cómo mitigarlo:
Verificar identidad del rastreador:
Limitación de tasa (por rastreador):
GPTBot: 100 solicitudes/minuto
ClaudeBot: 100 solicitudes/minuto
PerplexityBot: 100 solicitudes/minuto
Monitorizar anomalías:
Rangos de IP oficiales:
Cada compañía publica los IPs de sus rastreadores:
Verifica antes de poner en lista blanca.
Para usuarios de WordPress - bloqueadores comunes que he visto:
Plugins de seguridad que bloquean IA:
Cómo comprobar:
robots.txt en WordPress:
WordPress genera robots.txt dinámicamente. Para personalizar:
Opción 1: Usa Yoast SEO → Herramientas → Editor de archivos Opción 2: Crea un robots.txt físico en la raíz (sobrescribe) Opción 3: Usa plugin como “Robots.txt Editor”
Nuestra configuración estándar en WordPress:
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
Sitemap: https://yoursite.com/sitemap.xml
Buena cobertura de WordPress. Agrego: cómo crear llms.txt en WordPress.
Opción 1: Archivo estático
Crea llms.txt en la raíz de tu tema y súbelo a public_html/
Opción 2: Plugin
Varios plugins ya soportan generación de llms.txt:
Opción 3: Fragmento de código
// En functions.php
add_action('init', function() {
if ($_SERVER['REQUEST_URI'] == '/llms.txt') {
header('Content-Type: text/plain');
// Muestra el contenido de tu llms.txt
exit;
}
});
Mejor práctica:
Actualiza llms.txt cuando:
Archivo estático es lo más simple pero requiere actualizaciones manuales.
Después de desbloquear, así puedes monitorizar la actividad de rastreadores de IA:
Qué monitorear:
| Métrica | Dónde encontrar | Qué indica |
|---|---|---|
| Frecuencia de rastreo | Logs del servidor | Cada cuánto visitan los bots |
| Páginas rastreadas | Logs del servidor | Qué contenido indexan |
| Errores de rastreo | Logs del servidor | Problemas de bloqueo |
| Citaciones de IA | Am I Cited | Si el rastreo se traduce en visibilidad |
Análisis de logs del servidor:
Busca estos patrones user-agent:
Comando grep simple:
grep -E "GPTBot|ClaudeBot|PerplexityBot|Google-Extended" access.log
Cómo luce una actividad saludable:
Señales de alerta:
Esta discusión me dio todo lo que necesitaba. Aquí nuestro plan de implementación:
robots.txt actualizado:
# Permitir rastreadores de búsqueda IA (citaciones)
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: PerplexityBot
User-agent: Perplexity-User
User-agent: Google-Extended
Allow: /
# Rastreador de entrenamiento - permitido por ahora
User-agent: GPTBot
Allow: /
# Reglas estándar
User-agent: *
Disallow: /private/
Disallow: /admin/
Sitemap: https://clientsite.com/sitemap.xml
Implementación de llms.txt:
Creada visión estructurada del sitio del cliente con:
Actualizaciones de firewall:
Configuración de monitoreo:
Expectativas de cronograma:
Métricas de éxito:
Gracias a todos por los detalles técnicos y configuraciones reales.
Get personalized help from our team. We'll respond within 24 hours.
Rastrea qué bots de IA están rastreando tu sitio y cómo aparece tu contenido en las respuestas generadas por IA. Ve el impacto de tu configuración de rastreadores.
Discusión de la comunidad sobre qué rastreadores de IA permitir o bloquear. Decisiones reales de webmasters sobre el acceso de GPTBot, PerplexityBot y otros ras...
Discusión comunitaria sobre la gestión del presupuesto de rastreo de IA. Cómo manejar GPTBot, ClaudeBot y PerplexityBot sin sacrificar visibilidad.
Debate comunitario sobre la configuración de robots.txt para rastreadores de IA como GPTBot, ClaudeBot y PerplexityBot. Experiencias reales de webmasters y espe...