Discussion Technical SEO AI Crawlers

¿Debería permitir GPTBot y otros rastreadores de IA? Acabo de descubrir que mi robots.txt los ha estado bloqueando

WE
WebDev_Technical_Alex · Desarrollador principal en agencia de marketing
· · 95 upvotes · 10 comments
WT
WebDev_Technical_Alex
Desarrollador principal en agencia de marketing · 9 de enero de 2026

Acabo de auditar el sitio de un cliente y descubrí algo interesante.

El hallazgo:

Su robots.txt ha estado bloqueando rastreadores de IA durante más de 2 años:

User-agent: *
Disallow: /private/

# Esto fue añadido por un plugin de seguridad en 2023
User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

Impacto:

  • Cero citas de IA para la marca
  • Competidores apareciendo en respuestas de IA
  • Cliente preguntándose por qué el “SEO IA” no funcionaba

Ahora me pregunto:

  1. ¿Deberíamos permitir TODOS los rastreadores de IA?
  2. ¿Cuál es la diferencia entre rastreadores de entrenamiento y búsqueda?
  3. ¿Existe una configuración recomendada para robots.txt?
  4. ¿Y qué pasa con ese llms.txt del que tanto escucho?

Preguntas para la comunidad:

  1. ¿Cuál es tu configuración de robots.txt para IA?
  2. ¿Diferencias entre tipos de rastreadores?
  3. ¿Has implementado llms.txt?
  4. ¿Qué resultados viste tras permitir rastreadores de IA?

Busco configuraciones prácticas, no solo teoría.

10 comments

10 Comentarios

TE
TechnicalSEO_Expert_Sarah Experta Consultora de SEO Técnico · 9 de enero de 2026

Esto es más común de lo que la gente piensa. Déjame desglosar los rastreadores:

Tipos de rastreadores de IA:

RastreadoresCompañíaPropósitoRecomendación
GPTBotOpenAIEntrenamiento de modelosSegún decidas
ChatGPT-UserOpenAIBúsqueda en tiempo realPermitir
ClaudeBotAnthropicCitaciones en tiempo realPermitir
Claude-WebAnthropicNavegación webPermitir
PerplexityBotPerplexityÍndice de búsquedaPermitir
Perplexity-UserPerplexitySolicitudes de usuarioPermitir
Google-ExtendedGoogleFunciones Gemini/IAPermitir

La distinción clave:

  • Rastreadores de entrenamiento (GPTBot): Tu contenido entrena modelos de IA
  • Rastreadores de búsqueda (ChatGPT-User, PerplexityBot): Tu contenido se cita en respuestas

La mayoría de las empresas:

Permiten rastreadores de búsqueda (quieres citas) y toman una decisión empresarial sobre los de entrenamiento.

robots.txt recomendado:

# Permitir rastreadores de búsqueda IA
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: PerplexityBot
User-agent: Perplexity-User
User-agent: Google-Extended
Allow: /

# Bloquear entrenamiento si lo deseas (opcional)
User-agent: GPTBot
Disallow: /

Sitemap: https://yoursite.com/sitemap.xml
CM
CrawlerMonitor_Mike · 9 de enero de 2026
Replying to TechnicalSEO_Expert_Sarah

Importante agregar: verifica si los rastreadores realmente están siendo bloqueados o simplemente no te visitan.

Cómo comprobarlo:

  1. Registros del servidor: Busca cadenas user-agent
  2. Registros del firewall: Revisa si el WAF está bloqueando
  3. Registros de CDN: Cloudflare/AWS pueden aplicar límites

Lo que encontramos en un cliente:

robots.txt permitía GPTBot, pero las reglas de seguridad de Cloudflare lo bloqueaban como “bot sospechoso”.

Configuración de firewall para bots de IA:

Si usas Cloudflare:

  • Crea regla de firewall: Permitir si el User-Agent contiene “GPTBot” O “PerplexityBot” O “ClaudeBot”
  • Añade a la lista blanca los rangos de IP oficiales (publicados por cada empresa)

robots.txt es necesario pero no suficiente.

Revisa todas las capas de tu stack.

LL
LLMsExpert_Lisa Especialista en Integración de IA · 9 de enero de 2026

Déjame explicar llms.txt ya que preguntaste:

¿Qué es llms.txt?:

Un nuevo estándar (propuesto en 2024) que da a los sistemas de IA una visión estructurada de tu sitio. Piénsalo como una tabla de contenidos específica para modelos de lenguaje.

Ubicación: yoursite.com/llms.txt

Estructura básica:

# Nombre de tu empresa

> Breve descripción de tu empresa

## Páginas principales

- [Inicio](https://yoursite.com/): Página principal
- [Productos](https://yoursite.com/products): Catálogo de productos
- [Precios](https://yoursite.com/pricing): Información de precios

## Recursos

- [Blog](https://yoursite.com/blog): Perspectivas del sector
- [Documentación](https://yoursite.com/docs): Documentos técnicos
- [Preguntas frecuentes](https://yoursite.com/faq): Preguntas comunes

## Soporte

- [Contacto](https://yoursite.com/contact): Formulario de contacto

Por qué ayuda:

Los sistemas de IA tienen ventanas de contexto limitadas. No pueden rastrear y comprender todo tu sitio. llms.txt les da un mapa curado.

Resultados tras implementarlo:

  • Citaciones de IA subieron 23% en 6 semanas
  • Representación de marca más precisa en respuestas de IA
  • Indexación más rápida de nuevo contenido por sistemas de IA
CC
ContentLicensing_Chris · 8 de enero de 2026

La distinción entre entrenamiento y búsqueda merece más atención.

La cuestión filosófica:

¿Quieres que tu contenido entrene modelos de IA?

Argumentos para permitir el entrenamiento:

  • Mejor IA = mejores citas de tu contenido
  • El liderazgo intelectual se difunde a través de la IA
  • No puedes optar por salir del entrenamiento pasado

Argumentos en contra:

  • No hay compensación por el uso del contenido
  • Los competidores se benefician de tu contenido
  • Preocupaciones de licenciamiento

Lo que hacen los editores:

Tipo de editorEntrenamientoBúsqueda
Sitios de noticiasBloquearPermitir
Empresas SaaSPermitirPermitir
E-commerceVaríaPermitir
AgenciasPermitirPermitir

Mi recomendación:

La mayoría de las empresas B2B deberían permitir ambos. El beneficio de la citación supera la preocupación del entrenamiento.

Si eres un editor de contenido con valor en licencias, considera bloquear el entrenamiento y permitir la búsqueda.

RT
ResultsTracker_Tom Experto · 8 de enero de 2026

Comparto resultados reales tras desbloquear rastreadores de IA:

Cliente A (SaaS):

Antes: GPTBot bloqueado, 0 citas de IA Después: GPTBot + todos los rastreadores permitidos

MétricaAntes30 días90 días
Citaciones de IA01247
Tráfico referido por IA00,8%2,3%
Búsquedas de marcalínea base+8%+22%

Cliente B (E-commerce):

Antes: Todos los IA bloqueados Después: Rastreadores de búsqueda permitidos, entrenamiento bloqueado

MétricaAntes30 días90 días
Citaciones de producto03489
Tráfico referido por IA01,2%3,1%
Búsquedas de productolínea base+15%+28%

El cronograma:

  • Semanas 1-2: Los rastreadores descubren e indexan contenido
  • Semanas 3-4: Empiezan a aparecer en respuestas de IA
  • Meses 2-3: Crecimiento significativo de citaciones

Idea clave:

Desbloquear no da resultados instantáneos. Toma de 4 a 8 semanas ver impacto real.

SR
SecurityExpert_Rachel Ingeniera DevSecOps · 8 de enero de 2026

Perspectiva de seguridad sobre rastreadores de IA:

Preocupaciones legítimas:

  1. Limitación de tasa: los bots pueden ser agresivos
  2. Scraping de contenido - distinguir IA de scrapers
  3. Superficie de ataque - permitir más bots = más vectores potenciales

Cómo mitigarlo:

  1. Verificar identidad del rastreador:

    • Revisa la cadena user-agent
    • Verifica IP con rangos publicados
    • Usa reverse DNS lookup
  2. Limitación de tasa (por rastreador):

    GPTBot: 100 solicitudes/minuto
    ClaudeBot: 100 solicitudes/minuto
    PerplexityBot: 100 solicitudes/minuto
    
  3. Monitorizar anomalías:

    • Picos de tráfico repentinos
    • Patrones de rastreo inusuales
    • Solicitudes a áreas sensibles

Rangos de IP oficiales:

Cada compañía publica los IPs de sus rastreadores:

Verifica antes de poner en lista blanca.

WJ
WordPressExpert_Jake · 7 de enero de 2026

Para usuarios de WordPress - bloqueadores comunes que he visto:

Plugins de seguridad que bloquean IA:

  • Wordfence (la configuración por defecto puede bloquear)
  • Sucuri (características de bloqueo de bots)
  • All In One Security
  • iThemes Security

Cómo comprobar:

  1. Wordfence: Firewall → Blocking → Advanced Blocking
  2. Sucuri: Firewall → Control de acceso → Lista de bots
  3. Revisa logs de “bloqueados” por user-agent de rastreadores de IA

robots.txt en WordPress:

WordPress genera robots.txt dinámicamente. Para personalizar:

Opción 1: Usa Yoast SEO → Herramientas → Editor de archivos Opción 2: Crea un robots.txt físico en la raíz (sobrescribe) Opción 3: Usa plugin como “Robots.txt Editor”

Nuestra configuración estándar en WordPress:

User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

Sitemap: https://yoursite.com/sitemap.xml
TE
TechnicalSEO_Expert_Sarah Experta · 7 de enero de 2026
Replying to WordPressExpert_Jake

Buena cobertura de WordPress. Agrego: cómo crear llms.txt en WordPress.

Opción 1: Archivo estático

Crea llms.txt en la raíz de tu tema y súbelo a public_html/

Opción 2: Plugin

Varios plugins ya soportan generación de llms.txt:

  • AI Content Shield
  • RankMath (en versiones recientes)
  • Plugin personalizado usando plantilla

Opción 3: Fragmento de código

// En functions.php
add_action('init', function() {
    if ($_SERVER['REQUEST_URI'] == '/llms.txt') {
        header('Content-Type: text/plain');
        // Muestra el contenido de tu llms.txt
        exit;
    }
});

Mejor práctica:

Actualiza llms.txt cuando:

  • Añadas nuevas secciones de contenido
  • Cambies la estructura del sitio
  • Lances nuevos productos/servicios

Archivo estático es lo más simple pero requiere actualizaciones manuales.

MM
MonitoringSetup_Maria · 7 de enero de 2026

Después de desbloquear, así puedes monitorizar la actividad de rastreadores de IA:

Qué monitorear:

MétricaDónde encontrarQué indica
Frecuencia de rastreoLogs del servidorCada cuánto visitan los bots
Páginas rastreadasLogs del servidorQué contenido indexan
Errores de rastreoLogs del servidorProblemas de bloqueo
Citaciones de IAAm I CitedSi el rastreo se traduce en visibilidad

Análisis de logs del servidor:

Busca estos patrones user-agent:

  • “GPTBot” - OpenAI
  • “ClaudeBot” - Anthropic
  • “PerplexityBot” - Perplexity
  • “Google-Extended” - Google IA

Comando grep simple:

grep -E "GPTBot|ClaudeBot|PerplexityBot|Google-Extended" access.log

Cómo luce una actividad saludable:

  • Varios bots de IA rastreando regularmente
  • Cobertura de páginas clave
  • Sin errores de rastreo en contenido importante
  • Citaciones en aumento con el tiempo

Señales de alerta:

  • Cero actividad de rastreadores IA tras desbloquear
  • Alta tasa de errores
  • Solo rastrean robots.txt (no acceden más allá)
WT
WebDev_Technical_Alex OP Desarrollador principal en agencia de marketing · 6 de enero de 2026

Esta discusión me dio todo lo que necesitaba. Aquí nuestro plan de implementación:

robots.txt actualizado:

# Permitir rastreadores de búsqueda IA (citaciones)
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: PerplexityBot
User-agent: Perplexity-User
User-agent: Google-Extended
Allow: /

# Rastreador de entrenamiento - permitido por ahora
User-agent: GPTBot
Allow: /

# Reglas estándar
User-agent: *
Disallow: /private/
Disallow: /admin/

Sitemap: https://clientsite.com/sitemap.xml

Implementación de llms.txt:

Creada visión estructurada del sitio del cliente con:

  • Páginas principales
  • Categorías de productos/servicios
  • Secciones de recursos
  • Información de contacto

Actualizaciones de firewall:

  • IPs oficiales de rastreadores IA en lista blanca
  • Límites de tasa apropiados
  • Añadido monitoreo de actividad de rastreadores

Configuración de monitoreo:

  • Parseo de logs del servidor para actividad de rastreadores IA
  • Am I Cited para seguimiento de citaciones
  • Revisión semanal de patrones de rastreo

Expectativas de cronograma:

  • Semanas 1-2: Verificar acceso de rastreadores al sitio
  • Semanas 3-4: Comenzar a ver citaciones iniciales
  • Meses 2-3: Crecimiento completo de citaciones

Métricas de éxito:

  • Visitas de rastreadores IA (objetivo: diaria por plataforma)
  • Citaciones de IA (objetivo: 30+ en primeros 90 días)
  • Tráfico referido por IA (objetivo: 2%+ del orgánico)

Gracias a todos por los detalles técnicos y configuraciones reales.

Have a Question About This Topic?

Get personalized help from our team. We'll respond within 24 hours.

Frequently Asked Questions

¿Los bots de IA están bloqueados por defecto?
No, los bots de IA NO están bloqueados por defecto. Rastrean tu sitio a menos que se les prohíba explícitamente en robots.txt. Sin embargo, algunos archivos robots.txt antiguos, plugins de seguridad o firewalls pueden bloquear inadvertidamente rastreadores de IA. Revisa tu configuración para asegurarte de que GPTBot, ClaudeBot, PerplexityBot y Google-Extended puedan acceder a tu contenido.
¿Cuál es la diferencia entre rastreadores de entrenamiento y de búsqueda?
Los rastreadores de entrenamiento (como GPTBot) recogen datos para el entrenamiento de modelos de IA, lo que significa que tu contenido puede entrenar futuras versiones de IA. Los rastreadores de búsqueda (como PerplexityBot, ChatGPT-User) obtienen contenido para respuestas en tiempo real de IA, es decir, tu contenido se cita en las respuestas. Muchas empresas bloquean los rastreadores de entrenamiento mientras permiten los de búsqueda.
¿Qué es llms.txt y debería implementarlo?
llms.txt es un nuevo estándar que proporciona a los sistemas de IA una visión estructurada de tu sitio. Funciona como una tabla de contenidos específicamente para modelos de lenguaje, ayudándoles a comprender la estructura de tu sitio y encontrar contenido importante. Se recomienda para visibilidad en IA pero no es obligatorio como robots.txt.

Monitoriza la actividad de los rastreadores de IA

Rastrea qué bots de IA están rastreando tu sitio y cómo aparece tu contenido en las respuestas generadas por IA. Ve el impacto de tu configuración de rastreadores.

Saber más