Déjame ayudarte a depurar sistemáticamente.
Paso 1: Análisis de registros
Revisa los registros de tu servidor para ver visitas de rastreadores de IA a las páginas “invisibles”:
# Verifica si GPTBot visita páginas específicas
grep "GPTBot" access.log | grep "/invisible-page-path/"
Si no hay visitas de rastreadores: No están descubriendo esas páginas.
Si hay visitas pero no hay citas: Es un tema de calidad de contenido, no de acceso.
Paso 2: Prueba de acceso directo
Prueba lo que ven los rastreadores cuando acceden a la página:
curl -A "GPTBot" -s https://yoursite.com/page-path/ | head -200
Verifica:
- Que el contenido completo aparezca en el HTML
- Que no haya redirección a login/paywall
- Que no aparezca mensaje de “bot detectado”
- Que el contenido clave no esté en JavaScript
Paso 3: Prueba de renderizado
Los rastreadores de IA varían en su capacidad para renderizar JS. Prueba con JS deshabilitado:
- Abre la página en el navegador
- Desactiva JavaScript (Herramientas de desarrollador)
- ¿El contenido principal sigue apareciendo?
Si el contenido desaparece sin JS, ahí está el problema.
Paso 4: Verificación de limitación de velocidad
¿Estás limitando agresivamente la velocidad de los bots?
Verifica si tu WAF o CDN bloquea después de X peticiones.
Los rastreadores de IA pueden ser bloqueados a mitad del rastreo.
Problemas más comunes que encuentro:
- Páginas no enlazadas internamente (huérfanas)
- Contenido renderizado por JavaScript
- Protección anti-bots agresiva
- Páginas fuera del sitemap