Sobre robots.txt y rastreadores de IA:
Buenas prácticas actuales:
# Permitir rastreadores de IA beneficiosos
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
# Bloquear si es necesario
User-agent: SomeOtherBot
Disallow: /
Consideraciones importantes:
- La mayoría de los rastreadores IA principales respetan robots.txt
- Pero robots.txt es orientativo, no obligatorio
- Algunos sistemas de IA raspan igual (usa WAF para bloqueo real)
- Considera: beneficios de visibilidad vs. preocupación por datos de entrenamiento
Mi recomendación:
Para la mayoría de sitios, permite rastreadores IA. Los beneficios de visibilidad superan las preocupaciones por el uso de tu contenido para entrenamiento. Si bloqueas, eres invisible para la búsqueda IA.
Excepción: Si tienes contenido de pago o buscas ingresos por licencias de empresas de IA, bloquear tiene sentido. Pero para la mayoría de sitios de contenido, la visibilidad es el objetivo.