Aquí tienes el enfoque práctico:
1. Bloqueo selectivo en robots.txt:
Permite rastreadores de IA en contenido de alto valor, bloquéalos en áreas de bajo valor:
User-agent: GPTBot
Disallow: /internal-search/
Disallow: /paginated/*/page-
Disallow: /archive/
Allow: /
2. Limitación de velocidad a nivel de servidor:
En Nginx:
limit_req_zone $http_user_agent zone=aibot:10m rate=1r/s;
Esto desacelera los rastreadores de IA sin bloquearlos.
3. Señal de prioridad mediante sitemap:
Incluye páginas de alto valor en el sitemap con indicadores de prioridad. Los rastreadores de IA suelen respetar las indicaciones del sitemap.
4. Controles a nivel CDN:
Cloudflare y servicios similares permiten establecer diferentes límites de velocidad por user-agent.
Qué proteger:
- Tu contenido principal de alto valor
- Páginas de producto que quieres que sean citadas
- Descripciones de servicios
- Contenido de experto
Qué bloquear:
- Resultados de búsquedas internas
- Paginación profunda
- Contenido generado por usuarios
- Páginas de archivo
- Contenido de pruebas/staging