Aqui está a abordagem prática:
1. Bloqueio seletivo no robots.txt:
Permita crawlers de IA em conteúdos de alto valor, bloqueie áreas de baixo valor:
User-agent: GPTBot
Disallow: /internal-search/
Disallow: /paginated/*/page-
Disallow: /archive/
Allow: /
2. Limitação de taxa no servidor:
No Nginx:
limit_req_zone $http_user_agent zone=aibot:10m rate=1r/s;
Isso reduz a velocidade dos crawlers de IA sem bloqueá-los.
3. Sinalização de prioridade via sitemap:
Inclua páginas de alto valor no sitemap com indicadores de prioridade. Crawlers de IA frequentemente respeitam essas dicas.
4. Controles no nível de CDN:
Cloudflare e serviços similares permitem definir limites de taxa diferentes por user-agent.
O que proteger:
- Seu conteúdo principal de alto valor
- Páginas de produto que você quer que sejam citadas
- Descrições de serviços
- Conteúdo especializado
O que bloquear:
- Resultados de busca interna
- Paginação profunda
- Conteúdo gerado por usuário
- Páginas de arquivo
- Conteúdo de staging/teste