Notas técnicas de implementação.
Configuração correta do robots.txt:
# Regras específicas para rastreadores de IA
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: anthropic-ai
Allow: /
# Padrão para outros bots
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /private/
Erros comuns:
- A ordem importa – regras específicas antes dos curingas
- Erros de digitação prejudicam – GPTBot e não GPT-Bot
- Testes são essenciais – Use o testador de robots.txt do Google
Consideração sobre limite de taxa:
Alguns sites limitam fortemente os bots. Rastreadores de IA são impacientes. Se você retorna muitos erros 429, eles vão embora e citam concorrentes.
Verifique os logs do seu servidor para atividade de rastreadores de IA. Garanta que estão recebendo respostas 200.
Consideração para Cloudflare:
Se você usa Cloudflare com “Bot Fight Mode” ativado, rastreadores de IA podem ser bloqueados na rede, independente do robots.txt.
Confira as configurações do Cloudflare se permitir no robots.txt mas não vê citações.