Problemas comuns que bloqueiam rastreadores de IA:
1. Coringas no robots.txt
User-agent: *
Disallow: /
Isto bloqueia TODOS os bots não especificados, inclusive rastreadores de IA.
Correção:
User-agent: Googlebot
Allow: /
User-agent: GPTBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: *
Disallow: /
2. Limitação de Taxa
Limitação agressiva pode bloquear IPs de rastreadores.
Verifique se seu WAF ou CDN está bloqueando.
3. Listas de Bloqueio de IP
Alguns plugins de segurança bloqueiam IPs “suspeitos”.
IPs de rastreadores de IA podem ser sinalizados.
4. Autenticação Obrigatória
Qualquer exigência de login bloqueia rastreadores.
Garanta que o conteúdo público realmente seja público.
5. Renderização JavaScript
Conteúdo renderizado apenas via JS pode não estar visível.
Rastreadores de IA podem não executar JavaScript totalmente.
6. Resposta Lenta
Páginas que demoram mais de 5-10 segundos podem ter timeout.
Rastreadores podem desistir.
Como testar cada um:
- robots.txt: Verificação direta pela URL
- Limitação de taxa: Verifique logs do WAF/CDN
- Bloqueio por IP: Teste de IPs diferentes
- Autenticação: Navegação anônima
- JS: Ver fonte da página vs renderizada
- Velocidade: GTmetrix ou similar