Quais rastreadores de IA devo permitir no robots.txt? GPTBot, PerplexityBot, etc.
Discussão da comunidade sobre quais rastreadores de IA permitir ou bloquear. Decisões reais de webmasters sobre o acesso do GPTBot, PerplexityBot e outros rastr...
Acabei de auditar o site de um cliente e descobri algo interessante.
A descoberta:
O robots.txt deles estava bloqueando rastreadores de IA há mais de 2 anos:
User-agent: *
Disallow: /private/
# Isso foi adicionado por um plugin de segurança em 2023
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
Impacto:
Agora estou questionando:
Perguntas para a comunidade:
Buscando configurações práticas, não só teoria.
Isso é mais comum do que as pessoas imaginam. Deixe-me explicar os rastreadores:
Tipos de Rastreadores de IA:
| Rastreador | Empresa | Finalidade | Recomendação |
|---|---|---|---|
| GPTBot | OpenAI | Treinamento de modelo | Sua escolha |
| ChatGPT-User | OpenAI | Busca em tempo real | Permitir |
| ClaudeBot | Anthropic | Citações em tempo real | Permitir |
| Claude-Web | Anthropic | Navegação web | Permitir |
| PerplexityBot | Perplexity | Índice de busca | Permitir |
| Perplexity-User | Perplexity | Requisições de usuário | Permitir |
| Google-Extended | Recursos Gemini/IA | Permitir |
A distinção principal:
A maioria das empresas:
Permite rastreadores de busca (você quer citações) e decide sobre rastreadores de treinamento conforme estratégia.
robots.txt recomendado:
# Permitir rastreadores de busca de IA
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: PerplexityBot
User-agent: Perplexity-User
User-agent: Google-Extended
Allow: /
# Bloquear treinamento se desejar (opcional)
User-agent: GPTBot
Disallow: /
Sitemap: https://yoursite.com/sitemap.xml
Adição importante: verifique se os rastreadores estão realmente sendo bloqueados ou se apenas não estão acessando.
Como conferir:
O que encontramos em um cliente:
O robots.txt permitia o GPTBot, mas as regras de segurança do Cloudflare o bloqueavam como “bot suspeito”.
Configuração de firewall para bots de IA:
Se usar Cloudflare:
robots.txt é necessário, mas não suficiente.
Verifique todas as camadas da sua stack.
Deixe-me explicar o llms.txt já que você perguntou:
O que é llms.txt:
Um novo padrão (proposto em 2024) que dá aos sistemas de IA uma visão estruturada do seu site. Pense como um índice exclusivo para modelos de linguagem.
Localização: suesite.com/llms.txt
Estrutura básica:
# Nome da Sua Empresa
> Breve descrição da sua empresa
## Páginas Principais
- [Home](https://yoursite.com/): Página inicial
- [Produtos](https://yoursite.com/products): Catálogo de produtos
- [Preços](https://yoursite.com/pricing): Informações de preços
## Recursos
- [Blog](https://yoursite.com/blog): Insights do setor
- [Documentação](https://yoursite.com/docs): Documentos técnicos
- [FAQ](https://yoursite.com/faq): Perguntas frequentes
## Suporte
- [Contato](https://yoursite.com/contact): Fale conosco
Por que ajuda:
Sistemas de IA têm janelas de contexto limitadas. Eles não conseguem rastrear e entender todo o site. O llms.txt oferece um mapa curado.
Nossos resultados após implementação:
A distinção entre treinamento e busca merece mais atenção.
A questão filosófica:
Você quer que seu conteúdo treine modelos de IA?
Argumentos para permitir treinamento:
Argumentos contra:
O que os publishers estão fazendo:
| Tipo de Publicador | Treinamento | Busca |
|---|---|---|
| Sites de notícias | Bloqueiam | Permitem |
| Empresas SaaS | Permitem | Permitem |
| E-commerce | Varia | Permitem |
| Agências | Permitem | Permitem |
Minha recomendação:
A maioria das empresas B2B deve permitir ambos. O benefício das citações supera a preocupação com o treinamento.
Se você é publisher de conteúdo com valor de licenciamento, considere bloquear treinamento e permitir busca.
Vou compartilhar resultados reais após desbloquear rastreadores de IA:
Cliente A (SaaS):
Antes: GPTBot bloqueado, 0 citações em IA Depois: GPTBot + todos rastreadores permitidos
| Métrica | Antes | 30 dias | 90 dias |
|---|---|---|---|
| Citações em IA | 0 | 12 | 47 |
| Tráfego vindo de IA | 0 | 0,8% | 2,3% |
| Buscas pela marca | base | +8% | +22% |
Cliente B (E-commerce):
Antes: Todos IA bloqueados Depois: Rastreadores de busca permitidos, treinamento bloqueado
| Métrica | Antes | 30 dias | 90 dias |
|---|---|---|---|
| Citações de produto | 0 | 34 | 89 |
| Tráfego vindo de IA | 0 | 1,2% | 3,1% |
| Buscas de produto | base | +15% | +28% |
O cronograma:
Insight principal:
Desbloquear não traz resultados instantâneos. Leva de 4 a 8 semanas para ver impacto relevante.
Visão de segurança sobre rastreadores de IA:
Preocupações legítimas:
Como mitigar:
Verificar identidade do rastreador:
Limite de requisições (por rastreador):
GPTBot: 100 requisições/minuto
ClaudeBot: 100 requisições/minuto
PerplexityBot: 100 requisições/minuto
Monitorar anomalias:
Faixas de IP oficiais:
Cada empresa de IA publica os IPs de seus rastreadores:
Verifique antes de colocar na lista branca.
Para usuários WordPress - bloqueadores comuns que já vi:
Plugins de segurança que bloqueiam IA:
Como verificar:
robots.txt no WordPress:
O WordPress gera o robots.txt dinamicamente. Para personalizar:
Opção 1: Use Yoast SEO → Ferramentas → Editor de arquivos Opção 2: Crie um robots.txt físico na raiz (sobrepõe o dinâmico) Opção 3: Use plugin como “Robots.txt Editor”
Nossa configuração padrão para WordPress:
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
Sitemap: https://yoursite.com/sitemap.xml
Boa cobertura de WordPress. Acrescentando: como criar o llms.txt no WordPress.
Opção 1: Arquivo estático
Crie o llms.txt na raiz do seu tema e faça upload para public_html/
Opção 2: Via plugin
Já existem plugins que suportam geração de llms.txt:
Opção 3: Código
// No functions.php
add_action('init', function() {
if ($_SERVER['REQUEST_URI'] == '/llms.txt') {
header('Content-Type: text/plain');
// Exiba o conteúdo do seu llms.txt
exit;
}
});
Melhor prática:
Mantenha o llms.txt atualizado quando:
Arquivo estático é o mais simples, mas exige atualização manual.
Depois de desbloquear, veja como monitorar a atividade dos rastreadores de IA:
O que monitorar:
| Métrica | Onde Encontrar | O Que Indica |
|---|---|---|
| Frequência de rastreamento | Logs do servidor | Quantas vezes os bots visitam |
| Páginas rastreadas | Logs do servidor | Que conteúdo eles indexam |
| Erros de rastreamento | Logs do servidor | Problemas de bloqueio |
| Citações em IA | Am I Cited | Se o rastreamento gera visibilidade |
Análise de logs do servidor:
Procure por estes padrões de user-agent:
Comando grep simples:
grep -E "GPTBot|ClaudeBot|PerplexityBot|Google-Extended" access.log
Como deve ser uma atividade saudável:
Alertas:
Essa discussão me deu tudo que eu precisava. Aqui está nosso plano de implementação:
robots.txt atualizado:
# Permitir rastreadores de busca de IA (citações)
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: PerplexityBot
User-agent: Perplexity-User
User-agent: Google-Extended
Allow: /
# Rastreador de treinamento - permitindo por enquanto
User-agent: GPTBot
Allow: /
# Regras padrão
User-agent: *
Disallow: /private/
Disallow: /admin/
Sitemap: https://clientsite.com/sitemap.xml
Implementação do llms.txt:
Criada visão estruturada do site do cliente com:
Atualizações no firewall:
Configuração de monitoramento:
Expectativas de cronograma:
Métricas de sucesso:
Obrigado a todos pelos detalhes técnicos e configurações do mundo real.
Get personalized help from our team. We'll respond within 24 hours.
Acompanhe quais bots de IA estão rastreando seu site e como seu conteúdo aparece em respostas geradas por IA. Veja o impacto da sua configuração de rastreadores.
Discussão da comunidade sobre quais rastreadores de IA permitir ou bloquear. Decisões reais de webmasters sobre o acesso do GPTBot, PerplexityBot e outros rastr...
Aprenda como configurar o robots.txt para controlar o acesso de rastreadores de IA incluindo GPTBot, ClaudeBot e Perplexity. Gerencie a visibilidade da sua marc...
Discussão da comunidade sobre permitir ou não o GPTBot e outros rastreadores de IA. Proprietários de sites compartilham experiências, impactos na visibilidade e...
Consentimento de Cookies
Usamos cookies para melhorar sua experiência de navegação e analisar nosso tráfego. See our privacy policy.