Come configurare robots.txt per i crawler AI: guida completa
Scopri come configurare robots.txt per controllare l'accesso dei crawler AI, inclusi GPTBot, ClaudeBot e Perplexity. Gestisci la visibilità del tuo brand nelle ...
Sto cercando di capire la corretta configurazione di robots.txt per i crawler AI e le informazioni online sono contraddittorie.
Alcuni articoli dicono di bloccare tutto per “proteggere i tuoi contenuti”. Altri dicono di consentire tutto per la visibilità AI. La maggior parte nemmeno menziona i nomi specifici dei crawler.
Cosa sto cercando di capire:
Attualmente il nostro robots.txt è un disastro con regole del 2019 che sicuramente non tengono conto di tutto questo.
Qualcuno che l’ha fatto davvero bene - qual è la vostra configurazione?
Gestisco robots.txt per circa 40 siti enterprise. Ecco la suddivisione che conta davvero:
Livello 1 - Da configurare assolutamente:
GPTBot - Crawler di addestramento di OpenAIChatGPT-User - Modalità browsing di ChatGPTClaudeBot - Crawler di AnthropicGoogle-Extended - Addestramento Google GeminiPerplexityBot - Indice di PerplexityLivello 2 - Da considerare:
anthropic-ai - Crawler secondario di AnthropicOAI-SearchBot - Indicizzatore ricerca di OpenAICCBot - Common Crawl (usato da molte aziende AI)Cosa facciamo:
User-agent: GPTBot
Allow: /blog/
Allow: /resources/
Disallow: /pricing/
Disallow: /admin/
User-agent: PerplexityBot
Allow: /
Insight chiave: PerplexityBot è quello che consento sempre completamente perché effettivamente cita le tue pagine con link. Bloccarlo è come spararsi sui piedi senza alcun vantaggio.
Questo è esattamente lo schema che mi serviva. Domanda veloce: bloccare GPTBot rimuove davvero i contenuti da ChatGPT? O sono già nei loro dati di addestramento?
Noi lo abbiamo bloccato 6 mesi fa ma il nostro brand appare ancora nelle risposte di ChatGPT.
Ottima domanda. Bloccare GPTBot influisce solo sulla raccolta di dati futuri per l’addestramento. I contenuti già presenti nel loro set di addestramento (pre-2024 per GPT-4) resteranno lì.
Cosa cambia BLOCCANDO:
Quindi se l’hai bloccato 6 mesi fa, ChatGPT “conosce” ancora ciò che ha imparato prima. Ma non può recuperare contenuti freschi dal tuo sito.
Per questo dico ai clienti: bloccare ora non cancella il passato, limita solo la visibilità futura.
Abbiamo commesso un grosso errore bloccando tutti i crawler AI l’anno scorso, seguendo il consiglio di “protezione dei contenuti”.
Cosa è successo:
Ora abbiamo cambiato rotta e consentiamo tutti i principali crawler AI. L’argomento “protezione” non aveva senso una volta capito che:
L’unica eccezione sono i contenuti davvero proprietari dietro autenticazione - e quelle pagine erano già disallow.
Prospettiva diversa da un settore fortemente regolamentato (tecnologia sanitaria).
Abbiamo motivi legittimi per controllare l’accesso AI a certi contenuti:
Il nostro approccio:
Abbiamo creato un sistema a livelli:
La chiave è essere intenzionali. “Bloccare tutto” e “consentire tutto” sono approcci pigri. Mappa i tuoi contenuti, capisci cosa dovrebbe fare ogni tipo per te, poi configura di conseguenza.
Consiglio utile che mi ci è voluto troppo per capire:
Testa il tuo robots.txt con i veri user-agent dei crawler.
Pensavo di aver configurato tutto correttamente finché, controllando i log del server, ho visto che alcuni crawler AI non corrispondevano alle nostre regole perché avevo fatto errori di battitura nei nomi user-agent.
“GPT-Bot” non è la stessa cosa di “GPTBot” - indovina quale avevo sbagliato per 3 mesi?
Usa il robots.txt tester di Google o strumenti da riga di comando per verificare che ogni regola corrisponda davvero a ciò che ti aspetti.
Ecco la mia raccomandazione standard per la maggior parte delle aziende:
Consenti di default, limita in modo strategico.
Le aziende che beneficiano dal bloccare sono rari casi limite:
Per tutti gli altri il ragionamento è semplice: la visibilità AI è una fonte di traffico in crescita. Solo Perplexity genera oltre 200 milioni di query mensili. Essere invisibili lì è uno svantaggio strategico.
La mia configurazione standard per i clienti:
# Consenti tutti i crawler AI ai contenuti pubblici
User-agent: GPTBot
User-agent: ClaudeBot
User-agent: PerplexityBot
User-agent: Google-Extended
Allow: /
# Limita le aree sensibili
Disallow: /admin/
Disallow: /internal/
Disallow: /api/
Cosa che nessuno menziona: monitorare cosa succede realmente dopo la configurazione.
Ho impostato alert per il traffico dei bot AI nelle nostre analytics. Ho notato schemi interessanti:
Questi dati mi aiutano a capire quali piattaforme AI indicizzano effettivamente i nostri contenuti. Unito a strumenti che tracciano le citazioni AI, posso vedere il quadro completo dal robots.txt > crawling AI > citazioni AI.
Senza questo monitoraggio, si va solo per supposizioni sull’impatto.
Prospettiva da editore. Gestiamo un sito di news/analisi con oltre 10k articoli.
Cosa abbiamo imparato a nostre spese:
Bloccare i crawler AI ci ha danneggiato in modi inaspettati:
L’argomento “protezione” presume che l’AI rubi i tuoi contenuti. In realtà, l’AI cita e porta traffico ai contenuti che può accedere. Bloccare significa solo restare fuori dalla conversazione.
Ora consentiamo tutti i crawler AI e usiamo Am I Cited per monitorare come veniamo citati. Il nostro traffico referral da AI è aumentato del 340% da quando abbiamo cambiato.
Questo thread è stato incredibilmente utile. Riassunto di cosa implementerò grazie ai vostri feedback:
Cambiamenti immediati:
Setup di monitoraggio: 4. Aggiungere il tracciamento dei log server per il traffico dei bot AI 5. Impostare Am I Cited per tracciare le reali citazioni 6. Rivedere tra 30 giorni per vedere l’impatto
L’insight chiave per me è stato che bloccare non protegge i contenuti già usati per l’addestramento - limita solo la visibilità futura. E dato che la ricerca AI cresce rapidamente, la visibilità conta più della “protezione”.
Grazie a tutti per le configurazioni ed esperienze reali.
Get personalized help from our team. We'll respond within 24 hours.
Tieni traccia di quali crawler AI accedono al tuo sito e di come il tuo contenuto appare nelle risposte generate da ChatGPT, Perplexity e Claude.
Scopri come configurare robots.txt per controllare l'accesso dei crawler AI, inclusi GPTBot, ClaudeBot e Perplexity. Gestisci la visibilità del tuo brand nelle ...
Discussione della community sul consentire o meno l’accesso a GPTBot e ad altri crawler AI. I proprietari di siti condividono esperienze, impatti sulla visibili...
Discussione della community su quali crawler AI permettere o bloccare. Decisioni reali dei webmaster su accesso a GPTBot, PerplexityBot e altri crawler AI per v...