Perché alcuni crawler AI ignorano robots.txt: problemi di crawling stealth

Perché alcuni crawler AI ignorano robots.txt: problemi di crawling stealth

Pubblicato il Jan 3, 2026. Ultima modifica il Jan 3, 2026 alle 8:37 am

L’ascesa del crawling stealth nell’AI

Il web crawling si è trasformato radicalmente con l’emergere dei sistemi di intelligenza artificiale. A differenza dei motori di ricerca tradizionali che rispettano i protocolli consolidati, alcune aziende AI hanno adottato il crawling stealth—mascherando deliberatamente l’attività dei loro bot per bypassare le restrizioni dei siti e le direttive di robots.txt. Questa pratica rappresenta una significativa rottura con la relazione collaborativa che ha caratterizzato il web crawling per quasi tre decenni, sollevando interrogativi cruciali su proprietà dei contenuti, etica dei dati e futuro di Internet aperta.

Stealth crawler bypassing robots.txt detection

L’esempio più eclatante riguarda Perplexity AI, un motore di risposta alimentato da AI, che è stato scoperto utilizzare crawler non dichiarati per accedere a contenuti esplicitamente bloccati dai proprietari dei siti. L’indagine di Cloudflare ha rivelato che Perplexity mantiene sia crawler dichiarati (che si identificano onestamente) sia crawler stealth (che impersonano browser web normali) per aggirare i tentativi di blocco. Questa strategia a doppio crawler consente a Perplexity di continuare a raccogliere contenuti anche quando i siti web vietano esplicitamente l’accesso tramite robots.txt e regole di firewall.

Capire robots.txt e i suoi limiti

Il file robots.txt è stato dal 1994 il principale meccanismo di gestione dei crawler su Internet, introdotto come parte del Robots Exclusion Protocol. Questo semplice file di testo, posto nella directory root di un sito, contiene direttive che dicono ai crawler quali parti possono o non possono visitare. Un tipico esempio di robots.txt potrebbe essere:

User-agent: GPTBot
Disallow: /

Questa istruzione comunica al crawler GPTBot di OpenAI di evitare qualsiasi accesso al sito. Tuttavia, robots.txt si basa su un principio fondamentale: è completamente volontario. Le istruzioni nei file robots.txt non possono forzare il comportamento dei crawler; sta al crawler rispettarle. Mentre Googlebot e altri crawler rispettabili obbediscono a queste direttive, il protocollo non ha alcun meccanismo di enforcement. Un crawler può semplicemente ignorare robots.txt, senza alcun modo tecnico per impedirglielo.

CrawlerUser Agent dichiaratoRispetta robots.txtStato compliance
GPTBot (OpenAI)Mozilla/5.0 (compatible; GPTBot/1.0)Conforme
ChatGPT-UserMozilla/5.0 (compatible; ChatGPT-User/1.0)Conforme
ClaudeBot (Anthropic)Mozilla/5.0 (compatible; Claude-Web/1.0)Conforme
Google-ExtendedMozilla/5.0 (compatible; Google-Extended/1.0)Conforme
Perplexity-UserMozilla/5.0 (compatible; Perplexity-User/1.0)NoNon conforme
Crawler stealth non dichiaratoMozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) Chrome/124.0.0.0NoStealth/elusivo

La distinzione tra crawler rispettosi e rogue sta diventando sempre più importante. Aziende AI affidabili come OpenAI e Anthropic pubblicano i propri intervalli IP, mantengono documentazione trasparente e rispettano le preferenze dei proprietari dei siti. Al contrario, i crawler stealth nascondono deliberatamente la propria identità e ignorano le direttive dei siti, trattando robots.txt come un ostacolo da superare piuttosto che come una linea guida da seguire.

Il caso Perplexity: tattiche stealth svelate

L’indagine dettagliata di Cloudflare sul comportamento di crawling di Perplexity fornisce la documentazione più completa sulle tattiche stealth finora. Il team di ricerca ha creato più domini di test con direttive robots.txt esplicite che vietavano qualsiasi accesso automatizzato. Nonostante queste restrizioni chiare, Perplexity ha continuato a fornire informazioni dettagliate sui contenuti dei domini di test quando interrogata tramite la propria interfaccia AI.

L’indagine ha rivelato una sofisticata strategia di crawling a due livelli. Il crawler dichiarato di Perplexity (Perplexity-User) effettua 20-25 milioni di richieste giornaliere e si identifica onestamente. Tuttavia, quando questo crawler incontra un blocco di rete o una restrizione robots.txt, Perplexity schiera un crawler stealth non dichiarato che effettua ulteriori 3-6 milioni di richieste al giorno impersonando un browser Chrome legittimo su macOS. Questa variante stealth utilizza la stringa user agent generica: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36.

Il crawler stealth impiega tecniche di elusione multiple e simultanee. Ruota tra indirizzi IP non inclusi nella documentazione ufficiale di Perplexity, rendendo impossibile ai proprietari dei siti bloccare in base all’infrastruttura nota. Inoltre, cambia i propri Autonomous System Number (ASN)—gli identificatori dei fornitori di rete—per oscurare ulteriormente l’origine. Questa attività è stata osservata su decine di migliaia di domini, generando milioni di richieste ogni giorno.

In netto contrasto, quando Cloudflare ha condotto test identici con ChatGPT, ha riscontrato un comportamento completamente diverso. ChatGPT-User recuperava il file robots.txt, riconosceva la direttiva di disallow e cessava immediatamente i tentativi di crawling. In presenza di un blocco a livello di rete, ChatGPT non effettuava ulteriori tentativi con altri user agent o IP. Ciò dimostra che il comportamento conforme è tecnicamente possibile e che le aziende che scelgono di ignorare robots.txt fanno una scelta di business consapevole, non dettata da limiti tecnici.

Meccanismi tecnici del crawling stealth

I crawler stealth utilizzano un arsenale sofisticato di tecniche per eludere il rilevamento e bypassare le restrizioni dei siti. Comprendere questi meccanismi è essenziale per sviluppare contromisure efficaci:

  • Spoofing dello user agent: i crawler si spacciano per browser legittimi adottando stringhe user agent realistiche che imitano Chrome, Safari o Firefox. Così risultano indistinguibili dai visitatori umani a una prima analisi.

  • Rotazione IP e proxy network: invece di operare da un singolo IP o da un range di data center noto, i crawler stealth distribuiscono le richieste su centinaia o migliaia di indirizzi IP diversi, spesso usando proxy residenziali che passano il traffico attraverso connessioni domestiche reali.

  • Rotazione ASN: cambiando l’Autonomous System Number (identificativo del provider di rete), i crawler sembrano provenire da diversi ISP, rendendo inefficaci i blocchi basati su IP.

  • Simulazione di browser headless: i crawler stealth moderni eseguono veri motori browser (Chrome Headless, Puppeteer, Playwright) che eseguono JavaScript, gestiscono cookie e simulano interazioni realistiche come movimenti del mouse e ritardi casuali.

  • Manipolazione del rate: invece di inviare richieste rapide e sequenziali che attiverebbero i sistemi di rate-limit, i crawler sofisticati inseriscono ritardi variabili tra le richieste, imitando la navigazione umana.

  • Randomizzazione delle impronte digitali: i crawler randomizzano le impronte del browser—caratteristiche come risoluzione schermo, fuso orario, font installati, firme TLS—per evitare il rilevamento dai sistemi di fingerprinting.

Queste tecniche vengono combinate, creando una strategia di elusione multilivello che sconfigge i metodi di rilevamento tradizionali. Un crawler può contemporaneamente usare uno user agent falsificato, instradare tramite proxy residenziale, introdurre ritardi casuali e randomizzare le impronte digitali, risultando virtualmente indistinguibile dal traffico legittimo.

Perché le aziende ignorano robots.txt

La scelta di usare crawler stealth è guidata fondamentalmente dalla fame di dati. L’addestramento di modelli linguistici di ultima generazione richiede enormi quantità di dati testuali di alta qualità. I contenuti più preziosi—ricerche proprietarie, articoli a pagamento, discussioni esclusive, knowledge base specializzate—sono spesso esplicitamente limitati dai proprietari dei siti. Le aziende devono scegliere: rispettare le preferenze dei siti e accontentarsi di dati di qualità inferiore, oppure bypassare le restrizioni per accedere a contenuti premium.

La pressione competitiva è altissima. Le aziende AI che investono miliardi nello sviluppo dei modelli credono che dati migliori portino a modelli migliori e quindi a un vantaggio di mercato. Se i concorrenti sono disposti a fare scraping di contenuti protetti, rispettare robots.txt diventa uno svantaggio competitivo. Si crea così una dinamica al ribasso dove il comportamento etico viene penalizzato dal mercato.

Inoltre, i meccanismi di enforcement sono praticamente inesistenti. I proprietari dei siti non possono tecnicamente impedire a un crawler determinato di accedere ai loro contenuti. I rimedi legali sono lenti, costosi e incerti. A meno che un sito non intraprenda azioni legali formali—che richiedono risorse che la maggior parte delle organizzazioni non ha—un crawler rogue non affronta conseguenze immediate. Il calcolo rischio-beneficio è tutto a favore dell’ignorare robots.txt.

Anche il quadro legale rimane incerto. Sebbene la violazione di robots.txt possa infrangere i termini di servizio, lo scraping di dati pubblici è variabile a seconda delle giurisdizioni. Alcuni tribunali hanno stabilito che lo scraping di dati pubblici è legale, altri lo hanno considerato una violazione del Computer Fraud and Abuse Act. Questa incertezza incoraggia le aziende che vogliono operare nell’area grigia.

L’impatto su creatori e editori di contenuti

Le conseguenze del crawling stealth vanno ben oltre il fastidio tecnico. Reddit ha scoperto che i suoi contenuti generati dagli utenti venivano usati per addestrare modelli AI senza permesso né compenso. In risposta, la piattaforma ha aumentato drasticamente i prezzi delle API proprio per far pagare le aziende AI per l’accesso ai dati, con il CEO Steve Huffman che ha esplicitamente chiamato in causa Microsoft, OpenAI, Anthropic e Perplexity per “aver usato i dati di Reddit gratuitamente”.

Twitter/X ha adottato una posizione ancora più dura, bloccando temporaneamente l’accesso non autenticato ai tweet e imponendo limiti severi agli utenti autenticati. Elon Musk ha dichiarato che si trattava di una misura d’emergenza per fermare “centinaia di organizzazioni” dallo scraping dei dati Twitter, che degradava l’esperienza utente e consumava enormi risorse server.

Gli editori di notizie sono stati particolarmente vocali contro la minaccia. The New York Times, CNN, Reuters e The Guardian hanno aggiornato i loro robots.txt per bloccare GPTBot di OpenAI. Alcuni editori hanno avviato azioni legali, come il New York Times che ha intentato causa per violazione di copyright contro OpenAI. L’Associated Press ha invece negoziato una licenza con OpenAI per fornire contenuti selezionati in cambio dell’accesso alla tecnologia di OpenAI—uno dei primi accordi commerciali di questo tipo.

Stack Overflow ha subito operazioni di scraping coordinate in cui attaccanti creavano migliaia di account e usavano tecniche sofisticate per mimetizzarsi da utenti legittimi mentre raccoglievano esempi di codice. Il team di ingegneri ha documentato come gli scraper usino impronte TLS identiche su molte connessioni, mantengano sessioni persistenti e addirittura paghino account premium per evitare il rilevamento.

Il filo conduttore di questi casi è la perdita di controllo. I creatori di contenuti non possono più decidere come viene usato il proprio lavoro, chi ne trae beneficio o se ricevono compensi. Questo rappresenta un cambiamento fondamentale nei rapporti di potere su Internet.

Soluzioni di rilevamento e enforcement

Fortunatamente, stanno emergendo strumenti sofisticati per rilevare e bloccare i crawler stealth. AI Crawl Control di Cloudflare (ex AI Audit) offre visibilità su quali servizi AI accedono ai tuoi contenuti e se rispettano le tue direttive robots.txt. La nuova funzione Robotcop della piattaforma va oltre, traducendo automaticamente le direttive robots.txt in regole WAF che impongono la compliance a livello di rete.

Multi-layered defense mechanisms against stealth crawlers

Il device fingerprinting è una tecnica potente di rilevamento. Analizzando decine di segnali—versione del browser, risoluzione schermo, sistema operativo, font installati, firme TLS, pattern comportamentali—i sistemi di sicurezza possono individuare incongruenze che rivelano l’attività di bot. Un crawler che si spaccia per Chrome su macOS potrebbe avere una firma TLS che non corrisponde ai veri browser Chrome, o potrebbe non esporre certe API come i browser reali.

L’analisi comportamentale esamina come i visitatori interagiscono col sito. Gli utenti reali mostrano pattern naturali: leggono il contenuto, navigano logicamente tra le pagine, commettono errori e li correggono. I bot spesso manifestano pattern sospetti: accedono alle pagine in sequenze innaturali, caricano risorse in ordine anomalo, non interagiscono mai con elementi interattivi o accedono alle pagine a velocità impossibili.

Il rate limiting resta efficace se combinato con altre tecniche. Imporre limiti rigidi di richieste per IP, sessione o account rallenta gli scraper fino a rendere l’operazione antieconomica. L’exponential backoff—dove ogni violazione aumenta il tempo di attesa—scoraggia ulteriormente gli attacchi automatizzati.

AmICited: monitoraggio dei crawler AI

AmICited colma un gap critico nell’attuale scenario: visibilità su quali sistemi AI citano effettivamente il tuo brand e i tuoi contenuti. Se strumenti come AI Crawl Control di Cloudflare mostrano quali crawler accedono al tuo sito, AmICited va oltre tracciando quali sistemi AI—ChatGPT, Perplexity, Google Gemini, Claude e altri—stanno effettivamente referenziando i tuoi contenuti nelle loro risposte.

Questa distinzione è cruciale. Il fatto che un crawler acceda al tuo sito non implica che i tuoi contenuti verranno citati. Al contrario, i tuoi contenuti potrebbero essere citati da sistemi AI che li hanno acquisiti tramite mezzi indiretti (come i dataset di Common Crawl) invece che tramite crawling diretto. AmICited fornisce il tassello mancante: la prova che i tuoi contenuti vengono usati dai sistemi AI, insieme a dettagli su come vengono referenziati.

La piattaforma identifica i crawler stealth che accedono ai tuoi contenuti analizzando pattern di traffico, user agent e segnali comportamentali. Quando AmICited rileva attività sospetta—soprattutto da crawler non dichiarati con user agent falsificati—li segnala come tentativi potenziali di crawling stealth. Questo permette ai proprietari dei siti di agire contro i crawler non conformi mantenendo al contempo la visibilità sugli accessi AI legittimi.

Avvisi in tempo reale ti segnalano la presenza di crawler stealth, consentendo una risposta rapida. L’integrazione con i flussi SEO e di sicurezza esistenti ti permette di includere i dati AmICited nella tua strategia di contenuti e sicurezza. Per le organizzazioni preoccupate dell’uso dei propri contenuti nell’era AI, AmICited offre un’intelligence essenziale.

Best practice per la protezione

Proteggere i tuoi contenuti dai crawler stealth richiede un approccio multilivello:

Implementa direttive robots.txt chiare: anche se i crawler stealth potrebbero ignorare robots.txt, quelli conformi lo rispetteranno. Escludi esplicitamente i crawler che non vuoi accedano ai tuoi contenuti. Includi direttive per i noti crawler AI come GPTBot, ClaudeBot e Google-Extended.

Applica regole WAF: usa regole Web Application Firewall per far rispettare le tue direttive robots.txt a livello di rete. Strumenti come Robotcop di Cloudflare possono generare automaticamente queste regole dal tuo file robots.txt.

Monitora regolarmente il comportamento dei crawler: utilizza strumenti come AmICited e AI Crawl Control di Cloudflare per tracciare quali crawler accedono al tuo sito e se rispettano le tue direttive. Il monitoraggio regolare ti aiuta a individuare rapidamente i crawler stealth.

Implementa il device fingerprinting: adotta soluzioni di fingerprinting che analizzano le caratteristiche del browser e i pattern comportamentali per individuare i bot che si spacciano per utenti legittimi.

Valuta l’autenticazione per i contenuti sensibili: per i tuoi contenuti più preziosi, valuta l’autenticazione o i paywall. Questo impedisce sia ai crawler legittimi sia a quelli stealth di accedere ai materiali protetti.

Rimani aggiornato sulle tattiche dei crawler: il panorama delle tecniche di elusione evolve costantemente. Segui bollettini di sicurezza, ricerche di settore e aggiorna le difese man mano che emergono nuove tattiche.

Il futuro della compliance dei crawler

La situazione attuale—con alcune aziende AI che ignorano apertamente robots.txt e altre che lo rispettano—non è sostenibile. Stanno già emergendo risposte dall’industria e dai regolatori. L’Internet Engineering Task Force (IETF) sta lavorando a estensioni della specifica robots.txt che permetteranno un controllo più granulare su training AI e uso dei dati. Queste estensioni consentiranno ai proprietari dei siti di specificare policy diverse per motori di ricerca, training AI e altri casi d’uso.

Web Bot Auth, un nuovo standard aperto proposto, permette ai crawler di firmare crittograficamente le richieste, dimostrando identità e legittimità. L’Agent di ChatGPT di OpenAI sta già implementando questo standard, dimostrando che l’identificazione trasparente e verificabile dei crawler è tecnicamente possibile.

Anche i cambiamenti regolatori sono probabili. L’approccio dell’Unione Europea alla regolamentazione AI, insieme alla crescente pressione di creatori e editori, suggerisce che in futuro potrebbero essere imposti obblighi legali per la compliance dei crawler. Le aziende che ignorano robots.txt potrebbero affrontare sanzioni regolatorie, non solo danni reputazionali.

Il settore si sta spostando verso un modello in cui trasparenza e compliance diventano vantaggi competitivi invece che passività. Le aziende che rispettano le preferenze dei proprietari dei siti, identificano chiaramente i propri crawler e offrono valore ai creatori di contenuti costruiranno fiducia e relazioni sostenibili. Chi si basa su tattiche stealth affronta rischi tecnici, legali e reputazionali crescenti.

Per i proprietari di siti web, il messaggio è chiaro: monitoraggio e enforcement proattivi sono essenziali. Implementando gli strumenti e le pratiche sopra descritte, puoi mantenere il controllo sull’uso dei tuoi contenuti nell’era dell’AI, sostenendo al contempo lo sviluppo di sistemi AI responsabili che rispettino i principi fondanti di Internet aperta.

Domande frequenti

Che cos'è un crawler stealth e in cosa si differenzia dai crawler regolari?

Un crawler stealth maschera deliberatamente la propria identità impersonando browser web legittimi e nascondendo la sua vera origine. A differenza dei crawler regolari che si identificano con user agent unici e rispettano le direttive di robots.txt, i crawler stealth utilizzano user agent falsificati, ruotano gli indirizzi IP e adottano tecniche di elusione per bypassare le restrizioni dei siti web e accedere a contenuti a cui è stato esplicitamente vietato l’accesso.

Perché alcune aziende AI ignorano le direttive di robots.txt?

Le aziende AI ignorano robots.txt principalmente per la fame di dati necessari all’addestramento di grandi modelli linguistici. I contenuti più preziosi sono spesso limitati dai proprietari dei siti, creando un incentivo competitivo a bypassare le restrizioni. Inoltre, i meccanismi di enforcement sono praticamente inesistenti: i proprietari dei siti non possono tecnicamente impedire ai crawler determinati e i rimedi legali sono lenti e costosi, rendendo il calcolo rischio-beneficio favorevole all’ignorare robots.txt.

Posso impedire completamente ai crawler stealth di accedere ai miei contenuti?

Sebbene non sia possibile impedire completamente a tutti i crawler stealth, puoi ridurre significativamente l’accesso non autorizzato attraverso difese multilivello. Implementa direttive robots.txt chiare, usa regole WAF, fingerprinting dei dispositivi, monitora il comportamento dei crawler con strumenti come AmICited e valuta l’autenticazione per i contenuti sensibili. La chiave è combinare più tecniche invece di affidarsi a una sola soluzione.

Cos’è lo user agent spoofing e come viene usato dai crawler?

Lo user agent spoofing avviene quando un crawler si spaccia per un browser web legittimo adottando una stringa user agent realistica (come Chrome o Safari). In questo modo il crawler appare come un visitatore umano piuttosto che un bot. I crawler stealth usano questa tecnica per bypassare i blocchi basati sugli user agent e per evitare il rilevamento da parte di sistemi di sicurezza che cercano identificatori specifici dei bot.

Come posso rilevare se i crawler stealth stanno accedendo al mio sito?

Puoi rilevare i crawler stealth analizzando i pattern di traffico alla ricerca di comportamenti sospetti: richieste da IP insoliti, sequenze di navigazione impossibili, assenza di pattern di interazione umana o richieste che non corrispondono alle impronte digitali dei browser legittimi. Strumenti come AmICited, AI Crawl Control di Cloudflare e soluzioni di device fingerprinting possono automatizzare questo rilevamento analizzando decine di segnali contemporaneamente.

Quali sono le implicazioni legali dell’elusione dei crawler?

Lo status legale dell’elusione dei crawler varia a seconda della giurisdizione. Sebbene le violazioni di robots.txt possano infrangere i termini di servizio, lo scraping di informazioni pubblicamente disponibili resta giuridicamente ambiguo. Alcuni tribunali hanno stabilito che lo scraping è legale, mentre altri lo hanno ritenuto una violazione del Computer Fraud and Abuse Act. Questa incertezza legale ha incoraggiato le aziende disposte a operare nell’area grigia, anche se stanno emergendo novità regolatorie.

Come aiuta AmICited a monitorare il comportamento dei crawler AI?

AmICited offre visibilità su quali sistemi AI citano effettivamente il tuo brand e i tuoi contenuti, andando oltre la semplice tracciatura dei crawler che accedono al tuo sito. La piattaforma identifica i crawler stealth analizzando i pattern di traffico e i segnali comportamentali, invia avvisi in tempo reale in caso di attività sospetta e si integra con i flussi di lavoro SEO e di sicurezza esistenti per aiutarti a mantenere il controllo sull’uso dei tuoi contenuti.

Qual è la differenza tra crawler dichiarati e non dichiarati?

I crawler dichiarati si identificano apertamente con stringhe user agent uniche, pubblicano i loro intervalli IP e in genere rispettano le direttive di robots.txt. Esempi sono GPTBot di OpenAI e ClaudeBot di Anthropic. I crawler non dichiarati nascondono la loro identità impersonando i browser, usano user agent falsificati e ignorano deliberatamente le restrizioni dei siti. Il crawler stealth di Perplexity è un esempio noto di crawler non dichiarato.

Riprendi il controllo dei tuoi contenuti nell'era dell'AI

Scopri quali sistemi AI citano il tuo brand e rileva i crawler stealth che accedono ai tuoi contenuti con la piattaforma di monitoraggio avanzata di AmICited.

Scopri di più

Cloudflare e bot AI: Gestire l’accesso all’edge
Cloudflare e bot AI: Gestire l’accesso all’edge

Cloudflare e bot AI: Gestire l’accesso all’edge

Scopri come il controllo dei crawler AI di Cloudflare, basato sull’edge, ti aiuta a monitorare, controllare e monetizzare l’accesso dei crawler AI ai tuoi conte...

12 min di lettura
Regole WAF per crawler AI: oltre robots.txt
Regole WAF per crawler AI: oltre robots.txt

Regole WAF per crawler AI: oltre robots.txt

Scopri come i Web Application Firewall offrono un controllo avanzato sui crawler AI oltre robots.txt. Implementa regole WAF per proteggere i tuoi contenuti dall...

10 min di lettura