Discussion Technical SEO Debugging

I bot AI visitano il nostro sito ma non veniamo citati. Come posso diagnosticare problemi di crawling?

WE
WebDev_Marcus · Senior Web Developer
· · 68 upvotes · 9 comments
WM
WebDev_Marcus
Senior Web Developer · 2 gennaio 2026

Situazione confusa:

I log del nostro server mostrano accessi regolari da parte di GPTBot, PerplexityBot e ClaudeBot. Ottengono risposte 200. Quindi stanno sicuramente effettuando il crawling dei nostri contenuti.

Ma quando chiedo a ChatGPT, Perplexity o Claude domande che i nostri contenuti coprono perfettamente, non veniamo mai citati. I concorrenti con contenuti oggettivamente peggiori vengono invece citati.

Cosa ho verificato:

  • robots.txt permette tutti i crawler AI
  • Le pagine restituiscono stato 200
  • Il contenuto è renderizzato lato server (niente solo JS lato client)
  • Le pagine sono veloci (<2s di caricamento)

Cosa sto cercando di capire:

  • Come posso vedere cosa vedono davvero i crawler?
  • Cosa può causare successo nel crawling ma fallimento nella citazione?
  • Ci sono problemi tecnici nascosti che mi sfuggono?

Mi sta facendo impazzire. I crawler visitano, ma siamo invisibili nelle risposte AI.

9 comments

9 Commenti

CE
CrawlerDebug_Expert Expert Technical SEO Consultant · 2 gennaio 2026

Lascia che ti aiuti a diagnosticare. Crawling ≠ citazione. Ecco un framework di diagnosi:

Passo 1: Verifica cosa vedono effettivamente i crawler

Usa curl con lo user-agent AI:

curl -A "GPTBot" -s https://yoursite.com/page | head -100

Controlla:

  • Il contenuto completo appare?
  • Ci sono meta robots o header X-Robots-Tag?
  • Il contenuto è nell’HTML, senza bisogno di esecuzione JS?

Passo 2: Controlla per blocchi nascosti

Problemi comuni:

  • Tag meta noindex (blocca l’indicizzazione)
  • Header X-Robots-Tag: noindex
  • Canonical che punta altrove
  • Contenuto caricato via JavaScript dopo il caricamento della pagina
  • Rilevamento login/paywall che mostra contenuti diversi ai bot

Passo 3: Controllo qualità contenuto

Se il crawling va bene, il problema è il contenuto:

  • È veramente unico, o una variante di contenuti comuni?
  • È strutturato per l’estrazione AI?
  • Ha segnali di autorevolezza (autore, citazioni)?
  • È abbastanza completo da essere LA fonte?

Il problema più comune che vedo:

Il crawling tecnico funziona. Il contenuto semplicemente non merita la citazione. I crawler visitano, ma i sistemi AI scelgono fonti migliori.

Il divario tra “accessibile” e “citatile” riguarda la qualità e la struttura del contenuto, non solo l’accesso tecnico.

WM
WebDev_Marcus OP · 2 gennaio 2026
Replying to CrawlerDebug_Expert
Il test curl è utile. L’ho eseguito e il contenuto appare. Nessun tag noindex. Ma hai ragione: forse il problema non è tecnico. Come si valuta se un contenuto è “degno di citazione”?
CE
CrawlerDebug_Expert Expert · 2 gennaio 2026
Replying to WebDev_Marcus

Checklist per la citabilità:

1. Unicità

  • Il tuo contenuto dice qualcosa che i concorrenti non dicono?
  • Dati originali, ricerche o insight?
  • O solo una riformulazione di informazioni comuni?

2. Struttura

  • L’AI può estrarre una risposta chiara dal tuo contenuto?
  • C’è un TL;DR o una risposta diretta?
  • Le sezioni sono chiaramente delineate?

3. Autorevolezza

  • Autore con credenziali?
  • Citazioni a fonti?
  • Contenuto aggiornato/fresco?

4. Completezza

  • Risponde completamente alla domanda?
  • Oppure l’AI deve combinare con altre fonti?

La dura verità:

La maggior parte dei contenuti online è mediocre. L’AI ha milioni di opzioni da citare. Sceglie le migliori.

Se il tuo contenuto è:

  • Simile a 100 altri siti
  • Strutturato come una narrazione, non una risposta
  • Nessun segnale chiaro di autorevolezza
  • Non la fonte più completa

…allora non verrà citato, a prescindere dall’accesso tecnico.

Confronta il tuo contenuto con quello CHE viene citato. Cosa hanno loro che tu non hai?

LP
LogAnalysis_Pro DevOps Engineer · 1 gennaio 2026

Ecco come analizzo il comportamento dei crawler AI nei log:

Analisi log per crawler AI:

# Trova tutti gli accessi dei crawler AI
grep -E "(GPTBot|ChatGPT-User|ClaudeBot|PerplexityBot|Google-Extended)" access.log

# Controlla i codici di stato
grep "GPTBot" access.log | awk '{print $9}' | sort | uniq -c

# Vedi quali pagine vengono visitate di più
grep "GPTBot" access.log | awk '{print $7}' | sort | uniq -c | sort -rn

Cosa cercare:

  1. Codici di stato

    • 200: Bene, hanno ottenuto il contenuto
    • 301/302: Redirect - verifica che arrivino su pagine utili
    • 403/404: Problemi - da correggere subito
    • 500: Errori server - indaga
  2. Pattern di crawling

    • Quali pagine vengono più spesso visitate?
    • Le tue migliori pagine vengono visitate?
    • Alcune pagine mai visitate?
  3. Frequenza di crawling

    • GPTBot: Di solito più volte al giorno
    • PerplexityBot: Molto frequente (ricerca in tempo reale)
    • Se nessun accesso da settimane, controlla robots.txt

Problemi comuni nei log:

  • CDN che nascondono i veri user agent
  • Load balancer che elimina header
  • Rotazione log che fa perdere accessi dei crawler

Assicurati di vedere i log grezzi, non filtrati.

CS
ContentQuality_Sarah · 1 gennaio 2026

Dato che hai verificato l’accesso tecnico, ti rispondo dal lato contenuti:

Perché l’AI può fare crawling ma non citare:

  1. Contenuto generico “5 consigli per migliorare l’email marketing” – ce ne sono 10.000. L’AI cita il migliore, non tutti.

  2. Nessuna risposta estraibile Contenuti narrativi senza punti chiari sono difficili da quotare per l’AI.

  3. Informazioni obsolete Se il tuo contenuto parla di “trend 2023”, l’AI potrebbe preferire fonti più attuali.

  4. Segnali di autorevolezza deboli Nessun autore, nessuna fonte citata, nessuna credenziale in evidenza.

  5. Struttura scadente L’AI ha bisogno di sezioni chiare da analizzare. Testo fluido è più difficile da estrarre.

Test diagnostico:

Chiediti: Se fossi un’AI e dovessi citare UNA fonte su questo argomento, sceglierei il mio contenuto o quello di un concorrente?

Sii onesto. Cosa ha il concorrente che tu non hai?

Di solito è:

  • Copertura più completa
  • Struttura migliore per l’estrazione
  • Segnali di autorevolezza più forti
  • Informazioni più attuali

Migliora questi aspetti, e le citazioni arriveranno.

JD
JSRendering_Dev · 1 gennaio 2026

Approfondimento tecnico sul rendering JavaScript:

Anche se il tuo contenuto principale è server-side, verifica:

1. Sezioni di contenuto caricate in lazy Contenuto importante sotto la piega potrebbe essere caricato dopo il rendering iniziale.

// Questo contenuto potrebbe non apparire ai crawler
<div data-lazy="true">Contenuto importante qui</div>

2. Elementi interattivi che nascondono contenuto Tab, accordion, sezioni espandibili potrebbero avere contenuti che l’AI non può accedere.

3. Dati strutturati generati via JavaScript Se il tuo schema è inserito tramite JS, i crawler potrebbero non vederlo.

Strumento di test:

Il Test di compatibilità mobile di Google mostra l’HTML renderizzato: https://search.google.com/test/mobile-friendly

Confronta ciò che vedi lì con la tua pagina reale. Eventuali differenze potrebbero spiegare problemi di visibilità.

Correzione rapida:

Visualizza la tua pagina con JavaScript disabilitato. Tutto ciò che è visibile in quel modo è sicuramente visto dai crawler. Se manca contenuto chiave, ecco il problema.

ST
SchemaDebug_Tom · 31 dicembre 2025

Problemi di schema che impediscono le citazioni:

Anche se il contenuto è visibile, uno schema errato può danneggiarti:

  1. Markup schema non valido Usa il Test dei risultati avanzati di Google per la validazione. Schema non valido potrebbe essere ignorato del tutto.

  2. Schema mancante Nessun schema Organization, Article o FAQ significa che l’AI deve indovinare il tipo di contenuto.

  3. Schema in conflitto Più schemi Organization con info diverse. L’AI non sa quale fidarsi.

Come testare:

# Recupera e controlla la presenza di schema
curl -s https://yoursite.com | grep -o 'application/ld+json' | wc -l

Poi valida ogni blocco di schema qui: https://validator.schema.org/

Errori comuni di schema:

  • Manca @context
  • @type errato
  • Formati data non validi
  • Campi URL senza http/https
  • Proprietà obbligatorie mancanti

Correggi gli errori di schema. I sistemi AI analizzano lo schema per capire il contenuto. Schema non valido = contenuto poco chiaro.

WM
WebDev_Marcus OP Senior Web Developer · 30 dicembre 2025

Questo thread mi ha fatto capire: il nostro problema non è tecnico.

Cosa ho testato:

  • curl con user-agent AI: il contenuto viene visualizzato correttamente
  • Nessun tag noindex da nessuna parte
  • Lo schema valida correttamente
  • JavaScript non nasconde contenuti chiave
  • I log mostrano visite regolari dei crawler con 200

Cosa ho trovato confrontando con i concorrenti che vengono citati:

I loro contenuti hanno:

  • Risposta diretta nel primo paragrafo (noi nascondiamo la risposta)
  • Sezioni FAQ con schema (noi non abbiamo nessuna delle due)
  • Biografie autore con credenziali (le nostre sono generiche)
  • Tabelle di confronto (noi usiamo paragrafi narrativi)
  • Date aggiornate (le nostre non sono state toccate da 18 mesi)

Il mio piano d’azione:

  1. Smettere di diagnosticare problemi tecnici (non sono questi il problema)
  2. Concentrarmi su qualità e struttura dei contenuti
  3. Aggiungere sezioni FAQ con schema
  4. Ristrutturare per risposte dirette
  5. Aggiungere credenziali autore
  6. Aggiornare i contenuti vecchi

Insight chiave:

Crawling funzionante + nessuna citazione = problema di qualità/struttura dei contenuti, non problema tecnico.

Stavo diagnosticando il livello sbagliato. Grazie a tutti!

Have a Question About This Topic?

Get personalized help from our team. We'll respond within 24 hours.

Frequently Asked Questions

Come faccio a sapere se i crawler AI stanno accedendo al mio sito?
Controlla i log del server per user agent dei crawler AI: GPTBot, ChatGPT-User, ClaudeBot, PerplexityBot, Google-Extended. Cerca codici di stato 200 che confermino l’accesso riuscito. La maggior parte dei crawler AI accede frequentemente: se non li vedi, verifica che il tuo robots.txt non li stia bloccando.
Perché i crawler AI potrebbero accedere ai miei contenuti ma non citarli?
Motivi comuni: il contenuto è troppo scarno o generico per meritare una citazione, la struttura del contenuto rende difficile l’estrazione, mancano segnali di autorevolezza, il contenuto è obsoleto o esistono fonti migliori sull’argomento. Il crawling è solo accesso: la citazione richiede che l’AI ritenga il contenuto abbastanza prezioso da essere referenziato.
Come posso testare cosa vedono effettivamente i crawler AI sulle mie pagine?
Usa curl con gli header user-agent dei crawler AI per recuperare le tue pagine. Controlla se il contenuto generato da JavaScript appare. Visualizza il sorgente pagina rispetto alla pagina renderizzata per vedere cosa ricevono i crawler. Verifica che i contenuti chiave non siano in sezioni caricate in modo lazy o dietro JavaScript che i crawler non possono eseguire.

Monitora l'attività dei crawler AI

Traccia quali crawler AI accedono al tuo sito e come i tuoi contenuti appaiono nelle risposte AI.

Scopri di più