Ti aiuto a fare debug in modo sistematico.
Step 1: Analisi dei log
Controlla i log del server per le visite dei crawler AI alle pagine “invisibili”:
# Controlla se GPTBot visita pagine specifiche
grep "GPTBot" access.log | grep "/invisible-page-path/"
Se non ci sono visite: non stanno scoprendo queste pagine.
Se ci sono visite ma nessuna citazione: problema di qualità del contenuto, non di accesso.
Step 2: Test di accesso diretto
Verifica cosa vedono i crawler quando accedono alla pagina:
curl -A "GPTBot" -s https://yoursite.com/page-path/ | head -200
Controlla:
- Il contenuto completo appare nell’HTML
- Nessun redirect a login/paywall
- Nessun messaggio “bot rilevato”
- I contenuti chiave non sono solo in JavaScript
Step 3: Test di rendering
I crawler AI variano nella capacità di eseguire JS. Prova con JS disabilitato:
- Apri la pagina nel browser
- Disabilita JavaScript (Strumenti per sviluppatori)
- Il contenuto principale appare ancora?
Se il contenuto sparisce senza JS, hai trovato il problema.
Step 4: Controllo rate limiting
Applichi limitazioni di frequenza troppo aggressive ai bot?
Verifica se WAF o CDN bloccano dopo X richieste.
I crawler AI potrebbero essere bloccati a metà scansione.
Problemi più comuni che trovo:
- Pagine non collegate internamente (orfane)
- Contenuto reso tramite JavaScript
- Protezione bot troppo aggressiva
- Pagine non presenti nella sitemap