Problemi comuni che bloccano i crawler AI:
1. Wildcard robots.txt
User-agent: *
Disallow: /
Questo blocca TUTTI i bot non specificati, inclusi i crawler AI.
Correzione:
User-agent: Googlebot
Allow: /
User-agent: GPTBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: *
Disallow: /
2. Rate Limiting
Limitazioni eccessive possono bloccare gli IP dei crawler.
Verifica se il tuo WAF o CDN sta bloccando.
3. Blocchi IP
Alcuni plugin di sicurezza bloccano IP “sospetti”.
Gli IP dei crawler AI potrebbero essere segnalati.
4. Richiesta di autenticazione
Qualsiasi richiesta di login blocca i crawler.
Assicurati che i contenuti pubblici siano davvero pubblici.
5. Rendering JavaScript
I contenuti visibili solo tramite JS potrebbero non essere accessibili.
I crawler AI potrebbero non eseguire completamente JavaScript.
6. Risposta lenta
Pagine che impiegano più di 5-10 secondi potrebbero andare in timeout.
I crawler potrebbero interrompere la scansione.
Test di ciascuno:
- robots.txt: Controllo diretto via URL
- Rate limiting: Verifica log WAF/CDN
- Blocco IP: Test da IP differenti
- Autenticazione: Navigazione anonima
- JS: Confronta sorgente pagina vs. renderizzata
- Velocità: GTmetrix o simili