Note tecniche sull’implementazione.
Configurazione corretta di robots.txt:
# Regole specifiche per crawler AI
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: anthropic-ai
Allow: /
# Default per altri bot
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /private/
Errori comuni:
- L’ordine conta - Prima le regole specifiche dei wildcard
- Gli errori di battitura sono fatali - GPTBot non GPT-Bot
- I test sono essenziali - Usa il tester robots.txt di Google
Considerazione sul rate limiting:
Alcuni siti limitano aggressivamente i bot. I crawler AI sono impazienti. Se restituisci errori 429, passano oltre e citano i concorrenti.
Controlla i log del server per l’attività dei crawler AI. Assicurati che ricevano risposte 200.
Considerazione Cloudflare:
Se usi Cloudflare con “Bot Fight Mode” attivo, i crawler AI potrebbero essere bloccati a livello di rete, a prescindere dal robots.txt.
Controlla le impostazioni Cloudflare se consenti in robots.txt ma non vedi citazioni.