Su robots.txt e crawler AI:
Best practice attuali:
# Consenti i crawler AI utili
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
# Blocca se necessario
User-agent: SomeOtherBot
Disallow: /
Considerazioni importanti:
- La maggior parte dei principali crawler AI rispetta robots.txt
- Ma robots.txt è solo consultivo, non vincolante
- Alcuni sistemi AI effettuano scraping comunque (usa un WAF per bloccare realmente)
- Da valutare: benefici di visibilità vs. timori sull’uso nei dati di addestramento
La mia raccomandazione:
Per la maggior parte dei siti, consenti i crawler AI. I vantaggi in termini di visibilità superano i timori sull’uso per l’addestramento. Se blocchi, sei invisibile alla ricerca AI.
Eccezione: Se hai contenuti a pagamento o vuoi ricavi da licenza dalle aziende AI, ha senso bloccare. Ma per la maggior parte dei siti di contenuto, l’obiettivo è la visibilità.