Voici ma recommandation standard pour la plupart des entreprises :
Autoriser par défaut, restreindre de façon stratégique.
Les entreprises qui bénéficient du blocage sont rares :
- Éditeurs de contenu premium inquiets du résumé automatique
- Entreprises avec du contenu technique vraiment propriétaire
- Organisations en litige juridique sur l’entraînement IA
Pour tous les autres, c’est simple : la visibilité IA est une source de trafic en pleine croissance. Perplexity à lui seul génère plus de 200M de requêtes mensuelles. Être invisible ici est un désavantage stratégique.
Ma config standard pour les clients :
# Autoriser tous les crawleurs IA sur le contenu public
User-agent: GPTBot
User-agent: ClaudeBot
User-agent: PerplexityBot
User-agent: Google-Extended
Allow: /
# Restreindre les zones sensibles
Disallow: /admin/
Disallow: /internal/
Disallow: /api/