À propos du robots.txt et des robots IA :
Bonnes pratiques actuelles :
# Autoriser les robots IA utiles
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
# Bloquer si besoin
User-agent: SomeOtherBot
Disallow: /
Points importants :
- La plupart des principaux robots IA respectent le robots.txt
- Mais le robots.txt est indicatif, pas opposable
- Certains systèmes IA aspirent le contenu quoi qu’il arrive (utiliser un WAF pour bloquer réellement)
- À considérer : bénéfices de visibilité vs. crainte sur l’utilisation des données pour l’entraînement
Ma recommandation :
Pour la majorité des sites, autorisez les robots IA. Les bénéfices de visibilité surpassent les inquiétudes sur l’utilisation en entraînement. Si vous bloquez, vous êtes invisible pour la recherche IA.
Exception : Si vous avez du contenu payant ou souhaitez monétiser via les IA, le blocage se justifie. Mais pour la plupart des sites de contenu, la visibilité reste la priorité.