Notes techniques sur l’implémentation.
Bonne configuration robots.txt :
# Règles spécifiques pour crawlers IA
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: anthropic-ai
Allow: /
# Par défaut pour les autres bots
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /private/
Erreurs fréquentes :
- L’ordre compte - Règles spécifiques avant les génériques
- Les fautes de frappe vous tuent - GPTBot et non GPT-Bot
- Testez absolument - Utilisez le testeur robots.txt de Google
Considération de limitation de débit :
Certains sites limitent très fortement les bots. Les crawlers IA sont impatients. Si vous retournez des erreurs 429, ils passent à un autre site et citent les concurrents.
Vérifiez vos logs serveur pour l’activité des crawlers IA. Assurez-vous qu’ils obtiennent des réponses 200.
À propos de Cloudflare :
Si vous utilisez Cloudflare avec “Bot Fight Mode” activé, les crawlers IA peuvent être bloqués au niveau réseau, même si robots.txt les autorise.
Vérifiez les réglages Cloudflare si vous autorisez dans robots.txt mais ne voyez pas de citations.