Problèmes courants qui bloquent les crawlers IA :
1. Wildcards dans robots.txt
User-agent: *
Disallow: /
Cela bloque TOUS les bots non spécifiés, y compris les crawlers IA.
Correction :
User-agent: Googlebot
Allow: /
User-agent: GPTBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: *
Disallow: /
2. Limitation de débit
Une limitation agressive peut bloquer les IPs des crawlers.
Vérifiez si votre WAF ou CDN bloque.
3. Listes de blocage IP
Certains plugins de sécurité bloquent les IPs “suspectes”.
Les IPs des crawlers IA peuvent être signalées.
4. Authentification requise
Toute exigence de connexion bloque les crawlers.
Assurez-vous que le contenu public est vraiment public.
5. Rendu JavaScript
Le contenu rendu uniquement via JS peut ne pas être visible.
Les crawlers IA n’exécutent pas toujours le JS complètement.
6. Réponse lente
Des pages qui prennent plus de 5-10 secondes peuvent entraîner un timeout.
Les crawlers peuvent abandonner.
Tester chaque point :
- robots.txt : vérification directe par URL
- Limitation de débit : vérifiez les logs WAF/CDN
- Blocage IP : testez depuis différentes IPs
- Auth : essayez une navigation anonyme
- JS : comparez la source de la page et le rendu
- Vitesse : GTmetrix ou équivalent