Je vais vous aider à déboguer systématiquement.
Étape 1 : Analyse des logs
Vérifiez vos logs serveur pour les visites des crawlers IA sur les pages « invisibles » :
# Vérifier si GPTBot visite des pages spécifiques
grep "GPTBot" access.log | grep "/invisible-page-path/"
Si aucun crawler ne visite : Ils ne découvrent pas ces pages.
S’il y a des visites mais pas de citations : Problème de qualité de contenu, pas d’accès.
Étape 2 : Test d’accès direct
Testez ce que voient les crawlers en accédant à la page :
curl -A "GPTBot" -s https://votresite.com/page-path/ | head -200
Vérifiez :
- Le contenu complet apparaît dans le HTML
- Pas de redirection vers un login/paywall
- Pas de message “bot détecté”
- Le contenu clé n’est pas uniquement en JavaScript
Étape 3 : Test de rendu
Les crawlers IA varient dans leur capacité à exécuter du JS. Testez avec JS désactivé :
- Ouvrez la page dans un navigateur
- Désactivez JavaScript (Outils de développement)
- Le contenu principal apparaît-il toujours ?
Si le contenu disparaît sans JS, c’est la source du problème.
Étape 4 : Vérification du rate limiting
Limitez-vous agressivement les bots ?
Vérifiez si votre WAF ou CDN bloque après X requêtes.
Les crawlers IA peuvent être bloqués en cours de crawl.
Problèmes les plus courants que je rencontre :
- Pages non liées en interne (orphelines)
- Contenu rendu en JavaScript
- Protection anti-bot agressive
- Pages absentes du sitemap