Laat me je helpen systematisch te debuggen.
Stap 1: Loganalyse
Check je serverlogs op bezoeken van AI-crawlers naar de “onzichtbare” pagina’s:
# Controleer of GPTBot specifieke pagina's bezoekt
grep "GPTBot" access.log | grep "/onzichtbare-pagina-pad/"
Als er geen crawlerbezoeken zijn: ze ontdekken deze pagina’s niet.
Als er wel bezoeken zijn maar geen citaties: contentkwaliteit, geen toegang.
Stap 2: Directe toegangstest
Test wat crawlers zien als ze de pagina bezoeken:
curl -A "GPTBot" -s https://jouwsite.com/pagina-pad/ | head -200
Check:
- Volledige content verschijnt in HTML
- Geen redirect naar login/betaalmuur
- Geen “bot gedetecteerd” melding
- Belangrijke content zit niet in JavaScript
Stap 3: Renderingtest
AI-crawlers verschillen in JS-rendering. Test met JS uitgeschakeld:
- Open pagina in browser
- Zet JavaScript uit (Developer Tools)
- Verschijnt de hoofdcontent nog steeds?
Als content verdwijnt zonder JS, ligt daar je probleem.
Stap 4: Rate limiting check
Limiteer je bots agressief?
Check of je WAF of CDN blokkeert na X requests.
AI-crawlers kunnen tijdens crawl geblokkeerd worden.
Meest voorkomende problemen die ik zie:
- Pagina’s niet intern gelinkt (weespagina’s)
- JavaScript-gerenderde content
- Agressieve botbescherming
- Pagina’s niet in sitemap