Discussion Technical SEO AI Crawlers

Hoe controleer ik of AI-crawlers echt al mijn content zien? Sommige pagina's lijken onzichtbaar

TE
TechLead_Amanda · Technisch Lead
· · 71 upvotes · 9 comments
TA
TechLead_Amanda
Technisch Lead · 1 januari 2026

Verwarrende situatie met onze AI-zichtbaarheid:

We hebben 500 pagina’s. Ongeveer 200 lijken regelmatig AI-citaties te krijgen. De andere 300 zijn volledig onzichtbaar - nooit geciteerd, zelfs niet als ze het beste antwoord op een vraag zijn.

Wat ik heb gecheckt:

  • robots.txt staat alle AI-crawlers toe
  • Pagina’s geven status 200 terug
  • Geen noindex-tags
  • Pagina’s staan in sitemap

Waar ik niet zeker van ben:

  • Bereiken AI-crawlers echt ALLE pagina’s?
  • Hoe verifieer ik wat ze zien als ze langskomen?
  • Kunnen er subtiele blokkades zijn die ik mis?

Er moet een reden zijn waarom de helft van onze site onzichtbaar is voor AI. Help me dit te debuggen.

9 comments

9 reacties

CE
CrawlerAccess_Expert Expert Technisch SEO Consultant · 1 januari 2026

Laat me je helpen systematisch te debuggen.

Stap 1: Loganalyse

Check je serverlogs op bezoeken van AI-crawlers naar de “onzichtbare” pagina’s:

# Controleer of GPTBot specifieke pagina's bezoekt
grep "GPTBot" access.log | grep "/onzichtbare-pagina-pad/"

Als er geen crawlerbezoeken zijn: ze ontdekken deze pagina’s niet. Als er wel bezoeken zijn maar geen citaties: contentkwaliteit, geen toegang.

Stap 2: Directe toegangstest

Test wat crawlers zien als ze de pagina bezoeken:

curl -A "GPTBot" -s https://jouwsite.com/pagina-pad/ | head -200

Check:

  • Volledige content verschijnt in HTML
  • Geen redirect naar login/betaalmuur
  • Geen “bot gedetecteerd” melding
  • Belangrijke content zit niet in JavaScript

Stap 3: Renderingtest

AI-crawlers verschillen in JS-rendering. Test met JS uitgeschakeld:

  • Open pagina in browser
  • Zet JavaScript uit (Developer Tools)
  • Verschijnt de hoofdcontent nog steeds?

Als content verdwijnt zonder JS, ligt daar je probleem.

Stap 4: Rate limiting check

Limiteer je bots agressief? Check of je WAF of CDN blokkeert na X requests. AI-crawlers kunnen tijdens crawl geblokkeerd worden.

Meest voorkomende problemen die ik zie:

  1. Pagina’s niet intern gelinkt (weespagina’s)
  2. JavaScript-gerenderde content
  3. Agressieve botbescherming
  4. Pagina’s niet in sitemap
TA
TechLead_Amanda OP · 1 januari 2026
Replying to CrawlerAccess_Expert
De logcheck is interessant. Ik vond GPTBot-hits voor de zichtbare pagina’s maar veel minder voor de onzichtbare. Dus het is een discovery-issue, geen blokkeringsprobleem?
CE
CrawlerAccess_Expert Expert · 1 januari 2026
Replying to TechLead_Amanda

Ontdekking vs blokkeren - heel verschillende problemen.

Als GPTBot bepaalde pagina’s niet bezoekt, check dan:

1. Sitemapdekking Staan alle 500 pagina’s in je sitemap? Check sitemap.xml.

2. Interne linking Hoe zijn de onzichtbare pagina’s gelinkt vanaf de rest van de site?

  • Gelinkt vanaf homepage? Vanuit navigatie?
  • Of alleen bereikbaar via diepe paden?

AI-crawlers prioriteren goed gelinkte pagina’s. Weespagina’s worden minder gecrawld.

3. Crawlbudget AI-crawlers hebben limieten. Als je site groot is, crawlen ze niet alles.

  • Meest gelinkte pagina’s eerst
  • Diep geneste pagina’s kunnen worden overgeslagen

4. Linkdiepte Hoeveel klikken vanaf de homepage naar onzichtbare pagina’s?

  • 1-2 klikken: Worden meestal gecrawld
  • 4+ klikken: Kunnen genegeerd worden

Oplossingen:

  • Zorg dat sitemap alle pagina’s bevat
  • Voeg interne links toe van belangrijke pagina’s naar onzichtbare
  • Overweeg hubpagina’s die naar gerelateerde content linken
  • Maak de sitearchitectuur platter waar mogelijk
IP
InternalLinking_Pro SEO Architect · 31 december 2025

Interne linking is waarschijnlijk je probleem als 300 pagina’s niet worden ontdekt.

Audit je interne linkstructuur:

Tools zoals Screaming Frog tonen:

  • Welke pagina’s de minste interne links hebben
  • Weespagina’s (0 interne links)
  • Klikdiepte vanaf homepage

Patronen die ik vaak zie:

  1. Blogposts alleen gelinkt vanuit archiefpagina’s Je blogarchief pagina 15 linkt naar oude posts. Crawlers gaan niet zo diep.

  2. Productpagina’s alleen gelinkt vanuit categorieoverzichten Categoriepagina 8 linkt naar producten. Te diep.

  3. Bronpagina’s zonder cross-linking Goede content maar nergens naar gelinkt.

Oplossingen:

  1. Hubpagina’s Maak “Resources” of “Gidsen” pagina’s die naar meerdere gerelateerde stukken linken.

  2. Gerelateerde content links Link aan het eind van elke post naar 3-5 gerelateerde stukken.

  3. Breadcrumbs Helpt crawlers de hiërarchie te begrijpen en pagina’s te vinden.

  4. Navigatie-updates Kun je populaire diepe pagina’s aan hoofdmenu of footer toevoegen?

Interne linking is niet alleen SEO best practice - het is hoe crawlers je content ontdekken.

JD
JSRendering_Dev · 31 december 2025

Laat me dieper ingaan op JavaScript-renderingproblemen:

Wat AI-crawlers aankunnen:

CrawlerJS-rendering
GPTBotBeperkt
PerplexityBotBeperkt
ClaudeBotBeperkt
Google-ExtendedJa (via Googlebot)

Veilige aanname: De meeste AI-crawlers zien wat jij ziet met JS uitgeschakeld.

Veelvoorkomende JS-problemen:

  1. Client-side gerenderde content React/Vue/Angular apps die content alleen in de browser renderen. Crawlers zien lege containers.

  2. Lazy loading zonder fallback Afbeeldingen en content onder de vouw laden nooit voor crawlers.

  3. Interactieve componenten die content verbergen Tabs, accordeons, carrousels - content in inactieve staat staat niet in initiële HTML.

  4. JS-geïnjecteerde schema Schema via JavaScript toegevoegd wordt mogelijk niet verwerkt.

Testen:

# Zie ruwe HTML (wat crawlers zien)
curl -s https://jouwsite.com/pagina/

# Vergelijk met gerenderde HTML (browser Dev Tools > View Source)

Als belangrijke content ontbreekt in de curl-output, heb je een JS-probleem.

Oplossingen:

  • Server-side rendering (SSR)
  • Pre-renderen voor statische content
  • HTML-fallbacks voor lazy-loaded content
  • Zorg dat kritieke content in initiële HTML staat
C
CloudflareBotProtection · 31 december 2025

Botbescherming kan AI-crawlers stilletjes blokkeren.

Veel voorkomende botbescherming die problemen geeft:

  1. Cloudflare Bot Fight Mode Kan AI-crawlers uitdagen of blokkeren. Check: Security > Bots > Bot Fight Mode

  2. Rate Limiting Beperk je aantal requests/IP/minuut? AI-crawlers kunnen limieten raken.

  3. JavaScript-challenges Dien je JS-challenges uit aan bots, dan falen AI-crawlers mogelijk.

  4. User Agent-blokkades Sommige WAF’s blokkeren onbekende of verdachte user agents.

Hoe te verifiëren:

  1. Check je CDN/WAF-logs voor geblokkeerde requests met AI-user agents
  2. Zoek naar uitgedaagde requests (captcha-pagina’s)
  3. Test vanaf verschillende IP’s of rate limits gelden

Aanbevolen instellingen voor AI-crawlers:

De meeste CDN/WAF-platforms laten je whitelisten op user agent:

  • Whitelist GPTBot, ClaudeBot, PerplexityBot
  • Hanteer soepelere rate limits
  • Sla JavaScript-challenges over

Je wilt bescherming tegen malafide bots, niet tegen AI-crawlers die je content willen indexeren.

SM
SitemapExpert_Maria · 30 december 2025

Sitemap-optimalisatie voor AI-crawler ontdekking:

Sitemap best practices:

  1. Neem ALLE belangrijke pagina’s op Niet alleen nieuwe content. Alle pagina’s die je ontdekt wilt hebben.

  2. Update frequentiesignalen Gebruik <lastmod> om aan te geven wanneer content is bijgewerkt. Recente updates krijgen mogelijk voorrang bij crawlen.

  3. Sitemap in robots.txt

Sitemap: https://jouwsite.com/sitemap.xml

Zo weten alle crawlers waar hij te vinden is.

  1. Groottebeperkingen Sitemaps boven 50k URL’s of 50MB moeten worden gesplitst. Grote sitemaps worden mogelijk niet volledig verwerkt.

Verificatie:

# Check sitemap-bereikbaarheid
curl -I https://jouwsite.com/sitemap.xml
# Moet 200 retourneren

# Check aantal pagina's in sitemap
curl -s https://jouwsite.com/sitemap.xml | grep -c "<url>"

Als je onzichtbare pagina’s niet in de sitemap staan, voeg ze toe.

Prioriteitstip:

Je kunt de <priority>-tag gebruiken, maar de meeste crawlers negeren die. Vertrouw liever op interne linking en versheidssignalen.

TA
TechLead_Amanda OP Technisch Lead · 29 december 2025

Problemen gevonden! Dit leverde het debuggen op:

Probleem 1: Ontdekking (primair)

  • 280 van de “onzichtbare” pagina’s hadden zwakke interne linking
  • Alleen gelinkt vanaf diepe archiefpagina’s (klikdiepte 5+)
  • Niet in de hoofd-sitemap (we hadden meerdere sitemaps, sommige wees)

Probleem 2: Botbescherming (secundair)

  • Cloudflare Bot Fight Mode daagde sommige AI-crawlers uit
  • 15% van crawlerrequests kreeg JS-challenges

Probleem 3: JS-content (klein)

  • 12 pagina’s hadden content in React-componenten die niet server-rendered waren

Aangepaste oplossingen:

  1. Interne linking overhaul

    • “Gerelateerde content”-secties aan alle posts toegevoegd
    • Hubpagina’s gemaakt die naar topicclusters linken
    • Maximale klikdiepte teruggebracht naar 3
  2. Sitemapconsolidatie

    • Alle sitemaps samengevoegd tot één
    • Gecontroleerd dat alle 500 pagina’s zijn opgenomen
    • Sitemap toegevoegd aan robots.txt
  3. Aanpassing botbescherming

    • GPTBot, ClaudeBot, PerplexityBot op whitelist gezet
    • Lagere rate limits voor AI-user agents
  4. SSR implementatie

    • Server-side rendering ingeschakeld voor getroffen pagina’s

Belangrijkste inzicht:

De pagina’s waren niet geblokkeerd - ze werden gewoon niet ontdekt. Interne linking en sitemapdekking zijn cruciaal voor toegang door AI-crawlers.

Iedereen bedankt voor het debugraamwerk!

Have a Question About This Topic?

Get personalized help from our team. We'll respond within 24 hours.

Frequently Asked Questions

Hoe controleer ik of AI-crawlers mijn content kunnen bereiken?
Gebruik serverlogs om te kijken of GPTBot, ClaudeBot en PerplexityBot je pagina’s bezoeken met statuscode 200. Gebruik curl met AI user-agent headers om te testen wat crawlers zien. Controleer dat robots.txt AI-crawlers niet blokkeert. Test of belangrijke content niet alleen door JavaScript wordt weergegeven.
Wat blokkeert AI-crawlers vaak om content te zien?
Veelvoorkomende blokkades zijn robots.txt disallow regels, alleen-JavaScript rendering, loginmuren of betaalmuren, agressieve rate limiting, botdetectie die AI-user agents blokkeert, lazy loading die niet werkt voor bots, en geo-blokkering die AI-crawler IP’s beïnvloedt.
Waarom bezoeken AI-crawlers soms pagina's maar citeren ze die niet?
Crawlen garandeert geen citatie. Pagina’s kunnen wel gecrawld worden maar niet geciteerd omdat de content dun of algemeen is, de structuur extractie lastig maakt, de content geen autoriteitssignalen uitstraalt, elders betere bronnen bestaan, of de content te commercieel is. Toegankelijkheid is noodzakelijk maar niet voldoende voor citaties.

Monitor AI-crawler toegang

Volg welke AI-crawlers je site bezoeken en zorg dat je content zichtbaar is voor AI-systemen.

Meer informatie