Discussion Technical SEO Debugging

AI-bots bezoeken onze site, maar we worden niet geciteerd. Hoe debug ik crawlproblemen?

WE
WebDev_Marcus · Senior Web Developer
· · 68 upvotes · 9 comments
WM
WebDev_Marcus
Senior Web Developer · 2 januari 2026

Verwarrende situatie:

Onze serverlogs tonen regelmatige hits van GPTBot, PerplexityBot en ClaudeBot. Ze krijgen 200-responses. Dus ze crawlen zeker onze content.

Maar als ik ChatGPT, Perplexity of Claude vragen stel die onze content perfect behandelen, worden we nooit geciteerd. Concurrenten met objectief slechtere content worden wel geciteerd.

Wat ik heb geverifieerd:

  • robots.txt staat alle AI-crawlers toe
  • Pagina’s geven 200-status terug
  • Content is server-side gerenderd (geen client-only JS)
  • Pagina’s zijn snel (<2s laadtijd)

Wat ik probeer uit te zoeken:

  • Hoe kan ik zien wat de crawlers daadwerkelijk zien?
  • Wat kan leiden tot succesvolle crawling, maar geen citatie?
  • Zijn er verborgen technische issues die ik mis?

Dit maakt me gek. De crawlers komen langs, maar we zijn onzichtbaar in AI-antwoorden.

9 comments

9 reacties

CE
CrawlerDebug_Expert Expert Technical SEO Consultant · 2 januari 2026

Laat me helpen debuggen. Crawlen ≠ citeren. Hier is het diagnostisch stappenplan:

Stap 1: Controleer wat crawlers daadwerkelijk zien

Gebruik curl met de AI user-agent:

curl -A "GPTBot" -s https://jouwsite.com/page | head -100

Controleer:

  • Verschijnt de volledige content?
  • Zijn er meta robots- of X-Robots-Tag headers?
  • Staat de content in de HTML, zonder dat JS nodig is?

Stap 2: Check op verborgen blokkades

Veelvoorkomende issues:

  • noindex meta tag (blokkeert indexering)
  • X-Robots-Tag: noindex header
  • Canonical die elders naartoe wijst
  • Content via JavaScript geladen na paginalaad
  • Login/paywall-detectie die bots andere content toont

Stap 3: Contentkwaliteitscheck

Als crawlen goed gaat, zit het probleem in de content:

  • Is het echt uniek, of een variatie op algemene info?
  • Is het gestructureerd voor AI-extractie?
  • Heeft het autoriteitssignalen (auteur, bronvermeldingen)?
  • Is het volledig genoeg om DE bron te zijn?

Meest voorkomende probleem dat ik zie:

Technisch crawlen gaat goed. Content is gewoon niet het citeren waard. Crawlers komen langs, maar AI-systemen kiezen betere bronnen.

Het verschil tussen “toegankelijk” en “citeerbaar” draait om contentkwaliteit en structuur, niet alleen technische toegang.

WM
WebDev_Marcus OP · 2 januari 2026
Replying to CrawlerDebug_Expert
De curl-test is handig. Ik heb het uitgevoerd en de content verschijnt. Geen noindex-tags. Maar je hebt gelijk – misschien is het probleem helemaal niet technisch. Hoe beoordeel ik of content “het citeren waard” is?
CE
CrawlerDebug_Expert Expert · 2 januari 2026
Replying to WebDev_Marcus

Checklist om te beoordelen of je content het citeren waard is:

1. Uniciteit

  • Zegt je content iets wat concurrenten niet zeggen?
  • Originele data, onderzoek of inzichten?
  • Of is het slechts een herverpakking van algemene informatie?

2. Structuur

  • Kan AI eenvoudig een duidelijk antwoord uit je content halen?
  • Is er een TL;DR of direct antwoord?
  • Zijn secties duidelijk afgebakend?

3. Autoriteit

  • Auteur met referenties?
  • Bronvermeldingen?
  • Recente/geüpdatete content?

4. Volledigheid

  • Beantwoordt dit volledig de vraag?
  • Of moet AI combineren met andere bronnen?

De harde waarheid:

De meeste content online is middelmatig. AI heeft miljoenen opties om te citeren. Het kiest de beste.

Als je content:

  • Lijkt op die van 100 andere sites
  • Gestructureerd is als een verhaal, niet als een antwoord
  • Geen duidelijke autoriteitssignalen bevat
  • Niet de meest volledige bron is

…dan wordt het niet geciteerd, ongeacht technische toegankelijkheid.

Vergelijk je content met wat WEL geciteerd wordt. Wat hebben zij wat jij niet hebt?

LP
LogAnalysis_Pro DevOps Engineer · 1 januari 2026

Zo analyseer ik AI-crawlergedrag in logs:

Loganalyse voor AI-crawlers:

# Vind alle AI-crawler hits
grep -E "(GPTBot|ChatGPT-User|ClaudeBot|PerplexityBot|Google-Extended)" access.log

# Check statuscodes
grep "GPTBot" access.log | awk '{print $9}' | sort | uniq -c

# Bekijk welke pagina's ze het meest bezoeken
grep "GPTBot" access.log | awk '{print $7}' | sort | uniq -c | sort -rn

Waar op letten:

  1. Statuscodes

    • 200: Goed, ze hebben de content gekregen
    • 301/302: Redirects – check of ze ergens nuttigs landen
    • 403/404: Problemen – direct oplossen
    • 500: Serverfouten – onderzoeken
  2. Crawlpatronen

    • Welke pagina’s worden het meest gecrawld?
    • Worden je beste pagina’s bezocht?
    • Zijn er pagina’s die nooit gecrawld worden?
  3. Crawlfrequentie

    • GPTBot: Meestal meerdere keren per dag
    • PerplexityBot: Zeer vaak (realtime zoekopdrachten)
    • Als er wekenlang geen hits zijn, check robots.txt

Veelvoorkomende loginzichten:

  • CDN verbergt echte user agents
  • Load balancer stript headers
  • Logrotatie mist crawler-hits

Zorg dat je rauwe, ongefilterde logs bekijkt.

CS
ContentQuality_Sarah · 1 januari 2026

Aangezien je technische toegang hebt geverifieerd, wil ik de contentkant belichten:

Waarom AI misschien crawlt maar niet citeert:

  1. Content is generiek “5 tips voor betere e-mailmarketing” – daar zijn er 10.000 van. AI citeert de beste, niet allemaal.

  2. Geen extraheerbaar antwoord Verhalende content zonder duidelijke conclusies is lastig voor AI om te quoten.

  3. Verouderde informatie Als je content “trends 2023” zegt, kiest AI misschien liever actuele bronnen.

  4. Zwakke autoriteitssignalen Geen auteur, geen bronvermeldingen, geen zichtbare referenties.

  5. Slechte structuur AI heeft duidelijke secties nodig die het kan parseren. Lopende tekst is moeilijker te extraheren.

Diagnostische test:

Vraag jezelf: Als ik AI was en ÉÉN bron moest citeren voor dit onderwerp, zou ik dan mijn content kiezen of die van een concurrent?

Wees eerlijk. Wat heeft de concurrent dat jij niet hebt?

Meestal is het:

  • Meer volledige dekking
  • Betere structuur voor extractie
  • Sterkere autoriteitssignalen
  • Meer actuele informatie

Verbeter die punten, en citaties volgen vanzelf.

JD
JSRendering_Dev · 1 januari 2026

Technische diepduik in JavaScript-rendering:

Ook als je hoofdcontent server-side gerenderd is, controleer op:

1. Lazy-loaded contentsecties Belangrijke content onder de vouw kan na de initiële render laden.

// Deze content is mogelijk niet zichtbaar voor crawlers
<div data-lazy="true">Belangrijke content hier</div>

2. Interactieve elementen die content verbergen Tabs, accordeons, uitklapbare secties kunnen content bevatten die AI niet ziet.

3. Via JavaScript gegenereerde structured data Als je schema via JS wordt toegevoegd, zien crawlers het misschien niet.

Testtool:

Google’s Mobile-Friendly Test toont gerenderde HTML: https://search.google.com/test/mobile-friendly

Vergelijk wat je daar ziet met je echte pagina. Verschillen kunnen zichtbaarheidsproblemen verklaren.

Snelle check:

Bekijk je pagina met JavaScript uitgeschakeld. Alles wat je dan ziet, ziet de crawler zeker. Ontbreekt er belangrijke content, dan is dat je probleem.

ST
SchemaDebug_Tom · 31 december 2025

Schema-issues die citaties tegenhouden:

Zelfs als de content zichtbaar is, kan slechte schema-markup je schaden:

  1. Ongeldige schema-markup Gebruik Google’s Rich Results Test om te valideren. Ongeldige schema’s worden mogelijk volledig genegeerd.

  2. Ontbrekend schema Geen Organization-, Article- of FAQ-schema zorgt ervoor dat AI moet raden wat je contenttype is.

  3. Conflicterende schema’s Meerdere Organization-schema’s met verschillende info. AI weet niet welke te vertrouwen.

Hoe testen:

# Haal op en check op schema
curl -s https://jouwsite.com | grep -o 'application/ld+json' | wc -l

Valideer elk schema-blok op: https://validator.schema.org/

Veelvoorkomende schemafouten:

  • Ontbrekende @context
  • Verkeerde @type
  • Ongeldige datumnotaties
  • URL-velden zonder http/https
  • Ontbrekende verplichte properties

Los schemafouten op. AI-systemen parseren schema om content te begrijpen. Ongeldig schema = onduidelijke content.

WM
WebDev_Marcus OP Senior Web Developer · 30 december 2025

Deze thread heeft me doen inzien: ons probleem is niet technisch.

Wat ik getest heb:

  • curl met AI user-agents: content wordt correct weergegeven
  • Geen noindex-tags aanwezig
  • Schema valideert correct
  • JavaScript verbergt geen belangrijke content
  • Logs tonen regelmatige crawlerbezoeken met 200’s

Wat ik ontdekte bij het vergelijken met concurrenten die wel geciteerd worden:

Hun content heeft:

  • Een direct antwoord in de eerste alinea (wij verstoppen het antwoord)
  • FAQ-secties met schema (wij hebben geen van beide)
  • Auteurbio’s met referenties (de onze zijn generiek)
  • Vergelijkingstabellen (wij gebruiken verhalende alinea’s)
  • Bijgewerkte data (de onze zijn al 18 maanden niet aangepast)

Mijn actieplan:

  1. Stoppen met debuggen van technische issues (dat is niet het probleem)
  2. Focus op contentkwaliteit en structuur
  3. FAQ-secties met schema toevoegen
  4. Herstructureren voor directe antwoorden
  5. Auteurreferenties toevoegen
  6. Verouderde content updaten

Belangrijk inzicht:

Crawlen werkt + niet geciteerd worden = contentkwaliteit/structuurprobleem, geen technisch probleem.

Ik was op het verkeerde niveau aan het debuggen. Bedankt allemaal!

Have a Question About This Topic?

Get personalized help from our team. We'll respond within 24 hours.

Frequently Asked Questions

Hoe weet ik of AI-crawlers mijn site bezoeken?
Controleer serverlogs op AI-crawler user agents: GPTBot, ChatGPT-User, ClaudeBot, PerplexityBot, Google-Extended. Zoek naar 200-statuscodes als bevestiging van succesvolle toegang. De meeste AI-crawlers komen vaak langs – als je ze niet ziet, controleer dan of je robots.txt ze niet blokkeert.
Waarom bezoeken AI-crawlers mijn content maar citeren ze het niet?
Veelvoorkomende redenen: content is te dun of te generiek om het citeren waard te zijn, de opbouw maakt extractie moeilijk, content mist autoriteitssignalen, de content is verouderd, of er zijn betere bronnen beschikbaar over het onderwerp. Crawlen is alleen toegang – citeren vereist dat AI de content waardevol genoeg vindt om te vermelden.
Hoe test ik wat AI-crawlers daadwerkelijk op mijn pagina's zien?
Gebruik curl met AI user-agent headers om je pagina’s op te halen. Controleer of JavaScript-gerenderde content zichtbaar is. Vergelijk de paginabron met de gerenderde pagina om te zien wat crawlers ontvangen. Test of belangrijke content niet in lazy-loaded secties staat of achter JavaScript zit dat crawlers niet kunnen uitvoeren.

Monitor AI-crawleractiviteit

Volg welke AI-crawlers je site bezoeken en hoe je content verschijnt in AI-antwoorden.

Meer informatie

Hoe vaak bezoeken AI-crawlers jouw site? Wat zie je in de logs?

Hoe vaak bezoeken AI-crawlers jouw site? Wat zie je in de logs?

Discussie in de community over frequentie en gedrag van AI-crawlers. Echte data van webmasters die GPTBot, PerplexityBot en andere AI-bots volgen in hun serverl...

5 min lezen
Discussion AI Crawlers +2
Vernielen AI-bots je crawlbudget? Zo beheer je GPTBot en consorten

Vernielen AI-bots je crawlbudget? Zo beheer je GPTBot en consorten

Discussie in de community over het beheren van AI-crawlbudget. Hoe ga je om met GPTBot, ClaudeBot en PerplexityBot zonder zichtbaarheid te verliezen.

6 min lezen
Discussion Crawl Budget +2