Discussion Technical SEO AI Crawlers

Wie kann ich überprüfen, ob KI-Crawler wirklich alle meine Inhalte sehen? Einige Seiten scheinen unsichtbar

TE
TechLead_Amanda · Technische Leitung
· · 71 upvotes · 9 comments
TA
TechLead_Amanda
Technische Leitung · 1. Januar 2026

Verwirrende Situation mit unserer KI-Sichtbarkeit:

Wir haben 500 Seiten. Etwa 200 erhalten regelmäßig KI-Zitate. Die anderen 300 sind komplett unsichtbar – werden nie zitiert, selbst wenn sie die beste Antwort auf eine Anfrage wären.

Das habe ich geprüft:

  • robots.txt erlaubt allen KI-Crawlern den Zugriff
  • Seiten liefern Status 200 zurück
  • Keine noindex-Tags
  • Seiten sind in der Sitemap

Dabei bin ich unsicher:

  • Greifen KI-Crawler wirklich auf ALLE Seiten zu?
  • Wie kann ich überprüfen, was sie beim Besuch sehen?
  • Gibt es subtile Blockaden, die ich übersehe?

Es muss einen Grund geben, warum die Hälfte unserer Seite für KI unsichtbar ist. Helft mir beim Debugging.

9 comments

9 Kommentare

CE
CrawlerAccess_Expert Expert Technischer SEO-Berater · 1. Januar 2026

Ich helfe dir, systematisch zu debuggen.

Schritt 1: Log-Analyse

Überprüfe deine Server-Logs auf KI-Crawler-Besuche bei den “unsichtbaren” Seiten:

# Prüfen, ob GPTBot bestimmte Seiten besucht
grep "GPTBot" access.log | grep "/invisible-page-path/"

Wenn kein Crawler-Besuch: Sie entdecken diese Seiten nicht. Wenn besucht, aber nicht zitiert: Inhaltsqualität, kein Zugriffsproblem.

Schritt 2: Direkter Zugriffstest

Teste, was Crawler sehen, wenn sie die Seite aufrufen:

curl -A "GPTBot" -s https://deineseite.com/page-path/ | head -200

Prüfe:

  • Vollständiger Inhalt erscheint im HTML
  • Keine Weiterleitung zu Login/Paywall
  • Keine “Bot erkannt”-Nachricht
  • Wichtige Inhalte sind nicht nur in JavaScript

Schritt 3: Rendering-Test

KI-Crawler unterscheiden sich bei JS-Rendering. Teste mit deaktiviertem JS:

  • Seite im Browser öffnen
  • JavaScript deaktivieren (Developer Tools)
  • Erscheint der Hauptinhalt noch?

Wenn Inhalte ohne JS verschwinden, liegt hier das Problem.

Schritt 4: Rate-Limit-Prüfung

Begrenzt du Bots sehr stark? Prüfe, ob WAF oder CDN nach X Anfragen blockiert. KI-Crawler könnten mitten im Crawl blockiert werden.

Die häufigsten Probleme:

  1. Seiten intern nicht verlinkt (verwaist)
  2. Inhalte werden per JavaScript gerendert
  3. Aggressiver Bot-Schutz
  4. Seiten fehlen in der Sitemap
TA
TechLead_Amanda OP · 1. Januar 2026
Replying to CrawlerAccess_Expert
Der Log-Check ist interessant. Ich habe GPTBot-Treffer für die sichtbaren Seiten gefunden, aber viel weniger für die unsichtbaren. Also ist es ein Discovery-Problem, kein Blockierungsproblem?
CE
CrawlerAccess_Expert Expert · 1. Januar 2026
Replying to TechLead_Amanda

Discovery vs. Blockierung – sehr unterschiedliche Probleme.

Wenn GPTBot bestimmte Seiten nicht besucht, prüfe:

1. Sitemap-Abdeckung Sind alle 500 Seiten in deiner Sitemap? Prüfe sitemap.xml.

2. Interne Verlinkung Wie sind die unsichtbaren Seiten von der restlichen Website aus verlinkt?

  • Von der Startseite aus verlinkt? Vom Menü?
  • Oder nur über sehr tiefe Pfade erreichbar?

KI-Crawler priorisieren gut verlinkte Seiten. Verwaiste Seiten werden seltener gecrawlt.

3. Crawl-Budget KI-Crawler haben Limits. Bei großen Seiten wird evtl. nicht alles gecrawlt.

  • Am häufigsten verlinkte Seiten werden zuerst gecrawlt
  • Tief verschachtelte Seiten könnten übersprungen werden

4. Linktiefe Wie viele Klicks von der Startseite bis zu den unsichtbaren Seiten?

  • 1-2 Klicks: Sollten gecrawlt werden
  • 4+ Klicks: Werden evtl. vernachlässigt

Lösungen:

  • Stelle sicher, dass die Sitemap alle Seiten enthält
  • Füge interne Links von wichtigen Seiten zu den unsichtbaren ein
  • Erstelle Hub-Seiten, die auf verwandte Inhalte verlinken
  • Flache die Seitenstruktur, wo möglich, ab
IP
InternalLinking_Pro SEO-Architekt · 31. Dezember 2025

Interne Verlinkung ist wahrscheinlich das Problem, wenn 300 Seiten nicht entdeckt werden.

Prüfe deine interne Linkstruktur:

Tools wie Screaming Frog zeigen:

  • Welche Seiten die wenigsten internen Links haben
  • Verwaiste Seiten (0 interne Links)
  • Klicktiefe ab Startseite

Typische Muster, die ich sehe:

  1. Blogposts nur von Archivseiten verlinkt Deine Blog-Archivseite 15 verlinkt auf alte Beiträge. Crawler gehen nicht so tief.

  2. Produktseiten nur von Kategorieseiten verlinkt Kategorie-Seite 8 verlinkt auf Produkte. Zu tief.

  3. Ressourcenseiten ohne Cross-Linking Toller Inhalt, aber es verlinkt nichts darauf.

Lösungen:

  1. Hub-Seiten Erstelle “Ressourcen”- oder “Guide”-Seiten, die auf mehrere verwandte Inhalte verlinken.

  2. Verwandte Inhalte-Links Am Ende jedes Beitrags auf 3-5 verwandte Stücke verlinken.

  3. Breadcrumbs Hilft Crawlern, die Hierarchie zu verstehen und Seiten zu finden.

  4. Navigation aktualisieren Kannst du beliebte tiefe Seiten ins Hauptmenü oder in den Footer aufnehmen?

Interne Verlinkung ist nicht nur SEO-Best-Practice – sie ist der Weg, wie Crawler deine Inhalte entdecken.

JD
JSRendering_Dev · 31. Dezember 2025

Ich gehe näher auf JavaScript-Rendering-Probleme ein:

Was KI-Crawler können:

CrawlerJS-Rendering
GPTBotEingeschränkt
PerplexityBotEingeschränkt
ClaudeBotEingeschränkt
Google-ExtendedJa (über Googlebot)

Sichere Annahme: Die meisten KI-Crawler sehen das, was du mit deaktiviertem JS siehst.

Typische JS-Probleme:

  1. Clientseitig gerenderte Inhalte React/Vue/Angular-Apps, die Inhalte nur im Browser rendern. Crawler sehen leere Container.

  2. Lazy Loading ohne Fallbacks Bilder und Inhalte unter dem Sichtbereich laden für Crawler nie.

  3. Interaktive Komponenten verstecken Inhalte Tabs, Akkordeons, Karussells – Inhalt im inaktiven Zustand ist evtl. nicht im initialen HTML.

  4. JS-injiziertes Schema Schema, das per JavaScript eingefügt wird, wird evtl. nicht geparst.

Testen:

# Rohes HTML anzeigen (was Crawler sehen)
curl -s https://deineseite.com/page/

# Mit gerendertem HTML im Browser vergleichen (Dev Tools > Quelltext anzeigen)

Fehlen wichtige Inhalte im Curl-Output, hast du ein JS-Problem.

Lösungen:

  • Server-Side Rendering (SSR)
  • Vor-Rendering für statische Inhalte
  • HTML-Fallbacks für Lazy-Loaded Content
  • Kritische Inhalte müssen im initialen HTML stehen
C
CloudflareBotProtection · 31. Dezember 2025

Bot-Schutz kann KI-Crawler stillschweigend blockieren.

Typischer Bot-Schutz, der Probleme verursacht:

  1. Cloudflare Bot Fight Mode Kann KI-Crawler herausfordern oder blockieren. Prüfen: Sicherheit > Bots > Bot Fight Mode

  2. Rate Limiting Wenn du Anfragen/IP/Minute begrenzt, erreichen KI-Crawler evtl. das Limit.

  3. JavaScript-Challenges Wenn du Bots JS-Challenges ausspielst, scheitern KI-Crawler evtl. daran.

  4. User-Agent-Blocking Manche WAFs blockieren unbekannte oder verdächtige User-Agents.

So verifizierst du das:

  1. Prüfe CDN/WAF-Logs auf geblockte Anfragen mit KI-User-Agents
  2. Suche nach herausgeforderten Anfragen (Captcha-Seiten)
  3. Teste von verschiedenen IPs, ob Rate-Limits greifen

Empfohlene Einstellungen für KI-Crawler:

Die meisten CDN/WAF-Plattformen erlauben Whitelisting nach User-Agent:

  • GPTBot, ClaudeBot, PerplexityBot auf die Whitelist setzen
  • Lockeres Rate-Limit anwenden
  • Keine JavaScript-Challenges für diese Bots

Du willst dich vor bösartigen Bots schützen, nicht vor KI-Crawlern, die deine Inhalte indexieren wollen.

SM
SitemapExpert_Maria · 30. Dezember 2025

Sitemap-Optimierung für KI-Crawler-Entdeckung:

Sitemap Best Practices:

  1. ALLE wichtigen Seiten einbinden Nicht nur neue Inhalte. Alle Seiten, die entdeckt werden sollen.

  2. Update-Frequenz angeben Nutze <lastmod>, um anzuzeigen, wann Inhalte aktualisiert wurden. Aktuelle Änderungen werden evtl. bevorzugt gecrawlt.

  3. Sitemap in robots.txt

Sitemap: https://deineseite.com/sitemap.xml

So finden alle Crawler sie.

  1. Größenlimits Sitemaps über 50.000 URLs oder 50 MB müssen gesplittet werden. Große Sitemaps werden evtl. nicht vollständig verarbeitet.

Verifizierung:

# Sitemap-Erreichbarkeit prüfen
curl -I https://deineseite.com/sitemap.xml
# Sollte 200 zurückgeben

# Seitenanzahl in der Sitemap prüfen
curl -s https://deineseite.com/sitemap.xml | grep -c "<url>"

Wenn deine unsichtbaren Seiten nicht in der Sitemap sind, füge sie hinzu.

Prioritäts-Tipp:

Du kannst das <priority>-Tag nutzen, aber die meisten Crawler ignorieren es. Besser auf interne Verlinkung und Aktualität setzen.

TA
TechLead_Amanda OP Technische Leitung · 29. Dezember 2025

Probleme gefunden! Das hat das Debugging ergeben:

Problem 1: Discovery (Hauptursache)

  • 280 der “unsichtbaren” Seiten hatten schwache interne Verlinkung
  • Nur von tiefen Archivseiten verlinkt (Klicktiefe 5+)
  • Nicht in der Haupt-Sitemap (wir hatten mehrere Sitemaps, einige waren verwaist)

Problem 2: Bot-Schutz (zweitrangig)

  • Cloudflare Bot Fight Mode hat einige KI-Crawler herausgefordert
  • 15% der Crawler-Anfragen bekamen JS-Challenges

Problem 3: JS-Inhalte (geringfügig)

  • 12 Seiten hatten Inhalte in nicht servergerenderten React-Komponenten

Umgesetzte Lösungen:

  1. Interne Verlinkung überarbeitet

    • “Verwandte Inhalte”-Abschnitte zu allen Beiträgen hinzugefügt
    • Hub-Seiten erstellt, die auf Themencluster verlinken
    • Maximale Klicktiefe auf 3 reduziert
  2. Sitemap konsolidiert

    • Alle Sitemaps zusammengeführt
    • Alle 500 Seiten aufgenommen
    • Sitemap in robots.txt eingetragen
  3. Bot-Schutz angepasst

    • GPTBot, ClaudeBot, PerplexityBot auf Whitelist gesetzt
    • Rate-Limits für KI-User-Agents reduziert
  4. SSR-Implementierung

    • Server-Side-Rendering für betroffene Seiten aktiviert

Wichtigste Erkenntnis:

Die Seiten waren nicht blockiert – sie wurden einfach nicht entdeckt. Interne Verlinkung und Sitemap-Abdeckung sind entscheidend für den KI-Crawler-Zugriff.

Danke an alle für das Debugging-Framework!

Have a Question About This Topic?

Get personalized help from our team. We'll respond within 24 hours.

Frequently Asked Questions

Wie prüfe ich, ob KI-Crawler auf meine Inhalte zugreifen können?
Nutzen Sie Server-Logs, um Besuche von GPTBot, ClaudeBot und PerplexityBot mit 200-Statuscodes zu überprüfen. Verwenden Sie curl mit KI-User-Agent-Headern, um zu testen, was Crawler sehen. Prüfen Sie, dass robots.txt KI-Crawler nicht blockiert. Testen Sie, dass wichtige Inhalte nicht nur per JavaScript gerendert werden.
Was blockiert KI-Crawler häufig beim Zugriff auf Inhalte?
Typische Blockaden sind robots.txt-Disallow-Regeln, reine JavaScript-Darstellung, Login- oder Paywalls, striktes Rate-Limiting, Bot-Erkennung, die KI-User-Agents blockiert, Lazy Loading, das für Bots nicht funktioniert, und Geo-Blocking, das KI-Crawler-IP-Adressen betrifft.
Warum besuchen KI-Crawler Seiten, zitieren sie aber nicht?
Crawling garantiert keine Zitierung. Seiten werden evtl. gecrawlt, aber nicht zitiert, weil Inhalte dünn oder generisch sind, die Struktur die Extraktion erschwert, Autoritätssignale fehlen, bessere Quellen existieren oder der Inhalt zu kommerziell ist. Zugänglichkeit ist notwendig, aber nicht ausreichend für Zitate.

KI-Crawler-Zugriff überwachen

Verfolgen Sie, welche KI-Crawler auf Ihre Seite zugreifen und stellen Sie sicher, dass Ihre Inhalte für KI-Systeme sichtbar sind.

Mehr erfahren