Ich helfe dir, systematisch zu debuggen.
Schritt 1: Log-Analyse
Überprüfe deine Server-Logs auf KI-Crawler-Besuche bei den “unsichtbaren” Seiten:
# Prüfen, ob GPTBot bestimmte Seiten besucht
grep "GPTBot" access.log | grep "/invisible-page-path/"
Wenn kein Crawler-Besuch: Sie entdecken diese Seiten nicht.
Wenn besucht, aber nicht zitiert: Inhaltsqualität, kein Zugriffsproblem.
Schritt 2: Direkter Zugriffstest
Teste, was Crawler sehen, wenn sie die Seite aufrufen:
curl -A "GPTBot" -s https://deineseite.com/page-path/ | head -200
Prüfe:
- Vollständiger Inhalt erscheint im HTML
- Keine Weiterleitung zu Login/Paywall
- Keine “Bot erkannt”-Nachricht
- Wichtige Inhalte sind nicht nur in JavaScript
Schritt 3: Rendering-Test
KI-Crawler unterscheiden sich bei JS-Rendering. Teste mit deaktiviertem JS:
- Seite im Browser öffnen
- JavaScript deaktivieren (Developer Tools)
- Erscheint der Hauptinhalt noch?
Wenn Inhalte ohne JS verschwinden, liegt hier das Problem.
Schritt 4: Rate-Limit-Prüfung
Begrenzt du Bots sehr stark?
Prüfe, ob WAF oder CDN nach X Anfragen blockiert.
KI-Crawler könnten mitten im Crawl blockiert werden.
Die häufigsten Probleme:
- Seiten intern nicht verlinkt (verwaist)
- Inhalte werden per JavaScript gerendert
- Aggressiver Bot-Schutz
- Seiten fehlen in der Sitemap