Pozwól, że pomogę Ci przejść przez debugowanie systematycznie.
Krok 1: Analiza logów
Sprawdź logi serwera pod kątem wizyt AI crawlerów na „niewidocznych” stronach:
# Sprawdź, czy GPTBot odwiedza konkretne strony
grep "GPTBot" access.log | grep "/invisible-page-path/"
Brak wizyt crawlera: Nie odkrywają tych stron.
Są wizyty, ale brak cytowań: Problem z jakością treści, nie z dostępem.
Krok 2: Bezpośredni test dostępu
Sprawdź, co crawlery widzą, gdy odwiedzają stronę:
curl -A "GPTBot" -s https://yoursite.com/page-path/ | head -200
Sprawdź:
- Czy pełna treść pojawia się w HTML
- Brak przekierowania do logowania/paywalla
- Brak komunikatu “bot detected”
- Kluczowa treść nie jest tylko w JavaScript
Krok 3: Test renderowania
AI crawlery różnią się możliwościami renderowania JS. Przetestuj z wyłączonym JS:
- Otwórz stronę w przeglądarce
- Wyłącz JavaScript (Narzędzia deweloperskie)
- Czy główna treść nadal się pojawia?
Jeśli treść znika bez JS, tu jest problem.
Krok 4: Sprawdzenie limitów zapytań
Czy agresywnie ograniczasz zapytania botów?
Sprawdź, czy Twój WAF lub CDN blokuje po X żądaniach.
AI crawlery mogą być blokowane w trakcie crawl’owania.
Najczęstsze problemy, które znajduję:
- Strony niepodlinkowane wewnętrznie (osierocone)
- Treść renderowana przez JavaScript
- Agresywna ochrona przed botami
- Strony nie są w sitemapie