Pomôžem vám to systematicky odhaliť.
Krok 1: Analýza logov
Skontrolujte serverové logy na návštevy AI crawlerov na „neviditeľné“ stránky:
# Kontrola, či GPTBot navštevuje konkrétne stránky
grep "GPTBot" access.log | grep "/invisible-page-path/"
Ak crawler nechodí: Stránky neobjavil.
Ak chodí, ale necituje: Problém s kvalitou obsahu, nie s prístupom.
Krok 2: Priamy test prístupu
Otestujte, čo crawler vidí pri prístupe na stránku:
curl -A "GPTBot" -s https://yoursite.com/page-path/ | head -200
Skontrolujte:
- Celý obsah sa zobrazuje v HTML
- Žiadne presmerovanie na prihlasovanie/platbu
- Žiadna správa „bot detected“
- Kľúčový obsah nie je len v JavaScripte
Krok 3: Test renderovania
AI crawlery majú rôzne schopnosti JS renderovania. Otestujte s vypnutým JS:
- Otvorte stránku v prehliadači
- Vypnite JavaScript (Nástroje pre vývojárov)
- Zobrazuje sa hlavný obsah?
Ak obsah bez JS zmizne, tam je problém.
Krok 4: Kontrola limitovania
Neobmedzujete boty príliš agresívne?
Skontrolujte, či vaše WAF alebo CDN neblokuje po X požiadavkách.
AI crawlery môžu byť zablokované počas crawlovania.
Najčastejšie problémy, ktoré nachádzam:
- Stránky nie sú interne prelinkované (siroty)
- Obsah renderovaný JavaScriptom
- Prílišná ochrana pred botmi
- Stránky nie sú v sitemap