Hai să depanăm sistematic.
Pasul 1: Analiza logurilor
Verifică în logurile serverului vizitele crawlerilor AI pe paginile „invizibile”:
# Verifică dacă GPTBot vizitează pagini specifice
grep "GPTBot" access.log | grep "/invisible-page-path/"
Dacă nu există vizite: Nu descoperă aceste pagini.
Dacă există vizite dar nu sunt citate: Problemă de calitate a conținutului, nu de acces.
Pasul 2: Test de acces direct
Testează ce văd crawlerii când accesează pagina:
curl -A "GPTBot" -s https://yoursite.com/page-path/ | head -200
Verifică:
- Conținutul complet apare în HTML
- Fără redirect către logare/paywall
- Fără mesaj „bot detectat”
- Conținutul cheie nu este doar în JavaScript
Pasul 3: Test de redare
Crawlerii AI diferă în capacitatea de redare JS. Testează cu JS dezactivat:
- Deschide pagina în browser
- Dezactivează JavaScript (Developer Tools)
- Conținutul principal apare?
Dacă dispare fără JS, aici e problema.
Pasul 4: Verificare limitare rată
Limitezi agresiv boții?
Verifică dacă WAF sau CDN blochează după X cereri.
Crawlerii AI pot fi blocați în mijlocul crawlării.
Cele mai comune probleme pe care le găsesc:
- Pagini nelinkuite intern (orfane)
- Conținut redat prin JavaScript
- Protecție agresivă anti-bot
- Pagini lipsă din sitemap