Probleme frecvente care blochează crawlerele AI:
1. Wildcard în robots.txt
User-agent: *
Disallow: /
Aceasta blochează TOȚI bot-ii nespecificați, inclusiv crawlerele AI.
Soluție:
User-agent: Googlebot
Allow: /
User-agent: GPTBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: *
Disallow: /
2. Limitarea ratei
Limitarea agresivă a ratei poate bloca IP-urile crawlerilor.
Verifică dacă WAF sau CDN-ul tău blochează.
3. Liste de IP-uri blocate
Unele pluginuri de securitate blochează IP-urile “suspecte”.
IP-urile crawlerilor AI pot fi marcate.
4. Cerință de autentificare
Orice cerință de login blochează crawlerele.
Asigură-te că paginile publice chiar sunt publice.
5. Randare JavaScript
Conținutul randat doar prin JS ar putea să nu fie vizibil.
Crawlerele AI s-ar putea să nu execute complet JavaScript-ul.
6. Răspuns lent
Pagini care durează peste 5-10 secunde pot cauza timeout.
Crawlerele pot renunța.
Testare pentru fiecare:
- robots.txt: verificare directă pe URL
- Limitare rată: vezi logurile WAF/CDN
- Blocare IP: testează din IP-uri diferite
- Autentificare: încearcă acces anonim
- JS: vezi sursa paginii vs randare
- Viteză: GTmetrix sau similar