Typowe problemy blokujące AI crawlery:
1. Wildcard w robots.txt
User-agent: *
Disallow: /
To blokuje WSZYSTKIE niesprecyzowane boty, w tym AI crawlery.
Napraw:
User-agent: Googlebot
Allow: /
User-agent: GPTBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: *
Disallow: /
2. Ograniczanie liczby żądań (rate limiting)
Agresywne limity mogą blokować IP crawlerów.
Sprawdź, czy Twój WAF lub CDN blokuje.
3. Blokady IP
Niektóre wtyczki bezpieczeństwa blokują „podejrzane” IP.
IP crawlerów AI mogą być oznaczone.
4. Wymóg logowania
Jakikolwiek wymóg logowania blokuje crawlery.
Upewnij się, że treści publiczne są naprawdę publiczne.
5. Renderowanie JavaScript
Treść renderowana tylko przez JS może być niewidoczna.
AI crawlery mogą nie wykonywać pełnego JavaScriptu.
6. Wolna odpowiedź
Strony ładujące się powyżej 5-10 sekund mogą powodować timeout.
Crawlery mogą zrezygnować.
Testowanie każdego przypadku:
- robots.txt: Bezpośrednie sprawdzenie URL
- Ograniczanie żądań: Sprawdź logi WAF/CDN
- Blokady IP: Test z różnych IP
- Autoryzacja: Przeglądanie anonimowe
- JS: Porównaj źródło strony z widokiem renderowanym
- Szybkość: GTmetrix lub podobne