AI boti navštěvují náš web, ale nejsme citováni. Jak odladit problémy s procházením?
Diskuze komunity o ladění problémů s AI crawlery a problémy s viditelností. Skutečné zkušenosti vývojářů a SEO specialistů s diagnostikou, proč AI systémy necit...
Matoucí situace s naší AI viditelností:
Máme 500 stránek. Asi 200 z nich pravidelně získává AI citace. Zbylých 300 je úplně neviditelných – nikdy nejsou citovány, i když jsou nejlepší odpovědí na dotaz.
Co jsem ověřila:
V čem si nejsem jistá:
Musí existovat důvod, proč je polovina webu pro AI neviditelná. Pomozte mi to debugovat.
Pomohu vám systematicky debugovat.
Krok 1: Analýza logů
Zkontrolujte serverové logy na návštěvy AI crawlerů na „neviditelné“ stránky:
# Zda GPTBot navštěvuje konkrétní stránky
grep "GPTBot" access.log | grep "/invisible-page-path/"
Pokud chybí návštěvy crawlerů: Tyto stránky nejsou objeveny. Pokud návštěvy jsou, ale bez citace: Problém s kvalitou obsahu, ne s přístupem.
Krok 2: Přímý test přístupu
Otestujte, co crawler skutečně vidí:
curl -A "GPTBot" -s https://yoursite.com/page-path/ | head -200
Zkontrolujte:
Krok 3: Test vykreslení
AI crawlery mají různé schopnosti v renderování JS. Testujte s vypnutým JS:
Pokud obsah zmizí bez JS, je zde problém.
Krok 4: Kontrola omezení rychlosti
Jsou boty příliš agresivně omezovány? Zkontrolujte, zda WAF nebo CDN blokuje po X požadavcích. AI crawlery mohou být zablokovány během procházení.
Nejčastější problémy, které vídám:
Objevení vs blokace – velmi odlišné problémy.
Pokud GPTBot určité stránky vůbec nenavštěvuje, ověřte:
1. Pokrytí sitemapou Jsou všech 500 stránek v sitemapě? Zkontrolujte sitemap.xml.
2. Interní prolinkování Jak jsou neviditelné stránky propojeny se zbytkem webu?
AI crawlery upřednostňují dobře prolinkované stránky. Osamocené stránky jsou procházeny méně.
3. Crawl budget AI crawlery mají limity. Pokud je web velký, nemusí projít vše.
4. Hloubka odkazu Kolik kliknutí z homepage je potřeba k dosažení neviditelných stránek?
Řešení:
Pokud 300 stránek není objeveno, pravděpodobně půjde o interní prolinkování.
Proveďte audit interní linkové struktury:
Nástroje jako Screaming Frog ukáží:
Běžné vzorce, které vídám:
Blogové příspěvky pouze z archivu Vaše stránka archivu blogu 15 odkazuje na staré příspěvky. Crawlery tak daleko často nejdou.
Produktové stránky pouze z kategorie Kategorie 8 odkazů na produkty. Příliš hluboko.
Resource stránky bez odkazů Výborný obsah, ale nikdo na něj neodkazuje.
Řešení:
Hub stránky Vytvořte stránky „Zdroje“ nebo „Průvodci“ s odkazy na více souvisejících článků.
Odkazy na související obsah Na konci každého příspěvku odkažte na 3–5 souvisejících článků.
Drobečková navigace Pomáhá crawlerům pochopit hierarchii a najít stránky.
Aktualizace navigace Lze přidat populární hluboké stránky do hlavní navigace nebo patičky?
Interní prolinkování není jen SEO best practice – je to způsob, jak crawlery objevují váš obsah.
Pojďme do hloubky s vykreslováním JavaScriptu:
Co zvládají AI crawlery:
| Crawler | Vykreslení JS |
|---|---|
| GPTBot | Omezené |
| PerplexityBot | Omezené |
| ClaudeBot | Omezené |
| Google-Extended | Ano (přes Googlebot) |
Bezpečný předpoklad: Většina AI crawlerů uvidí to, co vy s vypnutým JS.
Běžné JS problémy:
Client-side rendering React/Vue/Angular aplikace, které renderují obsah jen v prohlížeči. Crawlery vidí prázdné kontejnery.
Lazy loading bez fallbacku Obrázky a obsah pod hranou nikdy nejsou načteny crawlerem.
Interaktivní komponenty skrývající obsah Taby, akordeony, carousel – obsah ve skrytých stavech nemusí být v HTML.
Schema vkládané JS Schema přidané pomocí JavaScriptu nemusí být zpracováno.
Testování:
# Zobrazit surové HTML (co vidí crawlery)
curl -s https://yoursite.com/page/
# Porovnat s renderovaným HTML (prohlížeč > Zobrazit zdroj)
Pokud v curl výstupu chybí klíčový obsah, je zde JS problém.
Řešení:
Ochrana proti botům může tiše blokovat AI crawlery.
Běžná ochrana, která způsobuje problémy:
Cloudflare Bot Fight Mode Může vyzývat nebo blokovat AI crawlery. Zkontrolujte: Security > Bots > Bot Fight Mode
Omezení rychlosti Pokud omezujete počet požadavků/IP/min, AI crawlery mohou narazit na limity.
JavaScriptové výzvy Pokud posíláte JS challenge, AI crawlery je nemusí zvládnout.
Blokace user agentů Některé WAF blokují neznámé/suspektní user agenty.
Jak ověřit:
Doporučené nastavení pro AI crawlery:
Většina CDN/WAF umožňuje whitelist podle user agenta:
Chcete chránit před škodlivými boty, ne před AI crawlery, kteří chtějí indexovat váš obsah.
Optimalizace sitemap pro objevení AI crawlerem:
Best practice pro sitemap:
Zahrnout VŠECHNY důležité stránky Nejen nový obsah. Vše, co chcete, aby bylo objeveno.
Signály frekvence aktualizace
Použijte <lastmod> pro označení aktualizace obsahu.
Nedávno aktualizované stránky mohou být upřednostněny.
Sitemap v robots.txt
Sitemap: https://yoursite.com/sitemap.xml
Zajistí, že všechny crawlery ji najdou.
Ověření:
# Ověřit přístupnost sitemap
curl -I https://yoursite.com/sitemap.xml
# Mělo by vrátit 200
# Ověřit počet stránek v sitemap
curl -s https://yoursite.com/sitemap.xml | grep -c "<url>"
Pokud vaše neviditelné stránky nejsou v sitemap, přidejte je.
Tip k prioritě:
Tag <priority> můžete použít, většina crawlerů ho ale ignoruje. Spíše spoléhejte na interní prolinkování a signály aktualizace.
Našla jsem problémy! Debugging ukázal:
Problém 1: Objevení (hlavní)
Problém 2: Ochrana proti botům (vedlejší)
Problém 3: JS obsah (menší)
Implementovaná řešení:
Revize interního prolinkování
Konsolidace sitemap
Úprava ochrany proti botům
Implementace SSR
Klíčový poznatek:
Stránky nebyly blokovány – jen nebyly objeveny. Interní prolinkování a pokrytí sitemap jsou zásadní pro přístup AI crawlerů.
Díky všem za skvělý debuggingový rámec!
Get personalized help from our team. We'll respond within 24 hours.
Sledujte, které AI crawlery přistupují na váš web a zajistěte, že váš obsah je pro AI systémy viditelný.
Diskuze komunity o ladění problémů s AI crawlery a problémy s viditelností. Skutečné zkušenosti vývojářů a SEO specialistů s diagnostikou, proč AI systémy necit...
Diskuze komunity o nástrojích, které ověřují crawlability pro AI. Jak ověřit, že GPTBot, ClaudeBot a PerplexityBot mají přístup k vašemu obsahu.
Diskuze komunity o tom, zda lazy loading obrázků a obsahu ovlivňuje viditelnost pro AI crawlery. Vývojáři sdílí zkušenosti a osvědčené postupy.