Discussion Technical SEO Debugging

AI boti navštěvují náš web, ale nejsme citováni. Jak odladit problémy s procházením?

WE
WebDev_Marcus · Senior Web Developer
· · 68 upvotes · 9 comments
WM
WebDev_Marcus
Senior Web Developer · 2. ledna 2026

Matoucí situace:

Naše serverové logy ukazují pravidelné přístupy od GPTBot, PerplexityBot a ClaudeBot. Dostávají odpověď 200. Takže náš obsah určitě procházejí.

Ale když se zeptám ChatGPT, Perplexity nebo Claude na otázky, které náš obsah perfektně pokrývá, nikdy nejsme citováni. Místo toho jsou citováni konkurenti s objektivně horším obsahem.

Co jsem ověřil:

  • robots.txt povoluje všechny AI crawlery
  • Stránky vrací stav 200
  • Obsah je serverově renderovaný (žádný klientský JS)
  • Stránky jsou rychlé (<2s načtení)

Co se snažím zjistit:

  • Jak zjistím, co crawler skutečně vidí?
  • Co může způsobit úspěšné procházení, ale selhání citace?
  • Jsou zde skryté technické problémy, které mi unikají?

To mě dohání k šílenství. Crawlery přijdou, ale v AI odpovědích jsme neviditelní.

9 comments

9 komentářů

CE
CrawlerDebug_Expert Expert Technical SEO Consultant · 2. ledna 2026

Rád pomohu s laděním. Procházení ≠ citování. Tady je diagnostický rámec:

Krok 1: Ověřte, co crawlery opravdu vidí

Použijte curl s AI user-agentem:

curl -A "GPTBot" -s https://yoursite.com/page | head -100

Zkontrolujte:

  • Zobrazuje se celý obsah?
  • Jsou zde nějaké meta robots nebo X-Robots-Tag hlavičky?
  • Je obsah přímo v HTML, nevyžaduje spuštění JS?

Krok 2: Hledejte skryté blokátory

Běžné problémy:

  • noindex meta tag (blokuje indexaci)
  • X-Robots-Tag: noindex hlavička
  • Kanonická adresa ukazuje jinam
  • Obsah načítaný JavaScriptem po načtení stránky
  • Detekce přihlášení/paywall, která crawlerům servíruje jiný obsah

Krok 3: Kontrola kvality obsahu

Pokud je procházení v pořádku, problém je v obsahu:

  • Je opravdu unikátní, nebo jen variací běžného obsahu?
  • Je strukturovaný pro snadnou extrakci AI?
  • signály autority (autor, citace)?
  • Je dostatečně komplexní, aby byl ZDROJEM?

Nejčastější problém, co vídám:

Technické procházení je v pořádku. Obsah prostě není hodný citace. Crawlery přijdou, ale AI systémy si vybírají lepší zdroje.

Rozdíl mezi „přístupný“ a „citovatelný“ je v kvalitě a struktuře obsahu, ne jen v technickém přístupu.

WM
WebDev_Marcus OP · 2. ledna 2026
Replying to CrawlerDebug_Expert
Test s curlem je užitečný. Spustil jsem ho a obsah se zobrazuje. Žádné noindex tagy. Ale máš pravdu – možná problém vůbec není technický. Jak posoudím, jestli je obsah „hodný citace“?
CE
CrawlerDebug_Expert Expert · 2. ledna 2026
Replying to WebDev_Marcus

Checklist pro citovatelnost:

1. Unikátnost

  • Říká váš obsah něco, co konkurence ne?
  • Originální data, výzkum nebo postřehy?
  • Nebo jen přepracovává běžné informace?

2. Struktura

  • Může AI z vašeho obsahu snadno vytáhnout odpověď?
  • Je zde TL;DR nebo přímá odpověď?
  • Jsou sekce jasně oddělené?

3. Autorita

  • Autor s kredity?
  • Citace zdrojů?
  • Čerstvý/aktualizovaný obsah?

4. Komplexnost

  • Odpovídá to kompletně na otázku?
  • Nebo musí AI kombinovat s jinými zdroji?

Tvrdá pravda:

Většina obsahu na internetu je průměrná. AI má miliony možností ke citaci. Vybírá ty nejlepší.

Pokud je váš obsah:

  • Podobný stovkám jiných webů
  • Strukturovaný jako příběh, ne odpověď
  • Bez jasných signálů autority
  • Není nejkomplexnějším zdrojem

…pak nebude citován, bez ohledu na technický přístup.

Porovnejte svůj obsah s tím, co JE citováno. Co mají oni, co vy ne?

LP
LogAnalysis_Pro DevOps Engineer · 1. ledna 2026

Takhle analyzuji chování AI crawlerů v logách:

Analýza logů pro AI crawlery:

# Najděte všechny přístupy AI crawlerů
grep -E "(GPTBot|ChatGPT-User|ClaudeBot|PerplexityBot|Google-Extended)" access.log

# Zkontrolujte status kódy
grep "GPTBot" access.log | awk '{print $9}' | sort | uniq -c

# Na které stránky chodí nejvíc
grep "GPTBot" access.log | awk '{print $7}' | sort | uniq -c | sort -rn

Co sledovat:

  1. Status kódy

    • 200: OK, získali obsah
    • 301/302: Přesměrování – ověřte, že vedou na správné místo
    • 403/404: Problémy – ihned opravit
    • 500: Chyby serveru – vyšetřit
  2. Vzor procházení

    • Které stránky se crawlují nejvíc?
    • Jsou vaše nejlepší stránky navštěvované?
    • Nějaké stránky nikdy neprocházené?
  3. Frekvence procházení

    • GPTBot: Obvykle víckrát denně
    • PerplexityBot: Velmi často (real-time vyhledávání)
    • Pokud žádné přístupy týdny, zkontrolujte robots.txt

Běžné problémy v logách:

  • CDN skrývá skutečné user agenty
  • Load balancer odstraňuje hlavičky
  • Rotace logů vynechává přístupy crawlerů

Ujistěte se, že vidíte surové, nefiltrované logy.

CS
ContentQuality_Sarah · 1. ledna 2026

Když jste ověřili technický přístup, podívám se na obsah:

Proč AI může crawlovat, ale necitovat:

  1. Obsah je generický “5 tipů pro lepší email marketing” – těch je 10 000. AI cituje ten nejlepší, ne všechny.

  2. Chybí extrahovatelná odpověď Příběhový obsah bez jasného závěru je pro AI těžké citovat.

  3. Zastaralé informace Pokud váš obsah uvádí “trendy 2023”, AI dá přednost aktuálním zdrojům.

  4. Slabé signály autority Žádný autor, chybí citace zdrojů, nejsou uvedeny kredity.

  5. Špatná struktura AI potřebuje jasně dělené sekce. Plynulý text se hůře extrahuje.

Diagnostický test:

Zeptejte se: Kdybych byl AI a měl citovat JEDEN zdroj k tomuto tématu, vybral bych svůj obsah nebo konkurenci?

Buďte upřímní. Co má konkurence, co vy ne?

Obvykle je to:

  • Komplexnější pokrytí
  • Lepší struktura pro extrakci
  • Silnější signály autority
  • Aktuálnější informace

Vylepšete toto a citace přijdou.

JD
JSRendering_Dev · 1. ledna 2026

Technický pohled na JavaScript rendering:

I když je hlavní obsah serverově renderovaný, ověřte:

1. Lazy-loadované sekce obsahu Důležitý obsah pod ohybem může být načten až po prvním renderu.

// Tento obsah nemusí být pro crawlery viditelný
<div data-lazy="true">Důležitý obsah zde</div>

2. Interaktivní prvky skrývající obsah Panely, záložky, rozbalovací sekce mohou obsah skrýt před AI.

3. Strukturovaná data generovaná JavaScriptem Pokud je schéma vkládáno přes JS, crawlery ho nemusí vidět.

Testovací nástroj:

Google Mobile-Friendly Test ukazuje vykreslené HTML: https://search.google.com/test/mobile-friendly

Porovnejte, co vidíte tam, a na reálné stránce. Rozdíly mohou vysvětlit problémy s viditelností.

Rychlá kontrola:

Zobrazte si stránku s vypnutým JavaScriptem. Cokoli je tam vidět, crawlery určitě vidí. Pokud klíčový obsah chybí, je to váš problém.

ST
SchemaDebug_Tom · 31. prosince 2025

Problémy se schématy, které brání citacím:

I když je obsah viditelný, špatné schéma může uškodit:

  1. Neplatné schéma Ověřte pomocí Google Rich Results Test. Neplatné schéma může být úplně ignorováno.

  2. Chybějící schéma Chybí-li Organization, Article nebo FAQ schéma, AI musí hádat typ vašeho obsahu.

  3. Konfliktní schéma Více Organization schémat s různými informacemi. AI neví, čemu věřit.

Jak testovat:

# Stáhněte a ověřte schéma
curl -s https://yoursite.com | grep -o 'application/ld+json' | wc -l

Pak ověřte každý blok na: https://validator.schema.org/

Běžné chyby ve schématu:

  • Chybí @context
  • Špatný @type
  • Neplatné formáty dat
  • URL pole bez http/https
  • Chybí povinné vlastnosti

Opravte chyby ve schématu. AI systémy parseují schéma pro pochopení obsahu. Neplatné schéma = nejasný obsah.

WM
WebDev_Marcus OP Senior Web Developer · 30. prosince 2025

Tato diskuze mi otevřela oči: náš problém není technický.

Co jsem testoval:

  • curl s AI user-agenty: obsah se vykresluje správně
  • Nikde žádné noindex tagy
  • Schéma je validní
  • JavaScript neskrývá klíčový obsah
  • Logy ukazují pravidelné návštěvy crawlerů s kódem 200

Co jsem zjistil při porovnání s citovanými konkurenty:

Jejich obsah má:

  • Přímou odpověď v prvním odstavci (my odpověď schováváme)
  • FAQ sekce se schématem (my nemáme ani jedno)
  • Bio autora s kredity (my máme obecné)
  • Srovnávací tabulky (my máme narativní odstavce)
  • Aktualizovaná data (my jsme neaktualizovali 18 měsíců)

Můj akční plán:

  1. Přestat ladit technické věci (tam problém není)
  2. Zaměřit se na kvalitu a strukturu obsahu
  3. Přidat FAQ sekce se schématem
  4. Přepracovat na přímé odpovědi
  5. Přidat kredity autorů
  6. Aktualizovat zastaralý obsah

Klíčové poznání:

Procházení funguje + nejsme citováni = problém je v kvalitě/struktuře obsahu, ne v technice.

Ladil jsem špatnou vrstvu. Díky všem!

Have a Question About This Topic?

Get personalized help from our team. We'll respond within 24 hours.

Frequently Asked Questions

Jak zjistím, že AI crawlery přistupují na můj web?
Zkontrolujte serverové logy na uživatelské agenty AI crawlerů: GPTBot, ChatGPT-User, ClaudeBot, PerplexityBot, Google-Extended. Hledejte kódy stavu 200, které potvrzují úspěšný přístup. Většina AI crawlerů přistupuje často – pokud je nevidíte, ověřte, že je neblokujete v robots.txt.
Proč mohou AI crawlery přistupovat k mému obsahu, ale necitovat ho?
Běžné důvody: obsah je příliš stručný nebo obecný na to, aby byl hodný citace, struktura obsahu ztěžuje extrakci, obsah postrádá signály autority, je zastaralý nebo existují lepší zdroje na dané téma. Procházení znamená pouze přístup – citace vyžaduje obsah, který je pro AI natolik hodnotný, aby ho odkázala.
Jak otestuji, co AI crawlery na mých stránkách skutečně vidí?
Použijte curl s AI user-agent hlavičkami pro stažení vašich stránek. Zkontrolujte, zda se zobrazí obsah generovaný JavaScriptem. Porovnejte zdrojový kód stránky s vykreslenou stránkou, abyste viděli, co crawlery získají. Otestujte, že klíčový obsah není v lazy-loaded sekcích nebo za JavaScriptem, který crawlery neumí spustit.

Sledujte aktivitu AI crawlerů

Sledujte, které AI crawlery přistupují na váš web a jak se váš obsah zobrazuje v AI odpovědích.

Zjistit více