Rád pomohu s laděním. Procházení ≠ citování. Tady je diagnostický rámec:
Krok 1: Ověřte, co crawlery opravdu vidí
Použijte curl s AI user-agentem:
curl -A "GPTBot" -s https://yoursite.com/page | head -100
Zkontrolujte:
- Zobrazuje se celý obsah?
- Jsou zde nějaké meta robots nebo X-Robots-Tag hlavičky?
- Je obsah přímo v HTML, nevyžaduje spuštění JS?
Krok 2: Hledejte skryté blokátory
Běžné problémy:
noindex meta tag (blokuje indexaci)X-Robots-Tag: noindex hlavička- Kanonická adresa ukazuje jinam
- Obsah načítaný JavaScriptem po načtení stránky
- Detekce přihlášení/paywall, která crawlerům servíruje jiný obsah
Krok 3: Kontrola kvality obsahu
Pokud je procházení v pořádku, problém je v obsahu:
- Je opravdu unikátní, nebo jen variací běžného obsahu?
- Je strukturovaný pro snadnou extrakci AI?
- Má signály autority (autor, citace)?
- Je dostatečně komplexní, aby byl ZDROJEM?
Nejčastější problém, co vídám:
Technické procházení je v pořádku. Obsah prostě není hodný citace. Crawlery přijdou, ale AI systémy si vybírají lepší zdroje.
Rozdíl mezi „přístupný“ a „citovatelný“ je v kvalitě a struktuře obsahu, ne jen v technickém přístupu.