Discussion Technical SEO AI Crawlers

Opravdu už někdo správně nastavil robots.txt pro AI crawlery? Online návody jsou úplně zmatené

DE
DevOps_Mike · Senior Web Developer
· · 127 upvotes · 11 comments
DM
DevOps_Mike
Senior Web Developer · 9. ledna 2026

Snažím se přijít na správnou konfiguraci robots.txt pro AI crawlery a informace online si navzájem odporují.

Některé články radí vše blokovat kvůli „ochraně obsahu“. Jiné tvrdí, že je potřeba vše povolit kvůli viditelnosti v AI. Většina ani nezmiňuje konkrétní názvy crawlerů.

Co se snažím zjistit:

  • Na kterých AI crawlerech opravdu záleží? Viděl jsem zmíněné GPTBot, ClaudeBot, Google-Extended, PerplexityBot
  • Když zablokuji GPTBot, zmizí můj obsah úplně z ChatGPT?
  • Existuje nějaký kompromis, kdy mohu část obsahu povolit, ale chránit citlivé stránky?

Momentálně je náš robots.txt nepořádek s pravidly z roku 2019, která tohle určitě neřeší.

Má někdo opravdu zkušenost s pořádným nastavením – jaký je váš postup?

11 comments

11 komentářů

SI
SEO_Infrastructure_Lead Expert Technical SEO Director · 9. ledna 2026

Spravuji robots.txt asi pro 40 firemních webů. Tady je rozpis, na čem opravdu záleží:

1. úroveň – nutná konfigurace:

  • GPTBot – trénovací crawler od OpenAI
  • ChatGPT-User – prohlížecí mód ChatGPT
  • ClaudeBot – crawler od Anthropic
  • Google-Extended – trénování Google Gemini
  • PerplexityBot – index od Perplexity

2. úroveň – stojí za zvážení:

  • anthropic-ai – sekundární crawler Anthropic
  • OAI-SearchBot – indexovací bot OpenAI
  • CCBot – Common Crawl (využívá mnoho AI firem)

Co děláme:

User-agent: GPTBot
Allow: /blog/
Allow: /resources/
Disallow: /pricing/
Disallow: /admin/

User-agent: PerplexityBot
Allow: /

Hlavní poznatek: PerplexityBot vždy povoluji naplno, protože vaše stránky skutečně cituje s odkazy. Jeho blokace je zbytečná a jen si tím uškodíte.

CA
ContentProtection_Anna · 9. ledna 2026
Replying to SEO_Infrastructure_Lead

Přesně tento rámec jsem potřebovala. Rychlý dotaz – opravdu blokace GPTBot odstraní obsah z ChatGPT? Nebo už je v jejich trénovacích datech?

Zablokovali jsme ho před 6 měsíci, ale naše značka se v odpovědích ChatGPT stále objevuje.

SI
SEO_Infrastructure_Lead Expert · 9. ledna 2026
Replying to ContentProtection_Anna

Skvělý dotaz. Blokace GPTBot ovlivňuje pouze budoucí sběr trénovacích dat. Obsah, který už mají v trénovacím setu (před rokem 2024 pro GPT-4), tam stále zůstává.

Co tím ovlivníte:

  • Prohlížecí mód ChatGPT (ChatGPT-User)
  • Budoucí aktualizace modelu
  • Funkce pro získávání dat v reálném čase

Takže pokud jste blokovali před 6 měsíci, ChatGPT stále „zná“ to, co už se naučil předtím. Ale nemůže ze stránek získávat čerstvý obsah.

Proto klientům říkám: blokace teď nezmění minulost, pouze omezí budoucí viditelnost.

AP
AgencyOwner_Patrick Digital Agency Founder · 8. ledna 2026

Udělali jsme velkou chybu, když jsme loni na základě rad o „ochraně obsahu“ zablokovali všechny AI crawlery.

Co se stalo:

  • Organická návštěvnost zůstala stejná (Googleu je blokace AI crawlerů jedno)
  • Klienti se začali ptát „proč se nezobrazujeme, když se ChatGPT ptám na náš obor?“
  • Konkurence, která crawlery povolila, byla zmiňována pořád

Teď jsme změnili názor a povolujeme všechny hlavní AI crawlery. Argument „ochrany“ přestal dávat smysl, když jsme si uvědomili:

  1. Trénovací data už byla sebrána
  2. Blokace přístupu v reálném čase nás jen dělá neviditelnými
  3. Neexistuje důkaz, že blokace předchází jakékoliv skutečné škodě

Jedinou výjimkou je skutečně proprietární obsah za přihlášením – a ty stránky už byly zakázané.

ES
EnterpriseCompliance_Sarah VP of Compliance, Enterprise SaaS · 8. ledna 2026

Jiný pohled z vysoce regulovaného oboru (zdravotnické technologie).

Máme legitimní důvody, proč kontrolovat AI přístup k určitým částem obsahu:

  • Dokumentace týkající se pacientů
  • Interní pracovní dokumenty, které se omylem dostaly do indexu
  • Informace o cenách a smluvních podmínkách

Náš přístup:

Vytvořili jsme systém podle úrovní:

  1. Veřejný marketingový obsah – povolit všem AI crawlerům
  2. Produktová dokumentace – povolit, ale monitorovat pomocí Am I Cited, co se cituje
  3. Citlivý obchodní obsah – zakázat všem crawlerům
  4. Interní stránky – zákaz + autentizace

Klíč je v záměrném přístupu. „Vše blokovat“ i „vše povolit“ jsou líná řešení. Zmapujte si obsah, pochopte, co má který typ dělat, a podle toho nastavte.

SJ
StartupCTO_James · 8. ledna 2026

Tip, na který jsem přišel až po dlouhé době:

Otestujte svůj robots.txt skutečnými user-agenty crawlerů.

Myslel jsem, že mám vše správně, dokud jsem nezkontroloval serverové logy a nezjistil, že některé AI crawlery neodpovídají pravidlům kvůli překlepům v názvech user-agentů.

„GPT-Bot“ není totéž jako „GPTBot“ – hádejte, který z nich jsem měl špatně 3 měsíce?

Použijte Google robots.txt tester nebo příkazové nástroje, abyste si ověřili, že každé pravidlo opravdu odpovídá tomu, co čekáte.

SR
SEOConsultant_Rachel Expert · 7. ledna 2026

Toto je moje standardní doporučení pro většinu firem:

Povolte ve výchozím nastavení, omezujte strategicky.

Firmy, kterým se opravdu vyplatí blokovat, jsou vzácné výjimky:

  • Prémioví vydavatelé, kteří se bojí sumarizace obsahu
  • Společnosti s opravdu proprietárním technickým obsahem
  • Organizace v právních sporech ohledně AI trénování

Pro všechny ostatní je to jednoduché: viditelnost v AI je rostoucí zdroj návštěvnosti. Jen Perplexity má přes 200 milionů dotazů měsíčně. Být tam neviditelný je strategická nevýhoda.

Moje standardní nastavení pro klienty:

# Povolit všem AI crawlerům přístup k veřejnému obsahu
User-agent: GPTBot
User-agent: ClaudeBot
User-agent: PerplexityBot
User-agent: Google-Extended
Allow: /

# Omezit citlivé oblasti
Disallow: /admin/
Disallow: /internal/
Disallow: /api/
DM
DataScience_Marcus · 7. ledna 2026

Jedna věc, kterou nikdo nezmiňuje: sledování, co se po konfiguraci skutečně děje.

Nastavil jsem si upozornění na AI bot provoz v analytice. Zjistil jsem zajímavé vzorce:

  • GPTBot nás navštěvuje asi 500× denně
  • PerplexityBot kolem 200× denně
  • ClaudeBot překvapivě méně často, asi 50× denně

Díky těmto datům vím, které AI platformy náš obsah skutečně indexují. V kombinaci s nástroji na sledování AI citací mám celý obrázek povolené robots.txt > AI crawling > AI citace.

Bez monitoringu jen hádáte, jaký to má dopad.

PE
PublisherSEO_Elena Head of SEO, Digital Publisher · 7. ledna 2026

Pohled vydavatele. Provozujeme zpravodajský/analytický web s více než 10 000 články.

Co jsme se naučili tvrdě:

Blokování AI crawlerů nás poškodilo nečekanými způsoby:

  1. Naše články přestaly být součástí AI generovaných shrnutí k oborovým tématům
  2. Konkurence, která crawlery povolila, se stala „autoritativním zdrojem“
  3. Když se někdo ptal ChatGPT na naše pokrytí, odpověděl, že k našemu obsahu nemá přístup

Argument „ochrany“ předpokládá, že AI váš obsah krade. Ve skutečnosti AI cituje a přivádí návštěvnost k obsahu, ke kterému má přístup. Blokováním se jen vyřadíte z konverzace.

Teď povolujeme všechny AI crawlery a používáme Am I Cited ke sledování citací. AI referral návštěvnost nám od té doby vzrostla o 340 %.

DM
DevOps_Mike OP Senior Web Developer · 6. ledna 2026

Tato diskuze byla neuvěřitelně užitečná. Shrnutí, co na základě vašich rad zavedu:

Okamžité změny:

  1. Povolit všem hlavním AI crawlerům (GPTBot, ClaudeBot, PerplexityBot, Google-Extended) přístup k veřejnému obsahu
  2. Výslovně zakázat citlivé cesty (/admin, /internal, /pricing prozatím)
  3. Opravit překlepy v současné konfiguraci (trapné, ale nutné)

Monitoring: 4. Přidat sledování AI botů v serverových logách 5. Nastavit Am I Cited pro sledování skutečných citací 6. Za 30 dní vyhodnotit dopad

Hlavní poznatek pro mě byl, že blokování nechrání obsah, který už je v trénovacích datech – pouze omezuje budoucí viditelnost. A protože AI vyhledávání rychle roste, viditelnost je důležitější než „ochrana“.

Díky všem za reálné konfigurace a zkušenosti.

Have a Question About This Topic?

Get personalized help from our team. We'll respond within 24 hours.

Frequently Asked Questions

Které AI crawlery bych měl povolit v robots.txt?
Hlavní AI crawlery, které je třeba konfigurovat, jsou GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended (Google Gemini) a PerplexityBot (Perplexity). Každý má jiný účel – GPTBot sbírá trénovací data, zatímco PerplexityBot indexuje obsah pro výsledky v reálném čase s citacemi.
Způsobí blokace AI crawlerů snížení viditelnosti v AI vyhledávání?
Ano. Pokud zablokujete GPTBot nebo PerplexityBot, váš obsah se nebude zobrazovat v odpovědích ChatGPT nebo Perplexity. To je čím dál důležitější, protože 58 % uživatelů nyní používá AI nástroje pro průzkum produktů. Blokace ale ovlivňuje pouze budoucí trénovací data, ne znalosti již existujícího modelu.
Mohu povolit AI crawlery jen pro část obsahu a ostatní blokovat?
Rozhodně. Můžete použít pravidla pro konkrétní cesty jako Allow: /blog/ a Disallow: /private/ pro každý crawler zvlášť. Díky tomu maximalizujete viditelnost veřejného obsahu a zároveň ochráníte citlivé informace, stránky s cenami nebo uzamčený obsah.

Sledujte aktivitu AI crawlerů

Zjišťujte, které AI crawlery přistupují na váš web a jak se váš obsah zobrazuje v AI-generovaných odpovědích v ChatGPT, Perplexity a Claude.

Zjistit více