robots.txtで許可すべきAIクローラーは?GPTBot、PerplexityBotなど
どのAIクローラーを許可またはブロックすべきかに関するコミュニティディスカッション。GPTBot、PerplexityBot、その他AIクローラーへのアクセスについて、ウェブマスターたちの実際の判断例(可視性とコンテンツ管理のバランス)を紹介。...
AIクローラー向けのrobots.txt設定について調べていますが、ネットの情報は矛盾してばかりです。
「コンテンツ保護」のために全部ブロックすべきという記事と、AIでの可視性のために全部許可すべきという記事もあります。多くは具体的なクローラー名すら出していません。
私が知りたいのは:
現状、うちのrobots.txtは2019年のルールがごちゃごちゃに混ざっていて、この辺には全く対応できていません。
実際にきちんとやった方、どう設定していますか?
エンタープライズサイト約40件のrobots.txtを管理しています。実際に重要な分類は以下です:
Tier 1 - 必ず設定すべき:
GPTBot - OpenAIの学習用クローラーChatGPT-User - ChatGPTのブラウジングモードClaudeBot - AnthropicのクローラーGoogle-Extended - Google Gemini学習用PerplexityBot - PerplexityのインデックスTier 2 - 検討の価値あり:
anthropic-ai - AnthropicのセカンダリクローラーOAI-SearchBot - OpenAIの検索インデクサCCBot - Common Crawl(多くのAI企業が利用)当社の例:
User-agent: GPTBot
Allow: /blog/
Allow: /resources/
Disallow: /pricing/
Disallow: /admin/
User-agent: PerplexityBot
Allow: /
ポイント:PerplexityBotは必ず完全許可しています。なぜなら実際にページを引用付きでリンクしてくれるから。これをブロックするのは何のメリットもなく自分に不利益です。
まさに求めていたフレームワークです。1つ質問ですが、GPTBotをブロックすると本当にChatGPTからコンテンツが消えるのでしょうか?それとも既に学習データに入っていますか?
6か月前にブロックしましたが、それでもブランド名がChatGPTの回答に登場します。
良い質問です。GPTBotのブロックは今後の学習データ収集のみに影響します。すでに学習セットに入っている内容(GPT-4なら2024年以前)はそのままです。
影響するのは:
つまり、半年前にブロックしてもChatGPTはそれ以前に「覚えた」内容は保持しています。ただし、新しいコンテンツをサイトから取得できません。
私がクライアントに伝えているのは:今ブロックしても過去は消せない、将来の可視性を制限するだけという点です。
昨年、「コンテンツ保護」のアドバイスに従い、すべてのAIクローラーをブロックして大失敗しました。
その結果:
今は方針転換し、主要AIクローラー全てを許可しています。「保護」の主張は、以下を理解した後では意味がなかったです:
唯一の例外は本当に機密な認証裏のコンテンツで、こうしたページはすでにdisallowしています。
(ヘルスケアテックなど)厳格な規制業界からの視点です。
AIによるアクセスを制御すべき正当な理由もあります:
私たちのアプローチ:
階層型で管理しています:
重要なのは「意図的に」決めること。「全部ブロック/全部許可」はどちらも安易。コンテンツを分類し、それぞれの目的を理解し、適切に設定しましょう。
気づくのに時間がかかったプロのコツ:
実際のクローラーUser-Agentでrobots.txtをテストしましょう。
正しく設定したつもりでも、サーバーログを見ると一部AIクローラーがルールにマッチしていなかったことが判明。User-Agent名のタイプミスが原因でした。
“GPT-Bot"と"GPTBot"は別物です。私は間違って3か月も前者で設定していました。
Googleのrobots.txtテスターやコマンドラインツールで、各ルールが想定通りマッチするか必ず検証を。
ほとんどの企業に対する私の標準的な推奨は:
デフォルトは許可、戦略的に制限。
ブロックが有効なのはごく一部例外:
それ以外の大多数にとってはシンプル:**AIでの可視性は成長するトラフィック源。**Perplexity単体でも月2億クエリ以上。ここで見えなくなるのは戦略的損失。
クライアント向けの標準設定例:
# 公開コンテンツは全AIクローラー許可
User-agent: GPTBot
User-agent: ClaudeBot
User-agent: PerplexityBot
User-agent: Google-Extended
Allow: /
# 機密エリアは制限
Disallow: /admin/
Disallow: /internal/
Disallow: /api/
誰も言及しませんが、設定後に実際の挙動を監視することが重要です。
分析ツールでAIボットのトラフィック通知を設定したところ、興味深い傾向が見えました:
このデータで、どのAIプラットフォームが本当に自社コンテンツをインデックスしているか把握できます。AIの引用トラッキングツールと組み合わせて、「robots.txt許可→AIクローリング→AIによる引用」の流れが可視化できます。
監視せずにいると、効果は推測でしかありません。
パブリッシャー視点です。1万本以上の記事を持つニュース・分析サイトを運営しています。
我々が痛感したこと:
AIクローラーをブロックした結果、予想外の損失がありました:
「保護」論はAIがコンテンツを盗む前提ですが、実際は引用とトラフィック誘導が主流。ブロックすれば会話から外れるだけです。
今は全AIクローラーを許可し、Am I Citedで引用状況を監視。AI流入トラフィックは切り替え後340%増加しました。
このスレッドは非常に参考になりました。皆さんの意見を踏まえ、私が実施するまとめ:
即時対応:
監視体制: 4. サーバーログでAIボットトラフィックを追跡 5. Am I Citedで実際の引用を監視 6. 30日後に効果をレビュー
最大の学びは、ブロックしても既存の学習データの保護にはならず、将来の可視性を狭めるだけということ。そしてAI検索は急成長中なので「可視性」が「保護」より重要です。
現実的な設定や体験談、皆さんありがとうございました。
Get personalized help from our team. We'll respond within 24 hours.
どのAIクローラーがあなたのサイトにアクセスし、ChatGPT、Perplexity、ClaudeなどのAI生成回答でどのようにコンテンツが表示されているかを追跡しましょう。
どのAIクローラーを許可またはブロックすべきかに関するコミュニティディスカッション。GPTBot、PerplexityBot、その他AIクローラーへのアクセスについて、ウェブマスターたちの実際の判断例(可視性とコンテンツ管理のバランス)を紹介。...
GPTBot、ClaudeBot、PerplexityなどのAIクローラーのアクセスを制御するためのrobots.txt設定方法を解説。AI生成回答でのブランド露出を管理しましょう。...
AIボットによるサイトクローリングを許可するかについてのコミュニティディスカッション。robots.txtの設定やllms.txtの実装、AIクローラー管理の実体験。...
クッキーの同意
閲覧体験を向上させ、トラフィックを分析するためにクッキーを使用します。 See our privacy policy.