
実際にAIクローラー向けのrobots.txtを設定した人はいますか?ネット上のガイドはバラバラです
GPTBot、ClaudeBot、PerplexityBotなどのAIクローラー向けrobots.txt設定に関するコミュニティディスカッション。ウェブマスターやSEOスペシャリストによる、AIクローラーアクセスのブロックと許可の実体験を共有。...
クライアントのサイトを監査して、興味深い発見がありました。
発見内容:
robots.txtが2年以上AIクローラーをブロックしていました:
User-agent: *
Disallow: /private/
# これは2023年にセキュリティプラグインで追加された
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
影響:
今、私は疑問に思っています:
コミュニティへの質問:
理論だけでなく実践的な設定例を求めています。
これは多くの人が思っている以上によくあることです。クローラーについて解説します。
AIクローラーの種類:
| クローラー | 会社 | 目的 | 推奨 |
|---|---|---|---|
| GPTBot | OpenAI | モデル学習 | ご自身の判断 |
| ChatGPT-User | OpenAI | リアルタイム検索 | 許可 |
| ClaudeBot | Anthropic | リアルタイム引用 | 許可 |
| Claude-Web | Anthropic | Webブラウジング | 許可 |
| PerplexityBot | Perplexity | 検索インデックス | 許可 |
| Perplexity-User | Perplexity | ユーザーリクエスト | 許可 |
| Google-Extended | Gemini/AI機能 | 許可 |
主な違い:
多くの企業は:
サーチクローラーは許可(引用狙い)、トレーニングクローラーはビジネス判断。
推奨robots.txt例:
# AIサーチクローラーを許可
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: PerplexityBot
User-agent: Perplexity-User
User-agent: Google-Extended
Allow: /
# トレーニングクローラーは必要に応じてブロック(任意)
User-agent: GPTBot
Disallow: /
Sitemap: https://yoursite.com/sitemap.xml
補足:クローラーが本当にブロックされているのか、単に訪問していないのか確認しましょう。
確認方法:
クライアントで発見したこと:
robots.txtでGPTBotを許可していたが、Cloudflareのセキュリティルールが「不審なボット」としてブロックしていました。
AIボット用ファイアウォール設定:
Cloudflareの場合:
robots.txtは必要条件であり十分条件ではありません。
全レイヤーで確認しましょう。
ご質問のllms.txtについて説明します。
llms.txtとは:
AIシステム向けにサイトの構造化概要を提供する新しい標準(2024年提案)。言語モデル専用の目次のようなものです。
設置場所: yoursite.com/llms.txt
基本構成:
# 貴社名
> 会社の簡単な説明
## 主要ページ
- [Home](https://yoursite.com/): メイントップ
- [Products](https://yoursite.com/products): 製品カタログ
- [Pricing](https://yoursite.com/pricing): 価格情報
## リソース
- [Blog](https://yoursite.com/blog): 業界インサイト
- [Documentation](https://yoursite.com/docs): 技術ドキュメント
- [FAQ](https://yoursite.com/faq): よくある質問
## サポート
- [Contact](https://yoursite.com/contact): お問い合わせ
なぜ役立つのか:
AIシステムは文脈ウィンドウに制限があり、サイト全体をクロールして理解できません。llms.txtは厳選された地図を提供します。
導入後の効果:
トレーニングとサーチの区別はもっと注目すべきです。
哲学的な問い:
あなたのコンテンツをAIモデルの学習に使われてもいいですか?
トレーニング許可の賛成理由:
反対理由:
出版社の対応例:
| 出版社種別 | トレーニング | サーチ |
|---|---|---|
| ニュースサイト | ブロック | 許可 |
| SaaS企業 | 許可 | 許可 |
| EC | ケースバイケース | 許可 |
| エージェンシー | 許可 | 許可 |
私の見解:
多くのB2B企業は両方許可が良い。引用メリットがトレーニング懸念を上回ります。
ライセンス価値のあるコンテンツパブリッシャーなら、学習はブロックしサーチのみ許可も選択肢です。
AIクローラーを解除した実際の成果を共有します:
クライアントA(SaaS):
前:GPTBotブロック、AI引用ゼロ 後:GPTBot含む全クローラー許可
| 指標 | 前 | 30日後 | 90日後 |
|---|---|---|---|
| AI引用 | 0 | 12 | 47 |
| AI経由トラフィック | 0 | 0.8% | 2.3% |
| ブランド検索 | 基準値 | +8% | +22% |
クライアントB(EC):
前:AI全ブロック 後:サーチクローラー許可、トレーニングのみブロック
| 指標 | 前 | 30日後 | 90日後 |
|---|---|---|---|
| 商品引用 | 0 | 34 | 89 |
| AI経由トラフィック | 0 | 1.2% | 3.1% |
| 商品検索 | 基準値 | +15% | +28% |
タイムライン:
重要なポイント:
解除しても即効果ではなく、4~8週間で顕著な影響が出ます。
AIクローラーに関するセキュリティ観点です。
正当な懸念点:
対策方法:
クローラー本人確認:
クローラーごとにレート制限:
GPTBot: 100リクエスト/分
ClaudeBot: 100リクエスト/分
PerplexityBot: 100リクエスト/分
異常監視:
公式IPレンジ:
各AI企業がクローラー用IPを公開:
ホワイトリスト化前に必ず照合を。
WordPressユーザー向けによくあるブロック例:
AIをブロックするセキュリティプラグイン:
確認方法:
WordPressのrobots.txt:
WordPressはrobots.txtを動的生成。カスタマイズ方法:
オプション1: Yoast SEO→ツール→ファイルエディターで編集
オプション2: ルートに物理的なrobots.txt作成(上書きされる)
オプション3: 「Robots.txt Editor」等のプラグイン使用
標準的なWordPress用設定:
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
Sitemap: https://yoursite.com/sitemap.xml
WordPressの良いカバーです。llms.txt作成方法も追加します。
方法1: 静的ファイル
llms.txtをテーマのルートで作成しpublic_html/にアップロード
方法2: プラグイン利用
llms.txt生成対応のプラグインがいくつか登場:
方法3: コードスニペット
// functions.phpに追記
add_action('init', function() {
if ($_SERVER['REQUEST_URI'] == '/llms.txt') {
header('Content-Type: text/plain');
// llms.txtの内容を出力
exit;
}
});
ベストプラクティス:
llms.txtは下記の際に更新を
静的ファイルが最もシンプルですが手動更新が必要です。
解除後にAIクローラーの活動をモニタリングする方法:
追跡すべき指標:
| 指標 | 場所 | 意味 |
|---|---|---|
| クローリング頻度 | サーバーログ | ボットの訪問頻度 |
| クロールされたページ | サーバーログ | インデックスされたコンテンツ |
| クロールエラー | サーバーログ | ブロック等の問題 |
| AI引用 | Am I Cited | クロールが可視化に繋がっているか |
サーバーログ解析:
下記User-Agentパターンで検索:
簡単なgrepコマンド:
grep -E "GPTBot|ClaudeBot|PerplexityBot|Google-Extended" access.log
健全な活動例:
注意すべき点:
このディスカッションですべて必要な情報が揃いました。導入プランは下記です:
更新後のrobots.txt:
# AIサーチクローラー(引用用)を許可
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: PerplexityBot
User-agent: Perplexity-User
User-agent: Google-Extended
Allow: /
# トレーニングクローラー - 現時点では許可
User-agent: GPTBot
Allow: /
# 標準ルール
User-agent: *
Disallow: /private/
Disallow: /admin/
Sitemap: https://clientsite.com/sitemap.xml
llms.txtの実装:
クライアントサイトの構造化概要を作成
ファイアウォール設定:
モニタリング体制:
想定スケジュール:
成功指標:
皆様、技術的な詳細と実践的な構成例をありがとうございました。
Get personalized help from our team. We'll respond within 24 hours.
どのAIボットがあなたのサイトをクロールし、AI生成回答でどのようにコンテンツが表示されているかを追跡しましょう。クローラー設定の影響も確認できます。

GPTBot、ClaudeBot、PerplexityBotなどのAIクローラー向けrobots.txt設定に関するコミュニティディスカッション。ウェブマスターやSEOスペシャリストによる、AIクローラーアクセスのブロックと許可の実体験を共有。...

どのAIクローラーを許可またはブロックすべきかに関するコミュニティディスカッション。GPTBot、PerplexityBot、その他AIクローラーへのアクセスについて、ウェブマスターたちの実際の判断例(可視性とコンテンツ管理のバランス)を紹介。...

ステルスクローラーがrobots.txtの指示を回避する仕組みや、クローラーの回避技術、そして無断AIスクレイピングからコンテンツを守るための解決策を解説します。...