
どのAIクローラーにアクセスを許可すべきか?2025年完全ガイド
どのAIクローラーをrobots.txtで許可またはブロックすべきかを解説。GPTBot、ClaudeBot、PerplexityBotなど25種類以上のAIクローラーと設定例を網羅した総合ガイド。...
GPTBot、PerplexityBot、ClaudeBotなどのAIボットによるサイトクロールの許可方法を解説します。robots.txt・llms.txtの設定やAI向け最適化の方法もわかります。
GPTBot、PerplexityBot、ClaudeBotなどの特定のAIクローラーに対して、robots.txtファイルに明示的なAllowディレクティブを設定することでAIボットのクロールを許可できます。さらに、llms.txtファイルを作成してAI向けに構造化された情報を提供することも可能です。
AIボットは自動クローラーであり、ChatGPT、Perplexity、Claudeなどの大規模言語モデルやAI検索エンジン向けにウェブコンテンツを体系的に巡回・収集します。従来の検索エンジンのクローラーが主に検索結果表示のためのインデックス作成を目的とするのに対し、AIクローラーはモデルの学習、リアルタイム情報取得、AI応答生成用データ収集などの目的で動作します。クローラーごとにモデル学習用、リアルタイム応答用、AIアプリ向けデータセット構築用など用途が異なります。各クローラーは独自のユーザーエージェント文字列で識別され、robots.txtファイルによってウェブサイト管理者がアクセス制御できるため、AIへの可視性設定の仕組みを理解することが重要です。
AIクローラーはGooglebotのような従来の検索エンジンボットとは根本的に動作が異なります。最も重要なのは、多くのAIクローラーはJavaScriptをレンダリングしないという点です。つまり、ウェブサイトから返される生のHTMLしか認識せず、JavaScriptで読み込まれたり動的に変更されたコンテンツは無視されます。Googleなどの検索エンジンは高度なレンダリングエンジンでスクリプトを実行し、完全な描画を待てますが、AIクローラーは効率と高速性を優先し、動的コンテンツの処理ができません。さらに、AIクローラーは従来のボットよりも頻繁にサイトを巡回することが多く、GoogleやBingより高い頻度でクロールされる場合もあります。このため、重要なコンテンツがクライアントサイドレンダリングや無限リダイレクト、大量のスクリプトの背後に隠れているとAIクローラーには認識されず、AI検索エンジンで事実上「見えない」状態になります。
robots.txtファイルは、AIクローラーによるサイトアクセスを制御するための基本的な仕組みです。このファイルはドメイン直下(yoursite.com/robots.txt)に設置し、クローラーごとにアクセス許可・禁止を指示するディレクティブを記載します。重要なのは、AIクローラーはデフォルトでブロックされていないということです。明示的に禁止しない限りAIクローラーはサイトを巡回します。したがって、AI検索で自社コンテンツが表示されるようにするには明確な設定が不可欠です。
以下の表は、主要なAIクローラーとその目的をまとめたものです。
| クローラー名 | 会社 | 目的 | ユーザーエージェント文字列 |
|---|---|---|---|
| GPTBot | OpenAI | ChatGPTやGPTモデルの学習用 | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot) |
| ChatGPT-User | OpenAI | ChatGPTユーザーのリクエスト時にページ取得 | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ChatGPT-User/1.0; +https://openai.com/chatgpt) |
| ClaudeBot | Anthropic | Claude AI応答のリアルタイム引用取得 | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +https://www.anthropic.com/claude) |
| Claude-Web | Anthropic | Claudeのリアルタイム情報取得用ウェブ閲覧 | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-Web/1.0; +https://www.anthropic.com) |
| PerplexityBot | Perplexity | Perplexity AI検索エンジンのインデックス作成 | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot) |
| Perplexity-User | Perplexity | Perplexityユーザーによるリクエスト時の取得 | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user) |
| Google-Extended | GeminiやAI関連のインデックス作成(従来検索以外) | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Google-Extended/1.0; +https://google.com/bot.html) |
全ての主要AIクローラーにサイトアクセスを許可する場合、robots.txtに以下を記載します。
User-agent: GPTBot
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: PerplexityBot
User-agent: Perplexity-User
User-agent: Google-Extended
Allow: /
Sitemap: https://yoursite.com/sitemap.xml
この設定は、主要AIクローラーすべてにサイト全体のクロールを明示的に許可します。Allowディレクティブでクロール許可、Sitemapディレクティブで重要ページを効率的に発見させます。
一部のAIクローラーのみ許可し、他は制限したい場合は、より細かいルールを設定できます。例えば、検索用クローラー(PerplexityBot等)は許可し、学習用クローラー(GPTBot等)はブロックする例:
User-agent: GPTBot
User-agent: Google-Extended
Disallow: /
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: PerplexityBot
User-agent: Perplexity-User
Allow: /
Sitemap: https://yoursite.com/sitemap.xml
この方法はモデル学習用クローラーをブロックしつつ、検索・ユーザーリクエスト用クローラーは許可することで、AI検索エンジンでの可視性を保ちつつ、AIモデル学習への利用を制限できます。
llms.txtファイルは2024年に提案された新しい標準で、AIシステムがウェブサイトをより理解しやすくするための仕組みです。robots.txtがアクセス制御を行うのに対し、llms.txtはサイトのコンテンツや構造についてAI向けに構造化された情報を提供します。これはナビゲーションや広告、JavaScriptなど複雑なHTMLを解析せずとも、言語モデルが重要ページやサイト構造を素早く把握できる目次の役割を果たします。
大規模言語モデルには「コンテキストウィンドウが狭い」「サイト全体を処理できない」という制約があります。複雑なHTMLをLLM向けプレーンテキストに変換するのは困難で精度も低くなりがちです。llms.txtは、専門家による要点を1カ所にまとめて記載することで、この課題を解決します。AIシステムはllms.txtを参照すれば、サイトの強みや重要ページ、詳細情報のありかをすぐに把握でき、コンテンツを正確に理解・引用する可能性が高まります。
llms.txtはドメイン直下(yoursite.com/llms.txt)に設置し、以下のような基本構成にします:
会社と事業内容の簡単な説明
このファイルはMarkdown形式を用い、H1で会社名、blockquoteで概要、H2で各セクションを示し、各項目にはリンクと簡単な説明を記載します。最後の「オプション」セクションはAIシステムのコンテキストが限られる場合には省略可能な内容を示します。
より詳細な情報をAIシステムに提供したい場合は、llms-full.txtファイルを追加できます。このファイルには会社・商品・サービスの重要情報をMarkdown形式でまとめ、HTML解析なしでAIが包括的に参照できるようにします。主力商品の詳細、サービス内容、対象顧客、主な特徴、競合優位性、連絡先などを掲載します。
AIクロール最適化で最も注意すべき点の一つがJavaScript依存です。ウェブサイトがJavaScriptで重要な情報を読み込んでいる場合、同じ内容が最初のHTMLレスポンスで取得できるようにしないとAIクローラーには認識されません。Googleのような従来SEOでは初回訪問後にJavaScriptをレンダリングできますが、AIクローラーはスケール効率を重視し、初回HTMLのみを取得して即座にテキスト抽出します。
例えばECサイトで商品情報やレビュー、価格表、在庫状況などをJavaScriptで表示している場合、人間の訪問者には自然に見えますが、AIクローラーにはそれら動的要素は一切見えません。結果として、AIの回答で重要情報が全く反映されないリスクがあります。対策としては、重要情報を初回HTMLレスポンスで返す、サーバーサイドレンダリング(SSR)でHTMLとして出力する、静的サイト生成(SSG)で事前構築したHTMLページを利用する等が有効です。
**スキーママークアップ(構造化データ)**は、AI可視性を最大化する最重要施策の一つです。著者、重要トピック、公開日、商品情報、組織情報などをスキーマで明示的にマークアップすることで、AIシステムがコンテンツを効率よく解析できます。スキーマがなければ、AIによるページ解析や必要情報の抽出は困難になり、正確な回答生成が難しくなります。
AI最適化で特に重要なスキーマタイプは、記事(Article)、商品(Product)、組織(Organization)、著者(Author)、パンくずリスト(BreadcrumbList)です。ハイインパクトなページにこれらのスキーマを実装することで、AIクローラーに「何が重要情報なのか」「どのように解釈すべきか」を明確に伝えられます。結果として、AIによる引用や回答への掲載率が向上します。
AIクローラーはコアウェブバイタル(LCP, CLS, INP)を直接計測しませんが、これらのパフォーマンス指標は間接的にAI可視性へ大きく影響します。コアウェブバイタルが悪い=技術的な問題があり、クローラーがコンテンツを取得・抽出しにくくなります。LCP(表示速度)が遅いと、クロール1回あたりの取得量が減り、CLS(表示安定性)の乱れはクロール中にDOMが崩れることで不完全な情報抽出につながります。
また、ページパフォーマンスの低下は従来検索順位にも影響し、AI検索で引用される前提となる上位表示が難しくなります。さらに、同じ情報を持つ複数のサイトがある場合は、パフォーマンス指標が「決め手」になりやすく、表示速度や安定性で劣るとAIシステムに引用されにくくなります。こうした競争劣位は長期的にAIからの言及数の減少につながります。
AIクローラーが自分のサイトを実際に巡回しているかどうかを把握することは、AI可視性最適化のために不可欠です。以下の方法でAIクローラーの活動を監視できます:
これらを活用することで、よくクロールされているページ(AI可視性が高い)、逆に無視されているページ(技術的・内容的な課題がある)を特定し、最適化の優先順位付けが可能になります。
AIクローラーへの可視性を最大化するために、以下のベストプラクティスを実践しましょう:
robots.txt設定では、学習用クローラー・検索用クローラーのどちらを許可するかを選択できます。学習用クローラー(GPTBot、Google-Extended等)はモデルの初期学習データ収集が目的で、あなたのコンテンツがAIモデルの学習に使われる可能性があります。検索用クローラー(PerplexityBot、ChatGPT-User等)はリアルタイムAI回答のためにコンテンツを取得し、AI検索結果での引用を促進します。ユーザーリクエスト型クローラー(Perplexity-User、Claude-Web等)は、ユーザーが明示的に情報を求めた際にページを取得します。
学習用クローラーを許可すると、コンテンツがAIモデル開発に寄与する(メリット)一方、無償利用の懸念もあります。検索用クローラーを許可すれば、AI検索結果でブランドが表示され、AI経由の流入も期待できます。多くの企業は検索用クローラーだけ許可し、学習用は事業方針やライセンス戦略に応じて判断しています。
WAFを利用している場合は、AIクローラーへのアクセスを許可するために明示的なホワイトリスト設定が必要な場合があります。多くのWAFは見慣れないユーザーエージェントをデフォルトでブロックするため、robots.txtで許可していてもWAF側で遮断されることがあります。
Cloudflare WAFの場合は、「GPTBot」「PerplexityBot」「ClaudeBot」などのUser-Agentと、各AI企業が公開している公式IPアドレスを条件にしたカスタム許可ルールを作成します。AWS WAFの場合は、各クローラーのIPセットとUser-Agent条件を組み合わせた許可ルールを作成してください。IPアドレスは定期的に更新されるため、必ず公式情報を参照し最新のリストを使用してください。
AIクローラーはデフォルトでブロックされていますか?
いいえ。AIクローラーはデフォルトでブロックされていません。robots.txtで明示的にDisallowしない限り、サイトをクロールします。だからこそ明確な設定が重要です。
すべてのAIクローラーがrobots.txtを守りますか?
主要なAIクローラーの多くはrobots.txtの指示を守りますが、無視するものも一部存在します。必要に応じてサーバーログやWAFで追加制御を検討してください。OpenAI、Anthropic、Perplexityなどの大手はrobots.txt準拠です。
学習用クローラーはブロックすべきですか?
自社の方針やコンテンツライセンス戦略次第です。学習用クローラーをブロックするとAIモデル学習への利用を防げますが、検索用クローラーは可視性維持のため許可する企業が多いです。
robots.txtの設定はどれくらいの頻度で更新すべき?
新クローラーの登場を毎月チェックし、robots.txtは四半期ごとに見直し、llms.txtは新商品や大幅な内容変更時に随時更新しましょう。AIクローラー市場は変化が速いため、常に最新を保つことが重要です。
llms.txtとllms-full.txt両方必要ですか?
必須なのはllms.txtで、これが簡潔な目次の役割を果たします。llms-full.txtは詳細情報を提供したい場合のオプションです。まずllms.txtを用意し、必要に応じてllms-full.txtを追加しましょう。
AIクローラーの活動はどう追跡すればよい?
サーバーログでユーザーエージェントを特定し、AI可視性に特化したリアルタイムモニタリングツールを使ったり、アナリティクスでAIプラットフォームからの流入を確認する、ChatGPTやClaudeなどでの言及を追跡できる専用サービスの利用も有効です。
AIクローラーと従来SEOの違いは?
AIクローラーはAI検索エンジンでの回答生成用にコンテンツを取得します。一方、従来SEOは検索順位を上げてサイト流入を促進します。AI最適化は「AI回答で正確に引用される」ことが目的で、クリック流入とは異なります。
AI専用サイトマップは必要ですか?
必須ではありませんが、AIシステム向けに重要コンテンツを優先したサイトマップを用意すると、AIクローラーのクロール効率やサイト構造の理解を助けます。ニュースや画像専用サイトマップのような位置づけです。
自分のサイトがAIにクロールされているか確認する方法は?
AIボット専用のリアルタイムモニタリングを導入しましょう。専用の監視がなければ、AIクローラーによるアクセスや理解状況は把握できません。サーバーログでユーザーエージェントを確認し、コアウェブバイタルを監視、重要情報がHTMLで提供されていることも確認してください。
AIクローラーがサイトを訪問していない場合の対処は?
クロール頻度が低い場合、技術的・内容的な問題が原因のことが多いです。サイトの技術的健全性を監査し、重要情報をHTMLで提供、スキーママークアップの実装、コアウェブバイタル最適化、robots.txt設定の正確さを確認しましょう。
ChatGPT、Perplexity、ClaudeなどのAI検索結果における自社サイトの表示状況・ブランド言及をリアルタイムで把握しましょう。AIでの可視性やブランド露出の実態がわかります。

どのAIクローラーをrobots.txtで許可またはブロックすべきかを解説。GPTBot、ClaudeBot、PerplexityBotなど25種類以上のAIクローラーと設定例を網羅した総合ガイド。...

サーバーログ、ツール、ベストプラクティスを用いて、ウェブサイト上のAIクローラーの活動を追跡・監視する方法を学びましょう。GPTBot、ClaudeBot、その他AIボットの特定方法も紹介します。...

AIのクロールバジェットの意味、従来の検索クロールバジェットとの違い、そしてなぜAI生成回答やAI検索エンジンでブランドの可視性に重要なのかを解説します。...
クッキーの同意
閲覧体験を向上させ、トラフィックを分析するためにクッキーを使用します。 See our privacy policy.