AIボットによるウェブサイトのクロール許可方法:robots.txt&llms.txt完全ガイド

AIボットによるウェブサイトのクロール許可方法:robots.txt&llms.txt完全ガイド

AIボットに自分のサイトをクロールさせるにはどうすればよいですか?

GPTBot、PerplexityBot、ClaudeBotなどの特定のAIクローラーに対して、robots.txtファイルに明示的なAllowディレクティブを設定することでAIボットのクロールを許可できます。さらに、llms.txtファイルを作成してAI向けに構造化された情報を提供することも可能です。

AIボットによるクロールの仕組みを理解する

AIボットは自動クローラーであり、ChatGPT、Perplexity、Claudeなどの大規模言語モデルやAI検索エンジン向けにウェブコンテンツを体系的に巡回・収集します。従来の検索エンジンのクローラーが主に検索結果表示のためのインデックス作成を目的とするのに対し、AIクローラーはモデルの学習、リアルタイム情報取得、AI応答生成用データ収集などの目的で動作します。クローラーごとにモデル学習用、リアルタイム応答用、AIアプリ向けデータセット構築用など用途が異なります。各クローラーは独自のユーザーエージェント文字列で識別され、robots.txtファイルによってウェブサイト管理者がアクセス制御できるため、AIへの可視性設定の仕組みを理解することが重要です。

AIクローラーと従来型検索ボットの主な違い

AIクローラーはGooglebotのような従来の検索エンジンボットとは根本的に動作が異なります。最も重要なのは、多くのAIクローラーはJavaScriptをレンダリングしないという点です。つまり、ウェブサイトから返される生のHTMLしか認識せず、JavaScriptで読み込まれたり動的に変更されたコンテンツは無視されます。Googleなどの検索エンジンは高度なレンダリングエンジンでスクリプトを実行し、完全な描画を待てますが、AIクローラーは効率と高速性を優先し、動的コンテンツの処理ができません。さらに、AIクローラーは従来のボットよりも頻繁にサイトを巡回することが多く、GoogleやBingより高い頻度でクロールされる場合もあります。このため、重要なコンテンツがクライアントサイドレンダリングや無限リダイレクト、大量のスクリプトの背後に隠れているとAIクローラーには認識されず、AI検索エンジンで事実上「見えない」状態になります。

AIボット向けrobots.txtの設定

robots.txtファイルは、AIクローラーによるサイトアクセスを制御するための基本的な仕組みです。このファイルはドメイン直下(yoursite.com/robots.txt)に設置し、クローラーごとにアクセス許可・禁止を指示するディレクティブを記載します。重要なのは、AIクローラーはデフォルトでブロックされていないということです。明示的に禁止しない限りAIクローラーはサイトを巡回します。したがって、AI検索で自社コンテンツが表示されるようにするには明確な設定が不可欠です。

主なAIクローラーのユーザーエージェント

以下の表は、主要なAIクローラーとその目的をまとめたものです。

クローラー名会社目的ユーザーエージェント文字列
GPTBotOpenAIChatGPTやGPTモデルの学習用Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
ChatGPT-UserOpenAIChatGPTユーザーのリクエスト時にページ取得Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ChatGPT-User/1.0; +https://openai.com/chatgpt)
ClaudeBotAnthropicClaude AI応答のリアルタイム引用取得Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +https://www.anthropic.com/claude)
Claude-WebAnthropicClaudeのリアルタイム情報取得用ウェブ閲覧Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-Web/1.0; +https://www.anthropic.com)
PerplexityBotPerplexityPerplexity AI検索エンジンのインデックス作成Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
Perplexity-UserPerplexityPerplexityユーザーによるリクエスト時の取得Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user)
Google-ExtendedGoogleGeminiやAI関連のインデックス作成(従来検索以外)Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Google-Extended/1.0; +https://google.com/bot.html)

AIクローラーを許可する基本robots.txt設定

全ての主要AIクローラーにサイトアクセスを許可する場合、robots.txtに以下を記載します。

User-agent: GPTBot
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: PerplexityBot
User-agent: Perplexity-User
User-agent: Google-Extended
Allow: /

Sitemap: https://yoursite.com/sitemap.xml

この設定は、主要AIクローラーすべてにサイト全体のクロールを明示的に許可します。Allowディレクティブでクロール許可、Sitemapディレクティブで重要ページを効率的に発見させます。

選択的なアクセス制御

一部のAIクローラーのみ許可し、他は制限したい場合は、より細かいルールを設定できます。例えば、検索用クローラー(PerplexityBot等)は許可し、学習用クローラー(GPTBot等)はブロックする例:

User-agent: GPTBot
User-agent: Google-Extended
Disallow: /

User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: PerplexityBot
User-agent: Perplexity-User
Allow: /

Sitemap: https://yoursite.com/sitemap.xml

この方法はモデル学習用クローラーをブロックしつつ、検索・ユーザーリクエスト用クローラーは許可することで、AI検索エンジンでの可視性を保ちつつ、AIモデル学習への利用を制限できます。

llms.txtファイルの概要

llms.txtファイルは2024年に提案された新しい標準で、AIシステムがウェブサイトをより理解しやすくするための仕組みです。robots.txtがアクセス制御を行うのに対し、llms.txtはサイトのコンテンツや構造についてAI向けに構造化された情報を提供します。これはナビゲーションや広告、JavaScriptなど複雑なHTMLを解析せずとも、言語モデルが重要ページやサイト構造を素早く把握できる目次の役割を果たします。

llms.txtがAI可視性に重要な理由

大規模言語モデルには「コンテキストウィンドウが狭い」「サイト全体を処理できない」という制約があります。複雑なHTMLをLLM向けプレーンテキストに変換するのは困難で精度も低くなりがちです。llms.txtは、専門家による要点を1カ所にまとめて記載することで、この課題を解決します。AIシステムはllms.txtを参照すれば、サイトの強みや重要ページ、詳細情報のありかをすぐに把握でき、コンテンツを正確に理解・引用する可能性が高まります。

llms.txtファイルの作成

llms.txtはドメイン直下(yoursite.com/llms.txt)に設置し、以下のような基本構成にします:

あなたの会社名

会社と事業内容の簡単な説明

コアページ

  • Home : 会社概要と最新情報
  • About : 企業情報・チーム紹介
  • Products : 主力商品・サービス
  • Pricing : 料金プラン・オプション

リソース

サポート

  • Contact : 問い合わせ窓口
  • Support : サポート・ヘルプセンター

オプション

このファイルはMarkdown形式を用い、H1で会社名、blockquoteで概要、H2で各セクションを示し、各項目にはリンクと簡単な説明を記載します。最後の「オプション」セクションはAIシステムのコンテキストが限られる場合には省略可能な内容を示します。

詳細情報用llms-full.txtの作成

より詳細な情報をAIシステムに提供したい場合は、llms-full.txtファイルを追加できます。このファイルには会社・商品・サービスの重要情報をMarkdown形式でまとめ、HTML解析なしでAIが包括的に参照できるようにします。主力商品の詳細、サービス内容、対象顧客、主な特徴、競合優位性、連絡先などを掲載します。

AIクローラーとJavaScriptレンダリングの問題

AIクロール最適化で最も注意すべき点の一つがJavaScript依存です。ウェブサイトがJavaScriptで重要な情報を読み込んでいる場合、同じ内容が最初のHTMLレスポンスで取得できるようにしないとAIクローラーには認識されません。Googleのような従来SEOでは初回訪問後にJavaScriptをレンダリングできますが、AIクローラーはスケール効率を重視し、初回HTMLのみを取得して即座にテキスト抽出します。

例えばECサイトで商品情報やレビュー、価格表、在庫状況などをJavaScriptで表示している場合、人間の訪問者には自然に見えますが、AIクローラーにはそれら動的要素は一切見えません。結果として、AIの回答で重要情報が全く反映されないリスクがあります。対策としては、重要情報を初回HTMLレスポンスで返す、サーバーサイドレンダリング(SSR)でHTMLとして出力する、静的サイト生成(SSG)で事前構築したHTMLページを利用する等が有効です。

スキーママークアップと構造化データ

**スキーママークアップ(構造化データ)**は、AI可視性を最大化する最重要施策の一つです。著者、重要トピック、公開日、商品情報、組織情報などをスキーマで明示的にマークアップすることで、AIシステムがコンテンツを効率よく解析できます。スキーマがなければ、AIによるページ解析や必要情報の抽出は困難になり、正確な回答生成が難しくなります。

AI最適化で特に重要なスキーマタイプは、記事(Article)、商品(Product)、組織(Organization)、著者(Author)、パンくずリスト(BreadcrumbList)です。ハイインパクトなページにこれらのスキーマを実装することで、AIクローラーに「何が重要情報なのか」「どのように解釈すべきか」を明確に伝えられます。結果として、AIによる引用や回答への掲載率が向上します。

コアウェブバイタルとAIクロール最適化

AIクローラーはコアウェブバイタル(LCP, CLS, INP)を直接計測しませんが、これらのパフォーマンス指標は間接的にAI可視性へ大きく影響します。コアウェブバイタルが悪い=技術的な問題があり、クローラーがコンテンツを取得・抽出しにくくなります。LCP(表示速度)が遅いと、クロール1回あたりの取得量が減り、CLS(表示安定性)の乱れはクロール中にDOMが崩れることで不完全な情報抽出につながります。

また、ページパフォーマンスの低下は従来検索順位にも影響し、AI検索で引用される前提となる上位表示が難しくなります。さらに、同じ情報を持つ複数のサイトがある場合は、パフォーマンス指標が「決め手」になりやすく、表示速度や安定性で劣るとAIシステムに引用されにくくなります。こうした競争劣位は長期的にAIからの言及数の減少につながります。

AIクローラーの活動モニタリング

AIクローラーが自分のサイトを実際に巡回しているかどうかを把握することは、AI可視性最適化のために不可欠です。以下の方法でAIクローラーの活動を監視できます:

  • サーバーログ解析:「GPTBot」「ClaudeBot」「PerplexityBot」「Google-Extended」などのユーザーエージェントでアクセス頻度を確認
  • Google Search Console:主にGoogleクローラー用ですが、全体的なクロール・インデックス状況の把握に有用
  • リアルタイムモニタリングプラットフォーム:AIクローラーの全体的な巡回状況や訪問頻度・ページごとの最新訪問履歴を可視化できる専用ツール
  • アナリティクスプラットフォームAIプラットフォーム(PerplexityやChatGPTなど)からのリファラートラフィック追跡用にUTMパラメータやフィルタを設定
  • AI専用モニタリングツール:ChatGPT、Claude、Gemini、Perplexityなどでのブランド言及や引用ページを追跡できる専用サービス

これらを活用することで、よくクロールされているページ(AI可視性が高い)、逆に無視されているページ(技術的・内容的な課題がある)を特定し、最適化の優先順位付けが可能になります。

AIクロール最適化のベストプラクティス

AIクローラーへの可視性を最大化するために、以下のベストプラクティスを実践しましょう:

  • 重要コンテンツはHTMLで提供:重要情報は初回HTMLレスポンスで表示し、JavaScriptや動的ロードの裏に隠さない
  • 包括的なスキーママークアップを追加:主要ページにArticle, Product, Organization, Author, BreadcrumbListスキーマを実装
  • 著者情報と鮮度を確保:スキーマを用いた著者情報付与、専門家・社内リーダーの活用、定期的なコンテンツ更新
  • コアウェブバイタル最適化:LCP, CLS, INPを監視・改善し、素早く安定した表示を実現
  • AI最適化サイトマップの作成:通常のサイトマップに加え、AI向けに重要コンテンツを優先したサイトマップも検討
  • llms.txt・llms-full.txtの実装:AIフレンドリーな構造化コンテンツを提供し、言語モデルの理解を促進
  • robots.txt設定のテスト:検証ツールでフォーマットや意図通りのディレクティブ適用を確認
  • クローラー活動の定期監視:リアルタイムツールでAIクローラーの訪問状況や技術的な障壁を特定
  • 新クローラー登場時は設定をアップデート:AIクローラー市場の変化に合わせてrobots.txtを定期的に更新
  • 各クローラーの事業価値を考慮:GPTBot等の学習用クローラーを許可するか、検索用のみ許可するか自社方針に合わせて選択

学習用クローラーと検索用クローラーの許可の違い

robots.txt設定では、学習用クローラー・検索用クローラーのどちらを許可するかを選択できます。学習用クローラー(GPTBot、Google-Extended等)はモデルの初期学習データ収集が目的で、あなたのコンテンツがAIモデルの学習に使われる可能性があります。検索用クローラー(PerplexityBot、ChatGPT-User等)はリアルタイムAI回答のためにコンテンツを取得し、AI検索結果での引用を促進します。ユーザーリクエスト型クローラー(Perplexity-User、Claude-Web等)は、ユーザーが明示的に情報を求めた際にページを取得します。

学習用クローラーを許可すると、コンテンツがAIモデル開発に寄与する(メリット)一方、無償利用の懸念もあります。検索用クローラーを許可すれば、AI検索結果でブランドが表示され、AI経由の流入も期待できます。多くの企業は検索用クローラーだけ許可し、学習用は事業方針やライセンス戦略に応じて判断しています。

Webアプリケーションファイアウォール(WAF)対応

WAFを利用している場合は、AIクローラーへのアクセスを許可するために明示的なホワイトリスト設定が必要な場合があります。多くのWAFは見慣れないユーザーエージェントをデフォルトでブロックするため、robots.txtで許可していてもWAF側で遮断されることがあります。

Cloudflare WAFの場合は、「GPTBot」「PerplexityBot」「ClaudeBot」などのUser-Agentと、各AI企業が公開している公式IPアドレスを条件にしたカスタム許可ルールを作成します。AWS WAFの場合は、各クローラーのIPセットとUser-Agent条件を組み合わせた許可ルールを作成してください。IPアドレスは定期的に更新されるため、必ず公式情報を参照し最新のリストを使用してください。

AIボットクロールに関するよくある質問

AIクローラーはデフォルトでブロックされていますか?
いいえ。AIクローラーはデフォルトでブロックされていません。robots.txtで明示的にDisallowしない限り、サイトをクロールします。だからこそ明確な設定が重要です。

すべてのAIクローラーがrobots.txtを守りますか?
主要なAIクローラーの多くはrobots.txtの指示を守りますが、無視するものも一部存在します。必要に応じてサーバーログやWAFで追加制御を検討してください。OpenAI、Anthropic、Perplexityなどの大手はrobots.txt準拠です。

学習用クローラーはブロックすべきですか?
自社の方針やコンテンツライセンス戦略次第です。学習用クローラーをブロックするとAIモデル学習への利用を防げますが、検索用クローラーは可視性維持のため許可する企業が多いです。

robots.txtの設定はどれくらいの頻度で更新すべき?
新クローラーの登場を毎月チェックし、robots.txtは四半期ごとに見直し、llms.txtは新商品や大幅な内容変更時に随時更新しましょう。AIクローラー市場は変化が速いため、常に最新を保つことが重要です。

llms.txtとllms-full.txt両方必要ですか?
必須なのはllms.txtで、これが簡潔な目次の役割を果たします。llms-full.txtは詳細情報を提供したい場合のオプションです。まずllms.txtを用意し、必要に応じてllms-full.txtを追加しましょう。

AIクローラーの活動はどう追跡すればよい?
サーバーログでユーザーエージェントを特定し、AI可視性に特化したリアルタイムモニタリングツールを使ったり、アナリティクスでAIプラットフォームからの流入を確認する、ChatGPTやClaudeなどでの言及を追跡できる専用サービスの利用も有効です。

AIクローラーと従来SEOの違いは?
AIクローラーはAI検索エンジンでの回答生成用にコンテンツを取得します。一方、従来SEOは検索順位を上げてサイト流入を促進します。AI最適化は「AI回答で正確に引用される」ことが目的で、クリック流入とは異なります。

AI専用サイトマップは必要ですか?
必須ではありませんが、AIシステム向けに重要コンテンツを優先したサイトマップを用意すると、AIクローラーのクロール効率やサイト構造の理解を助けます。ニュースや画像専用サイトマップのような位置づけです。

自分のサイトがAIにクロールされているか確認する方法は?
AIボット専用のリアルタイムモニタリングを導入しましょう。専用の監視がなければ、AIクローラーによるアクセスや理解状況は把握できません。サーバーログでユーザーエージェントを確認し、コアウェブバイタルを監視、重要情報がHTMLで提供されていることも確認してください。

AIクローラーがサイトを訪問していない場合の対処は?
クロール頻度が低い場合、技術的・内容的な問題が原因のことが多いです。サイトの技術的健全性を監査し、重要情報をHTMLで提供、スキーママークアップの実装、コアウェブバイタル最適化、robots.txt設定の正確さを確認しましょう。

AI検索エンジンでブランドをモニタリング

ChatGPT、Perplexity、ClaudeなどのAI検索結果における自社サイトの表示状況・ブランド言及をリアルタイムで把握しましょう。AIでの可視性やブランド露出の実態がわかります。

詳細はこちら

AIクローラーの活動を追跡する:完全監視ガイド
AIクローラーの活動を追跡する:完全監視ガイド

AIクローラーの活動を追跡する:完全監視ガイド

サーバーログ、ツール、ベストプラクティスを用いて、ウェブサイト上のAIクローラーの活動を追跡・監視する方法を学びましょう。GPTBot、ClaudeBot、その他AIボットの特定方法も紹介します。...

2 分で読める