Discussion Technical SEO AI Crawlers

AIクローラーが本当に全てのコンテンツを見ているか確認するには?一部のページが見えなくなっているようです

TE
TechLead_Amanda · テクニカルリード
· · 71 upvotes · 9 comments
TA
TechLead_Amanda
テクニカルリード · 2026年1月1日

AIの可視性に関する混乱した状況です:

当社には500ページあります。そのうち約200ページは定期的にAIに引用されていますが、残りの300ページはまったく見えない状態で、クエリに最適な回答であっても一度も引用されていません。

確認済み事項:

  • robots.txtは全AIクローラーを許可
  • ページは200ステータスを返す
  • noindexタグなし
  • サイトマップに含まれている

不明点:

  • AIクローラーは本当に全ページにアクセスしているのか?
  • クローラーが訪問時に何を見ているかどうやって確かめる?
  • 見落としている微妙なブロック要因はないか?

サイトの半分がAIに見えなくなる理由があるはずです。デバッグの助けをお願いします。

9 comments

9件のコメント

CE
CrawlerAccess_Expert エキスパート テクニカルSEOコンサルタント · 2026年1月1日

体系的にデバッグする方法をお伝えします。

ステップ1: ログ解析

「見えない」ページへのAIクローラーの訪問をサーバーログで確認してください:

# GPTBotが特定ページを訪問しているか確認
grep "GPTBot" access.log | grep "/invisible-page-path/"

クローラーの訪問がなければ:ページが発見されていません。 訪問はあるが引用されていない場合:アクセスの問題ではなくコンテンツの質の問題です。

ステップ2: 直接アクセステスト

クローラーがページにアクセスした際に何を見るかテストします:

curl -A "GPTBot" -s https://yoursite.com/page-path/ | head -200

確認ポイント:

  • HTMLに全コンテンツが出ているか
  • ログインやペイウォールへのリダイレクトがないか
  • 「bot detected」のようなメッセージがないか
  • 主要コンテンツがJavaScriptに依存していないか

ステップ3: レンダリングテスト

AIクローラーのJSレンダリング能力はさまざま。JS無効でテスト:

  • ブラウザでページを開く
  • JavaScriptを無効化(開発者ツール)
  • メインコンテンツが表示されるか?

JSを無効にしてコンテンツが消える場合、それが問題です。

ステップ4: レート制限の確認

ボットへのレート制限が厳しすぎませんか? WAFやCDNがXリクエスト以降ブロックしていないか確認。 AIクローラーがクロール途中でブロックされる場合も。

よくある問題:

  1. 内部リンクがない(オーファンページ)
  2. JavaScriptでレンダリングされるコンテンツ
  3. 過度なボット対策
  4. サイトマップにページがない
TA
TechLead_Amanda OP · 2026年1月1日
Replying to CrawlerAccess_Expert
ログチェックは興味深いです。可視ページへのGPTBotのヒットは多いですが、見えないページへのヒットはかなり少ないです。これはブロックではなく発見の問題でしょうか?
CE
CrawlerAccess_Expert エキスパート · 2026年1月1日
Replying to TechLead_Amanda

発見とブロックは全く異なる問題です。

GPTBotが特定ページを訪問していない場合、次を確認:

1. サイトマップのカバレッジ 全500ページがsitemap.xmlに含まれていますか?

2. 内部リンク 見えないページはサイト内のどこからリンクされていますか?

  • トップページやナビゲーションからリンクされていますか?
  • それとも深いパスからしかアクセスできませんか?

AIクローラーはよくリンクされたページを優先します。オーファンページはクロールされにくいです。

3. クロールバジェット AIクローラーには制限があります。サイトが大きいと全ページクロールしないことも。

  • 最もリンクされているページが優先
  • 深くネストされたページはスキップされやすい

4. リンク階層の深さ トップページから見えないページまで何クリック必要ですか?

  • 1~2クリック:クロールされやすい
  • 4クリック以上:優先度低下

対策:

  • サイトマップに全ページを含める
  • 重要ページから見えないページへの内部リンクを追加
  • 関連コンテンツを集めたハブページを検討
  • サイト構造を可能な限りフラットに
IP
InternalLinking_Pro SEOアーキテクト · 2025年12月31日

300ページが発見されていないなら、内部リンク構造が原因の可能性が高いです。

内部リンク構造を監査しましょう:

Screaming Frogなどのツールで分かること:

  • 内部リンクが最も少ないページ
  • オーファンページ(内部リンク0)
  • トップページからのクリック階層

よくあるパターン:

  1. ブログ記事がアーカイブページからのみリンク ブログアーカイブの15ページ目など、古い投稿は深く埋もれます。クローラーはそこまでたどり着きません。

  2. 商品ページがカテゴリリストからのみリンク カテゴリページの8ページ目など。深すぎます。

  3. 相互リンクのないリソースページ 良質なコンテンツでも、どこからもリンクされていない。

解決策:

  1. ハブページ 「リソース」や「ガイド」ページを作り、関連する複数コンテンツにリンク。

  2. 関連記事リンク 各記事末尾に3~5件の関連記事リンクを追加。

  3. パンくずリスト クローラーに階層構造を伝え、ページ発見に役立ちます。

  4. ナビゲーションの更新 人気の深いページをメインナビやフッターに追加できませんか?

内部リンクはSEOだけでなく、クローラーがコンテンツを発見する上でも重要です。

JD
JSRendering_Dev · 2025年12月31日

JavaScriptレンダリングの問題について詳しく説明します:

AIクローラーが対応できる範囲:

クローラーJSレンダリング
GPTBot制限あり
PerplexityBot制限あり
ClaudeBot制限あり
Google-Extendedあり(Googlebot経由)

安全な想定: ほとんどのAIクローラーはJS無効時の表示内容しか見えません。

よくあるJSの問題:

  1. クライアントサイドレンダリング React/Vue/Angular等、ブラウザのみでレンダリング。クローラーには空のコンテナしか見えません。

  2. フォールバックのない遅延読み込み 折り返し以降の画像やコンテンツがクローラーには読み込まれません。

  3. インタラクティブコンポーネントがコンテンツを隠す タブやアコーディオン、カルーセルなど、非アクティブ状態のコンテンツが初期HTMLに存在しない。

  4. JSで挿入されたスキーマ スキーマがJavaScript経由だとパースされない場合も。

テスト方法:

# 生HTML(クローラーが見るもの)
curl -s https://yoursite.com/page/

# ブラウザのレンダリングHTMLと比較(Dev Tools > ソース表示)

curl出力に主要コンテンツがなければ、JSが問題です。

解決策:

  • サーバーサイドレンダリング(SSR)
  • 静的コンテンツのプリレンダリング
  • 遅延読み込み時のHTMLフォールバック
  • 重要コンテンツは初期HTMLに含める
C
CloudflareBotProtection · 2025年12月31日

ボット対策がAIクローラーを密かにブロックしている場合があります。

よくあるボット対策の問題:

  1. Cloudflare Bot Fight Mode AIクローラーにチャレンジやブロックを行う場合があります。 確認方法:Security > Bots > Bot Fight Mode

  2. レート制限 リクエスト数/IP/分を制限している場合、AIクローラーが制限に引っかかる可能性。

  3. JavaScriptチャレンジ ボットにJSチャレンジを出すとAIクローラーは突破できません。

  4. ユーザーエージェントブロック 一部のWAFは不明・疑わしいユーザーエージェントをブロックします。

確認方法:

  1. CDN/WAFログでAIユーザーエージェントのブロックリクエストを確認
  2. チャレンジリクエスト(キャプチャページなど)がないか調査
  3. 異なるIPからレート制限をテスト

AIクローラー向け推奨設定:

ほとんどのCDN/WAFはユーザーエージェント単位でホワイトリスト設定可能:

  • GPTBot、ClaudeBot、PerplexityBotをホワイトリスト化
  • レート制限を緩和
  • JavaScriptチャレンジをスキップ

悪質ボットからは守りつつ、AIクローラーがコンテンツをインデックスできるようにしましょう。

SM
SitemapExpert_Maria · 2025年12月30日

AIクローラー発見率を高めるサイトマップの最適化:

サイトマップのベストプラクティス:

  1. 全ての重要ページを含める 新規コンテンツだけでなく、発見してほしい全ページを。

  2. 更新頻度のシグナルを使う <lastmod>で更新日時を示すと、新しいページが優先されやすいです。

  3. robots.txtにサイトマップ記載

Sitemap: https://yoursite.com/sitemap.xml

これで全クローラーに場所を伝えられます。

  1. サイズ制限 5万URLまたは50MB超の場合は分割。大きすぎるサイトマップは全て処理されない可能性も。

検証方法:

# サイトマップのアクセシビリティ確認
curl -I https://yoursite.com/sitemap.xml
# 200が返ればOK

# サイトマップ内のページ数カウント
curl -s https://yoursite.com/sitemap.xml | grep -c "<url>"

見えないページがサイトマップに含まれていなければ、追加しましょう。

優先度のヒント:

<priority>タグは多くのクローラーが無視します。内部リンクと更新頻度シグナルの方が効果的です。

TA
TechLead_Amanda OP テクニカルリード · 2025年12月29日

問題が判明しました!デバッグで分かったこと:

問題1:発見(主原因)

  • 「見えない」ページ280件は内部リンクが弱かった
  • 深いアーカイブページ(クリック深度5以上)からのみリンク
  • メインサイトマップに未掲載(複数サイトマップで一部孤立)

問題2:ボット対策(二次原因)

  • CloudflareのBot Fight Modeが一部AIクローラーにチャレンジを出していた
  • クローラーリクエストの15%がJSチャレンジに遭遇

問題3:JSコンテンツ(軽微)

  • 12ページがReactコンポーネントでサーバーレンダリングなし

実施した対策:

  1. 内部リンクの全面見直し

    • 全記事に「関連記事」セクションを追加
    • トピックごとのハブページを作成
    • 最大クリック深度を3まで削減
  2. サイトマップの統合

    • 全てのサイトマップを1つに統合
    • 500ページ全てを確認
    • robots.txtにもサイトマップを追加
  3. ボット対策の調整

    • GPTBot、ClaudeBot、PerplexityBotをホワイトリスト化
    • AIユーザーエージェントのレート制限緩和
  4. SSR導入

    • 該当ページでサーバーサイドレンダリングを有効化

重要な気づき:

ページはブロックされていたのではなく、発見されていなかっただけでした。内部リンクとサイトマップのカバレッジがAIクローラーアクセスには不可欠です。

皆さん、デバッグフレームワーク本当にありがとうございました!

Have a Question About This Topic?

Get personalized help from our team. We'll respond within 24 hours.

Frequently Asked Questions

AIクローラーが自分のコンテンツにアクセスできているか確認するには?
サーバーログでGPTBot、ClaudeBot、PerplexityBotの200ステータスでの訪問を確認します。AIのユーザーエージェントヘッダーを使ったcurlで、クローラーが何を見ているかテストしましょう。robots.txtでAIクローラーをブロックしていないか確認。重要なコンテンツがJavaScriptのみでレンダリングされていないかも検証します。
AIクローラーがコンテンツを見られなくする主な要因は?
主なブロック要因には、robots.txtのdisallowルール、JavaScriptのみでのレンダリング、ログイン壁やペイウォール、過度なレート制限、AIユーザーエージェントをブロックするボット検知、ボットに対応しない遅延読み込み、AIクローラーのIPに影響するジオブロッキングなどがあります。
AIクローラーが訪問しても一部のページが引用されないのはなぜ?
クロールされることは引用を保証しません。コンテンツが薄い・一般的、構造が抽出しにくい、権威性のシグナルがない、より良い情報源が他にある、商業色が強すぎるなどの理由で引用されない場合があります。アクセシビリティは引用の必要条件ですが十分条件ではありません。

AIクローラーアクセスを監視

どのAIクローラーがあなたのサイトにアクセスしているかを追跡し、コンテンツがAIシステムに可視化されていることを確認しましょう。

詳細はこちら

AIの可視性が低い場合の回復方法:完全なリカバリーストラテジー

AIの可視性が低い場合の回復方法:完全なリカバリーストラテジー

ChatGPT、Perplexity、その他のAI検索エンジン向けの実践的な戦略でAIの可視性が低い状態から回復する方法をご紹介します。コンテンツ最適化とモニタリングを通じて、AI生成回答におけるブランドの存在感を高めましょう。...

1 分で読める
当サイトのナビゲーションがAIクローラーをブロックしている – コンテンツ発見性の改善方法は?

当サイトのナビゲーションがAIクローラーをブロックしている – コンテンツ発見性の改善方法は?

ウェブサイトのナビゲーションがAIクローラーに与える影響に関するコミュニティディスカッション。開発者がAIの可視性やコンテンツの発見を支援・妨げるナビゲーション構造の経験を共有します。...

2 分で読める
Discussion Technical SEO +1
ページネーションはAI検索に本当に重要?インフィニットスクロールのサイトがChatGPTで見えない理由

ページネーションはAI検索に本当に重要?インフィニットスクロールのサイトがChatGPTで見えない理由

ページネーションがAI検索での可視性にどう影響するかについてのコミュニティディスカッション。無限スクロールと従来のページネーションのAIクローラーアクセシビリティに関する体験をユーザーが共有。...

2 分で読める
Discussion Pagination +2