如何为 AI 爬虫处理无限滚动？

Question

如何为 AI 爬虫处理无限滚动？

Accepted Answer

采用无限滚动与传统分页 URL 的混合方案。创建独立且可抓取的组件页面，每个页面有唯一的 URL，AI 爬虫无需执行 JavaScript 就能访问。用户滚动时用 pushState/replaceState 更新 URL，并确保所有内容都可通过静态 HTML 兜底访问。理解挑战：为什么无限滚动会影响 AI 爬虫可见性无限滚动为用户带来流畅的浏览体验，内容会随着页面下拉自动加载。但对于像 ChatGPT 的 GPTBot、Claude 的 ClaudeBot 和 Perplexity 的 PerplexityBot 这样的AI 爬虫来说，这种方式会带来严重的问题。这些 AI 系统不会像人类一样滚动页面或模拟交互——它们只会在页面初始状态下加载一次，然后抽取当时可见的所有内容。当你的内容只能通过 JavaScript 并且由滚动事件触发加载时，AI 爬虫就无法获取初始视口之外的内容，导致你的内容在 AI 搜索引擎和答案生成器中不可见。根本问题在于AI 爬虫与传统搜索引擎爬虫的工作方式不同。虽然 Googlebot 能在一定程度上渲染 JavaScript，但绝大多数 AI 爬虫并不具备完整的浏览器环境和 JavaScript 引擎。它们主要解析 HTML 和元数据，优先抓取结构化、易于获取的数据。如果你的内容只有在 JavaScript 执行后才出现在 DOM 中，这些爬虫就无法访问。这样一来，一个拥有数百个产品、文章或列表的网站，在 AI 系统眼中可能只有十几条内容。核心问题：固定状态和固定尺寸的限制 AI 爬虫存在两个关键限制，使得无限滚动难以兼容。首先，它们以固定尺寸加载页面——通常只查看初始视口范围内的内容，不会滚动。其次，它们以固定状态运行，即加载后不会再与页面产生交互。它们不会点击按钮、不会下拉页面、也不会触发任何 JavaScript 事件。这与人类用户的体验截然不同。如果无限滚动完全依赖于 JavaScript 来加载内容，AI 爬虫只能看到首屏数据。初始渲染后加载的内容都被隐藏起来。对于电商网站来说，首屏以外的商品将对 AI 爬虫不可见；对于博客和新闻网站，只有前几篇文章会出现在 AI 搜索结果中；对于目录和画廊，大部分内容都不会被 AI 系统索引。方面 AI 爬虫人类用户滚动行为不滚动，固定视口滚动加载更多内容 JavaScript 执行有限或不执行完全支持 JavaScript 页面交互不点击、不提交表单完全交互能力内容可见性仅初始 HTML + 元数据所有动态加载内容单页停留时间秒级（固定超时）不限 Ready to Monitor Your AI Visibility? Track how AI chatbots mention your brand across ChatGPT, Perplexity, and other platforms. Start Free Trial Book a Demo 解决方案：搭配无限滚动和传统分页最有效的方法是不是放弃无限滚动，而是在传统分页系列的基础上增强无限滚动。这个混合模式既服务于人类用户，也兼顾 AI 爬虫。用户享受流畅的无限滚动体验，而 AI 爬虫则能通过独立且可抓取的 URL 访问全部内容。 Google 官方针对无限滚动的建议是创建组件页面——每个分页都对应一个独立的 URL。每个组件页面都应可独立访问，拥有唯一内容，并且不依赖 JavaScript 即可正常工作。例如，不要把所有商品都通过无限滚动加载到同一个页面，而是要生成如 /products?page=1、/products?page=2、/products?page=3 这样的 URL。步骤 1：创建带唯一 URL 的组件页面分页系列中的每一页都必须拥有完整的 URL，无需用户访问历史、Cookie 或 JavaScript 即可直接访问。这样 AI 爬虫才能发现并索引你的全部内容。URL 结构应简洁、语义化，清楚反映页码或内容范围。推荐的 URL 结构： example.com/products?page=2 example.com/blog/page/3 example.com/items?lastid=567 避免以下 URL 结构： example.com/products#page=2（爬虫无法识别锚点） example.com/products?days-ago=3（相对时间参数容易失效） example.com/products?radius=5&lat=40.71&long=-73.40（不具语义的参数）每个组件页面都应可直接访问，无需特殊操作。访问 /products?page=2 时应直接加载该页内容，而不是必须从第一页滚动才能到达。这确保了 AI 爬虫可以直接跳转到你的任何分页内容。步骤 2：确保页面间无内容重复分页间内容重复会让 AI 爬虫困惑，浪费抓取预算。每个条目只能出现在分页系列中的一页。如果同一个商品出现在第 1 页和第 2 页，AI 系统可能无法判断哪个版本是权威，影响你的可见度。防止重复的方法是为每页设定明确的内容边界。例如，每页展示 25 个条目，第 1 页为 1-25，第 2 页为 26-50，依此类推。避免在新页面顶部重复显示上一页的最后一项，否则会被 AI 爬虫识别为重复内容。步骤 3：为每一页创建独特标题和主标题通过为每个组件页面设定独特的标题标签和 H1，帮助 AI 爬虫区分每一页的独特性。不要用诸如“产品”这样的通用标题，而要在标题中注明页码或内容主题。示例 title 标签：第 1 页: 精品咖啡豆 | 全部商品第 2 页: 精品咖啡豆 | 第2页 | 更多品种第 3 页: 精品咖啡豆 | 第3页 | 精品拼配示例 H1 标题：第 1 页:

精品咖啡豆 - 全部产品

第 2 页:

精品咖啡豆 - 第2页：更多品种

第 3 页:

精品咖啡豆 - 第3页：精品拼配

独特的标题和主标题能让 AI 爬虫判断每一页都值得单独索引，提高深层页面在 AI 答案和摘要中的出现几率。向 AI 爬虫暴露分页链接 AI 爬虫通过跟踪链接发现内容。如果你的分页链接被隐藏或只通过 JavaScript 渲染，爬虫将无法找到组件页面。你必须明确地暴露导航链接，确保爬虫能够检测并跟踪。首页（第一页）在主列表页（第 1 页），应包含一个可见或隐藏的指向第 2 页的链接。可以通过以下方式实现：方案 1：可见的“下一页”链接下一页将此链接放在商品列表底部。当用户滚动触发无限滚动时，可以用 CSS 或 JavaScript 隐藏该链接，但 HTML 中依然保留，爬虫可见。方案 2：noscript 标签中的隐藏链接

如何为 AI 爬虫和搜索引擎处理无限滚动