如何为 AI 爬虫和搜索引擎处理无限滚动
了解如何在保持 AI 爬虫可抓取性的同时,实现无限滚动。掌握分页策略、URL 结构最佳实践以及技术实现方法,让 ChatGPT、Perplexity 和传统搜索引擎都能抓取你的内容。...
刚刚发现了我们网站的一个重大问题。
我们的情况:
发现的问题:
推测: 我们的全部商品目录都藏在无限滚动后面,AI 爬虫看不到?
有没有人也遇到过分页和无限滚动的这个问题?
这是最常见的 AI 可见性“杀手”之一。让我来解释下原因。
核心问题:
| 实现方式 | AI 爬虫能看到什么 |
|---|---|
| 传统分页 | 通过不同 URL 访问所有页面 |
| 无限滚动 | 只能看到前约 12 个商品 |
| 懒加载 | 只能看到首屏内容 |
无限滚动为什么失效:
AI 爬虫(ChatGPT、Perplexity、Claude):
你的 5000 个商品:
AI 实际看到:12 个商品(初始加载) AI 错过:4,988 个商品
严重影响:
如果有人让 AI 推荐“最佳[商品]”,而你的商品都被隐藏,你在整个品类里都不可见。
解决办法:
用干净 URL 的传统分页:
/products/page/1//products/page/2/每个 URL 都加载不同内容,AI 能抓取所有页面。
可以兼得,方法如下。
混合方案:
用户端保留无限滚动,同时为爬虫提供可抓取的分页。
实现方式:
服务端生成分页 URL:
/products/page/1//products/page/2/在 HTML 中加入分页链接:
<nav class="pagination">
<a href="/products/page/2/">下一页</a>
</nav>
用 JavaScript 增强体验:
对于爬虫:
对于用户:
关键点:
内容必须存在于初始 HTML,而非仅通过 JavaScript 动态加载。
测试方法:
关闭 JavaScript,访问你的网站。能否通过链接访问所有商品?如果不能,爬虫也不行。
我们遇到过完全一样的问题。以下是我们的经历。
之前(无限滚动):
遇到的问题:
来自 AI 摘要的流量大幅下降。我们的 SKU “消失”在 ChatGPT 和 Perplexity 里。
审查结果:
整个目录都被 JavaScript 隐藏。没有二级 URL。只有一条长长的、看不见的商品列表。
我们的调整:
三个月后的结果:
经验总结:
如果 AI 看不到你的商品,再漂亮的设计也毫无意义。
混合方案的技术实现细节。
架构:
/products/ → 显示首批 12 个,启用无限滚动
/products/page/1/ → 同样首批 12 个,带分页链接
/products/page/2/ → 下一个 12 个,带分页链接
关键要素:
服务端分页:
Canonical 标签:
/products/page/2/ 的 canonical 指向自身原始 HTML 中的分页链接:
<link rel="next" href="/products/page/2/">
<link rel="prev" href="/products/page/1/">
加入 sitemap:
测试检查表:
目标:
AI 爬虫应能仅通过 HTML 链接发现每一个商品。
不仅仅是商品——博客和内容也会受影响。
常见的无限滚动实现:
都面临同样问题:
如果旧内容只能通过 JavaScript 滚动加载,AI 就看不到。
我们的发现:
客户有 500 篇博客,AI 只知道最近的 10 篇。
他们 2023 年的权威指南?完全不可见。竞品较新的内容反而被引用了。
解决办法:
新增带分页的归档页面:
/blog/page/1//blog/page/2/结果:
老的核心内容又重新出现在 AI 回复中了。
原则:
你想让 AI 了解的每一条内容,都要有可抓取的路径。
从 UX 角度看分页与无限滚动。
常见误区: “无限滚动总是更好的用户体验”
实际情况: 要视具体场景而定。
适合无限滚动的场景:
分页更优的场景:
用户研究洞察:
用户常常偏好分页,因为:
AI 角度:
如果你的场景本身就适合分页,AI 可见性就是额外红利。
我的建议:
别因为“现代”就默认用无限滚动。要根据实际用户需求选择。很多时候,分页对用户和 AI 都更友好。
分页的性能考量。
分页的好处:
每个分页页面加载更快,因为:
AI 爬虫超时问题:
AI 爬虫有 1-5 秒超时窗口。
如果无限滚动页面:
AI 可能在内容加载出来前就超时了。
分页页面:
性能观点:
其实对用户来说,分页常常也更快:
别因表面上的用户体验提升而牺牲 AI 可见性,这种提升未必对用户真有益。
从无限滚动到混合方案的迁移路径。
第一阶段:添加分页 URL(1-2 周)
第二阶段:更新内部链接(1 周)
第三阶段:用户端无限滚动(并行)
第四阶段:持续监控(持续进行)
时间线:
全流程迁移:3-4 周 效果可见:迁移后 4-8 周
风险说明:
低。你是在增加功能,而不是移除用户依赖的东西。
这次讨论让我收获颇丰。
我的行动计划:
立刻执行:
第 1-2 周:
第 3 周:
第 4 周及以后:
核心洞察:
我们不是因为内容质量而“隐形”——而是因为技术架构。AI 根本看不到我们的商品。
心得体会:
为人类优化 UX 和为 AI 提供可访问性可以共存。我们只需要同时为两者设计即可。
感谢大家!
Get personalized help from our team. We'll respond within 24 hours.
了解如何在保持 AI 爬虫可抓取性的同时,实现无限滚动。掌握分页策略、URL 结构最佳实践以及技术实现方法,让 ChatGPT、Perplexity 和传统搜索引擎都能抓取你的内容。...
关于网站导航对AI爬虫影响的社区讨论。开发者分享有助于或阻碍AI可见性及内容发现的导航结构经验。
关于确保AI爬虫能够访问并看到所有网站内容的社区讨论。开发者在验证方法与常见访问问题上的真实经验分享。
Cookie 同意
我们使用 cookie 来增强您的浏览体验并分析我们的流量。 See our privacy policy.