我们的网站导航阻止了AI爬虫——如何修复内容可发现性?
关于网站导航对AI爬虫影响的社区讨论。开发者分享有助于或阻碍AI可见性及内容发现的导航结构经验。
关于我们AI可见性的困惑:
我们有500个页面,大约200个经常被AI引用。剩下300个完全不可见——即使是查询的最佳答案也从未被引用。
我已经检查过的:
我不确定的:
我们网站有一半对AI不可见,一定有原因。帮我一起排查吧。
我来帮你系统排查下。
步骤1:日志分析
检查服务器日志中AI爬虫访问“不可见”页面的记录:
# 检查GPTBot是否访问了具体页面
grep "GPTBot" access.log | grep "/invisible-page-path/"
如果没访问:说明没发现这些页面。 如果访问了但没引用:是内容质量问题,不是访问问题。
步骤2:直接访问测试
测试爬虫访问页面时看到的内容:
curl -A "GPTBot" -s https://yoursite.com/page-path/ | head -200
检查:
步骤3:渲染测试
AI爬虫的JS渲染能力不同。测试禁用JS时表现:
如果内容没了,那就是JS渲染问题。
步骤4:速率限制检查
你对机器人有激进的速率限制吗? 检查WAF或CDN是不是X次请求后就屏蔽。 AI爬虫可能在抓取中途被拦截。
我最常见到的问题:
发现和屏蔽——是完全不同的问题。
如果GPTBot没访问某些页面,检查:
1. Sitemap覆盖 500个页面都在sitemap里吗?检查sitemap.xml。
2. 内部链接 不可见页面和网站其它部分的链接情况如何?
AI爬虫更优先爬取内部链接好的页面。孤立页面很少被抓取。
3. 抓取预算 AI爬虫有抓取限制。站点大时,可能不会爬全部页面。
4. 链接深度 从首页到不可见页面要点几次?
改进方法:
如果有300个页面没被发现,内部链接很可能是你的问题。
审查你的内部链接结构:
Screaming Frog等工具可以显示:
我常见的模式:
博客文章只从归档页链接 你的博客归档第15页才连到老文章,爬虫不会点那么深。
产品页只从分类列表链接 第8页才连到产品,太深了。
资源页没有交叉链接 内容很好但没人链接到它。
解决方案:
集群页 创建“资源”或“指南”类页面,链接相关内容。
相关推荐链接 每篇文章结尾连3-5篇关联文章。
面包屑导航 帮助爬虫理解层级并发现页面。
导航栏优化 能否把受欢迎的深层页面加到主导航或页脚?
内部链接不仅是SEO最佳实践,也是爬虫发现内容的关键。
我详细说说JavaScript渲染问题:
AI爬虫能处理什么:
| 爬虫 | JS渲染能力 |
|---|---|
| GPTBot | 有限 |
| PerplexityBot | 有限 |
| ClaudeBot | 有限 |
| Google-Extended | 有(通过Googlebot) |
安全假设: 大多数AI爬虫看到的内容等于禁用JS时看到的。
常见JS问题:
客户端渲染内容 React/Vue/Angular应用只在浏览器渲染内容。 爬虫看到的是空容器。
无降级的懒加载 首屏以下内容和图片爬虫根本看不到。
交互组件隐藏内容 Tab、手风琴、轮播——非激活状态下的内容未写入初始HTML。
JS注入结构化数据 通过JS添加的schema,爬虫可能读不到。
测试方式:
# 查看原始HTML(爬虫能看到什么)
curl -s https://yoursite.com/page/
# 和浏览器渲染HTML对比(开发者工具>查看源代码)
如果curl输出缺少关键内容,就是JS渲染问题。
解决方法:
机器人防护可能会悄悄拦截AI爬虫。
常见导致问题的机器人防护:
Cloudflare Bot Fight Mode 可能挑战或拦截AI爬虫。 检查:安全 > 机器人 > Bot Fight Mode
速率限制 你如果限制每分钟的请求数,AI爬虫可能会被卡住。
JavaScript挑战 如果对机器人出JS挑战,AI爬虫很可能无法通过。
User Agent屏蔽 有些WAF会拦截未知或可疑User Agent。
如何验证:
针对AI爬虫的推荐设置:
大多数CDN/WAF支持按User Agent白名单:
你需要防恶意机器人,但不要拦AI爬虫索引你的内容。
为AI爬虫优化sitemap以提升发现率:
sitemap最佳实践:
包含所有重要页面 不仅仅是新内容,所有需被发现的页面。
更新频率信号
用<lastmod>显示内容更新时间。
近期更新更易被优先抓取。
robots.txt中声明sitemap
Sitemap: https://yoursite.com/sitemap.xml
让所有爬虫都能找到它。
验证方法:
# 检查sitemap可访问性
curl -I https://yoursite.com/sitemap.xml
# 应该返回200
# 统计sitemap中的页面数量
curl -s https://yoursite.com/sitemap.xml | grep -c "<url>"
如果你的不可见页面不在sitemap,请补充进去。
优先级提示:
可以用<priority>标签,但大多数爬虫忽略。更应依赖内部链接和内容新鲜度信号。
找到问题了!调试情况如下:
问题1:发现(主因)
问题2:机器人防护(次因)
问题3:JS内容(小问题)
已实施的解决措施:
内部链接大调整
sitemap合并
机器人防护调整
SSR上线
核心体会:
页面不是被屏蔽,而是没被发现。内部链接和sitemap覆盖对AI爬虫访问至关重要。
感谢大家的调试思路!
Get personalized help from our team. We'll respond within 24 hours.
关于网站导航对AI爬虫影响的社区讨论。开发者分享有助于或阻碍AI可见性及内容发现的导航结构经验。
社区讨论如何测试AI爬虫能否访问网站。实用方法验证GPTBot、PerplexityBot及其它AI爬虫能否抓取你的内容。
关于检测AI可抓取性的社区讨论。如何验证GPTBot、ClaudeBot和PerplexityBot能否访问你的内容。