Discussion Crawl Budget Technical SEO AI Crawlers

AI 机器人正在毁掉你的抓取预算吗?如何管理 GPTBot 及其同类

TE
TechSEO_Mike · 技术 SEO 负责人
· · 97 upvotes · 9 comments
TM
TechSEO_Mike
技术 SEO 负责人 · 2026年1月5日

刚刚分析了我们的服务器日志。AI 机器人流量在 6 个月内增长了 400%。

我的观察:

  • GPTBot:比去年多 12 倍的请求
  • ClaudeBot:抓取了数千个页面,引荐流量极少
  • PerplexityBot:原始请求量增长了 157,000%

问题:

服务器压力切实存在。高峰抓取时我们的源站很吃力。

问题:

  1. 你们如何管理 AI 抓取预算?
  2. 是否应该给这些机器人限速?
  3. 拦截还是放行——该如何决策?
  4. 如何优化它们的抓取内容?
9 comments

9 条评论

AS
AIBotExpert_Sarah 专家 技术 SEO 顾问 · 2026年1月5日

AI 抓取预算现在确实是个问题。我来详细说明一下。

AI 爬虫与 Google 的区别:

方面GooglebotAI 爬虫
成熟度20 多年优化新且激进
服务器友好自动限速较少考虑
JavaScript全渲染通常跳过
robots.txt高度遵循遵循度不一
抓取频率自适应往往过度
单次数据量~53KB~134KB

抓取与引荐比的问题:

ClaudeBot 每带来 1 个访客就抓取数万页。

GPTBot 也类似——巨量抓取,几乎没有即时流量。

为什么不能简单屏蔽:

如果你屏蔽 AI 爬虫,你的内容就不会出现在 AI 答案中。允许抓取的竞争对手将获得这些曝光。

策略:选择性管理,而不是屏蔽。

TM
TechSEO_Mike OP · 2026年1月5日
Replying to AIBotExpert_Sarah
“选择性管理”实际操作是怎样的?
AS
AIBotExpert_Sarah · 2026年1月5日
Replying to TechSEO_Mike

实际做法如下:

1. robots.txt 选择性屏蔽:

允许 AI 爬虫抓取高价值内容,屏蔽低价值区域:

User-agent: GPTBot
Disallow: /internal-search/
Disallow: /paginated/*/page-
Disallow: /archive/
Allow: /

2. 服务器级限速:

在 Nginx 中:

limit_req_zone $http_user_agent zone=aibot:10m rate=1r/s;

这样可以减慢 AI 爬虫速度,而不是直接屏蔽。

3. sitemap 优先级信号:

在 sitemap 中放入高价值页面并设置优先级。AI 爬虫通常会参考 sitemap 提示。

4. CDN 级控制:

Cloudflare 等服务可以针对不同的 user-agent 设置不同的速率限制。

应保护的内容:

  • 你的高价值基石内容
  • 希望被引用的产品页
  • 服务描述页
  • 专家内容

应屏蔽的内容:

  • 站内搜索结果
  • 深度分页
  • 用户生成内容
  • 归档页
  • 测试/预发布内容
ST
ServerAdmin_Tom 基础架构负责人 · 2026年1月5日

基础架构视角下的 AI 爬虫负载。

我们测量的数据(14 天周期):

爬虫事件数数据传输量单次平均
Googlebot49,9052.66GB53KB
AI 机器人合计19,0632.56GB134KB

AI 机器人请求次数更少,但带宽消耗几乎一样。

资源计算:

AI 爬虫每次请求的数据量是谷歌的 2.5 倍。它们抓取完整 HTML 供模型训练,不像谷歌那样高效增量抓取。

服务器影响:

  • AI 抓取高峰时源站 CPU 飙升
  • 并发请求导致内存压力
  • 动态内容会触发数据库查询
  • 可能影响真实用户

我们的解决方案:

  1. 缓存层——CDN 为 AI 机器人服务,保护源站
  2. 限速——每个 AI 爬虫每秒 2 次请求
  3. 队列优先级——真实用户优先,机器人其次
  4. 监控——AI 抓取高峰时自动预警

实施后服务器健康度提升了 40%。

AL
AIVisibility_Lisa 专家 · 2026年1月4日

可见性权衡视角。

两难抉择:

屏蔽 AI 爬虫 = 没有服务器压力,也没有 AI 曝光
允许 AI 爬虫 = 有服务器压力,潜在 AI 曝光

屏蔽后的实际情况:

我们在客户站点上测试了屏蔽 GPTBot 3 个月:

  • 服务器负载下降 22%
  • AI 引用下降 85%
  • ChatGPT 里竞争对手提及量上升
  • 2 个月内撤销了屏蔽决定

更优做法:

不要屏蔽,要管理。

管理优先级:

  1. CDN/缓存——让边缘节点处理机器人流量
  2. 限速——减速,不是阻止
  3. 选择性屏蔽——仅屏蔽低价值区块
  4. 内容优化——让它们抓取的内容有价值

ROI 计算:

如果 AI 流量转化率是自然流量的 5 倍,即便 AI 流量小幅提升也足以覆盖服务器投入。

服务器成本:每月增加 $200
AI 流量价值:每月 $2,000
结论:允许抓取

JP
JavaScript_Problem_Marcus · 2026年1月4日

关于 JavaScript 渲染的关键点。

问题:

大部分 AI 爬虫不会执行 JavaScript。

这意味着什么:

如果你的内容通过 JavaScript 渲染(如 React、Vue、Angular SPA),AI 爬虫看到的是空白。

我们的发现:

AI 爬虫数千次访问我们站点,但都是空页面。所有内容都在客户端加载。

解决方法:

对关键内容使用服务端渲染(SSR)。

结果:

时期AI 爬虫访问量可见内容被引用次数
SSR 前8,000/月0%2
SSR 后8,200/月100%47

相同抓取预算,引用提升 23 倍。

如果你用的是前端框架,务必对想让 AI 引用的页面做 SSR。否则,大量抓取预算都浪费在空页面上。

LR
LogAnalysis_Rachel · 2026年1月4日

服务器日志分析技巧。

如何识别 AI 爬虫:

应关注的 User-agent 字符串:

  • GPTBot
  • ChatGPT-User(实时查询)
  • OAI-SearchBot
  • ClaudeBot
  • PerplexityBot
  • Amazonbot
  • anthropic-ai

分析方法:

  1. 导出 30 天日志
  2. 按 AI user-agent 过滤
  3. 分析 URL 模式
  4. 计算抓取浪费比例

我们的发现:

60% 的 AI 抓取预算浪费在:

  • 站内搜索结果
  • 超过第 5 页的分页
  • 2018 年的归档页
  • 测试/预发布 URL

解决方案:

robots.txt 屏蔽这些区域。

AI 爬虫有效抓取从 40% 提升到 85%。

持续监控:

建立仪表盘追踪:

  • 按机器人分的 AI 爬虫流量
  • 最高频被抓取的 URL
  • 抓取期间响应时间
  • 抓取浪费百分比
BC
BlockDecision_Chris · 2026年1月3日

何时屏蔽才有意义。

需要屏蔽 AI 爬虫的正当理由:

  1. 法律内容——不应被引用的过时法律信息
  2. 合规内容——有合规风险的受监管内容
  3. 专有数据——商业机密、研究数据
  4. 敏感内容——用户生成、个人信息

举例:

律所有 2019 年的归档法规。如果 AI 以此为现行法律引用,客户会受误导。应屏蔽 AI 访问 /archive/legislation/。

选择性做法:

User-agent: GPTBot
User-agent: ClaudeBot
User-agent: PerplexityBot
Disallow: /archived-legal/
Disallow: /user-generated/
Disallow: /internal/
Allow: /

不应屏蔽的内容:

你的有价值内容、博客、产品页、服务描述——这些才是你希望 AI 引用的。

默认做法:

除非有明确理由,否则允许抓取。

FA
FutureProof_Amy · 2026年1月3日

llms.txt 新兴标准。

什么是 llms.txt?

类似 robots.txt,但专为 AI 爬虫设计。告知大模型哪些内容可用。

当前状况:

刚刚起步,并非所有 AI 提供商都遵循。

llms.txt 示例:

# llms.txt
name: 公司名称
description: 我们的业务
contact: ai@company.com

allow: /products/
allow: /services/
allow: /blog/

disallow: /internal/
disallow: /user-content/

现在要实施吗?

建议——这体现前瞻性,很快可能被 AI 系统采纳。

未来展望:

随着 AI 抓取成熟,我们会有更精细的控制手段。现在就要做好准备。

当前工具:robots.txt
新兴工具:llms.txt
未来:更细粒度的 AI 爬虫控制

TM
TechSEO_Mike OP 技术 SEO 负责人 · 2026年1月3日

很棒的讨论。我的 AI 抓取预算管理计划:

立即执行(本周):

  1. 分析服务器日志,找出 AI 爬虫模式
  2. 识别抓取浪费(归档、分页、站内搜索)
  3. 用 robots.txt 做选择性屏蔽
  4. 在 CDN 层实现限速

短期(本月):

  1. 为 AI 机器人流量配置 CDN 缓存
  2. 搭建监控仪表盘
  3. 测试 JavaScript 内容的 SSR
  4. 创建 llms.txt 文件

持续执行:

  1. 每周复查抓取效率
  2. 监控 AI 引用率
  3. 根据服务器容量调整限速
  4. 跟踪 AI 引荐流量与抓取量

关键决策:

  • 会完全屏蔽 AI 爬虫——可见性很重要
  • 限速至每秒 2 次请求
  • 选择性屏蔽低价值区域
  • CDN 保护源站

平衡点:

服务器健康重要,AI 曝光也重要。要管理,不要屏蔽。

感谢大家——这些建议很实用。

Have a Question About This Topic?

Get personalized help from our team. We'll respond within 24 hours.

Frequently Asked Questions

AI 的抓取预算是什么?
AI 的抓取预算是指像 GPTBot、ClaudeBot 和 PerplexityBot 这样的 AI 爬虫分配给你网站的抓取资源。它决定了能被发现的页面数量、访问频率,以及你的内容是否会出现在 AI 生成的答案中。
AI 爬虫比谷歌更激进吗?
是的——AI 爬虫通常比 Googlebot 更加激进抓取。有些网站报告 GPTBot 抓取频率是谷歌的 12 倍。AI 爬虫较新,对服务器容量的尊重也较低。
我应该屏蔽 AI 爬虫吗?
通常不建议——屏蔽 AI 爬虫意味着你的内容不会出现在 AI 生成的答案中。相反,建议使用选择性屏蔽,将 AI 抓取预算引导到高价值页面,避开低优先级内容。
AI 爬虫与 Googlebot 有哪些不同?
AI 爬虫通常不会渲染 JavaScript,抓取更为激进,不太考虑服务器容量,对 robots.txt 的遵循也不一致。它们采集数据是为了训练和生成答案,而不仅仅是索引。

监控 AI 爬虫活动

追踪 AI 机器人如何与您的网站互动。了解抓取模式并优化可见性。

了解更多