有人真的为 AI 爬虫配置过 robots.txt 吗?网上的指导五花八门
社区关于为 GPTBot、ClaudeBot 和 PerplexityBot 等 AI 爬虫配置 robots.txt 的讨论。站长和 SEO 专家们关于屏蔽与允许 AI 爬虫访问的真实经验分享。...
刚刚审查了一个客户的网站,发现了有趣的情况。
发现:
他们的 robots.txt 已经屏蔽 AI 爬虫超过两年:
User-agent: *
Disallow: /private/
# 这是 2023 年由安全插件添加的
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
影响:
现在我的疑问:
向社区提问:
想要实际可用的配置,而不是纯理论。
这种情况比大家想象的更常见。我来梳理一下爬虫类型:
AI 爬虫类型:
| 爬虫 | 公司 | 目的 | 推荐 |
|---|---|---|---|
| GPTBot | OpenAI | 模型训练 | 自行决定 |
| ChatGPT-User | OpenAI | 实时搜索 | 允许 |
| ClaudeBot | Anthropic | 实时引用 | 允许 |
| Claude-Web | Anthropic | 网页浏览 | 允许 |
| PerplexityBot | Perplexity | 搜索索引 | 允许 |
| Perplexity-User | Perplexity | 用户请求 | 允许 |
| Google-Extended | Gemini/AI 功能 | 允许 |
关键区别:
大多数公司:
允许搜索型爬虫(你会获得引用),训练型爬虫则视业务需求而定。
推荐 robots.txt:
# 允许 AI 搜索型爬虫
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: PerplexityBot
User-agent: Perplexity-User
User-agent: Google-Extended
Allow: /
# 如需可选屏蔽训练型爬虫
User-agent: GPTBot
Disallow: /
Sitemap: https://yoursite.com/sitemap.xml
补充重要一点:要验证爬虫是真的被屏蔽了,而非根本没来访问。
如何检查:
我们某客户的发现:
robots.txt 允许了 GPTBot,但 Cloudflare 安全规则将其拦截为“可疑机器人”。
AI 机器人防火墙配置:
如果用 Cloudflare:
robots.txt 必不可少,但还不够。
要检查所有技术栈层面。
你提到 llms.txt,我来简单说明:
什么是 llms.txt:
2024 年提出的新标准,给 AI 系统结构化展示你的网站。可以理解为专为语言模型设计的内容目录。
位置: yoursite.com/llms.txt
基本结构:
# 你的公司名称
> 简要介绍你的公司
## 核心页面
- [首页](https://yoursite.com/): 主要入口
- [产品](https://yoursite.com/products): 产品目录
- [价格](https://yoursite.com/pricing): 价格信息
## 资源
- [博客](https://yoursite.com/blog): 行业见解
- [文档](https://yoursite.com/docs): 技术文档
- [常见问题](https://yoursite.com/faq): 常见问题
## 支持
- [联系](https://yoursite.com/contact): 联系我们
为什么有用:
AI 系统上下文窗口有限,无法抓取和理解整个网站。llms.txt 为它们提供精选结构化地图。
我们实施后的效果:
训练与搜索型爬虫的区别值得深入探讨。
哲学性问题:
你愿意让你的内容用于 AI 模型训练吗?
允许训练的理由:
反对理由:
出版商做法:
| 出版商类型 | 训练型 | 搜索型 |
|---|---|---|
| 新闻网站 | 屏蔽 | 允许 |
| SaaS 公司 | 允许 | 允许 |
| 电商 | 不同 | 允许 |
| 机构 | 允许 | 允许 |
我的建议:
大多数 B2B 公司建议两者都允许,引用收益大于训练担忧。
如果你是有内容授权价值的出版商,可考虑屏蔽训练型,仅允许搜索型。
分享实际解封 AI 爬虫的结果:
客户A(SaaS):
之前:GPTBot 被屏蔽,AI 引用 0 之后:GPTBot 和全部爬虫允许
| 指标 | 之前 | 30天 | 90天 |
|---|---|---|---|
| AI 引用 | 0 | 12 | 47 |
| AI引荐流量 | 0 | 0.8% | 2.3% |
| 品牌搜索 | 基线 | +8% | +22% |
客户B(电商):
之前:全部 AI 被屏蔽 之后:允许搜索型,屏蔽训练型
| 指标 | 之前 | 30天 | 90天 |
|---|---|---|---|
| 产品引用 | 0 | 34 | 89 |
| AI引荐流量 | 0 | 1.2% | 3.1% |
| 产品搜索 | 基线 | +15% | +28% |
时间线:
关键洞察:
解封后不是立刻见效,一般需4-8周才有明显影响。
安全视角下的 AI 爬虫:
实际担忧:
如何防范:
验证爬虫身份:
单独限流(每个爬虫):
GPTBot: 100 次/分钟
ClaudeBot: 100 次/分钟
PerplexityBot: 100 次/分钟
监控异常:
官方 IP 范围:
各 AI 公司会公开爬虫 IP:
白名单前请先核查。
WordPress 用户常见的屏蔽问题:
会屏蔽 AI 的安全插件:
如何检查:
WordPress 的 robots.txt:
WordPress 动态生成 robots.txt,定制方法:
方案一:用 Yoast SEO→工具→文件编辑器 方案二:在根目录创建 robots.txt 文件(会覆盖动态生成) 方案三:插件“Robots.txt Editor”
我们标准 WordPress 配置:
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
Sitemap: https://yoursite.com/sitemap.xml
WordPress 说明很到位,我补充下如何为 WordPress 创建 llms.txt。
方案一:静态文件
在主题根目录创建 llms.txt,上传到 public_html/
方案二:插件方式
现在有些插件支持自动生成 llms.txt:
方案三:代码片段
// 在 functions.php
add_action('init', function() {
if ($_SERVER['REQUEST_URI'] == '/llms.txt') {
header('Content-Type: text/plain');
// 输出你的 llms.txt 内容
exit;
}
});
最佳实践:
每当你:
静态文件最简单,但需手动维护。
解封后,监控 AI 爬虫活动的方法:
建议追踪的指标:
| 指标 | 如何查询 | 作用 |
|---|---|---|
| 抓取频率 | 服务器日志 | 机器人访问频率 |
| 抓取页面 | 服务器日志 | 抓取内容范围 |
| 抓取错误 | 服务器日志 | 是否被屏蔽 |
| AI 引用 | Am I Cited | 抓取是否带来可见性 |
服务器日志分析:
留意这些 user-agent:
简单 grep 命令:
grep -E "GPTBot|ClaudeBot|PerplexityBot|Google-Extended" access.log
健康的爬虫活动表现:
风险信号:
这场讨论让我收获满满。我们的实施计划如下:
更新后的 robots.txt:
# 允许 AI 搜索型爬虫(引用)
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: PerplexityBot
User-agent: Perplexity-User
User-agent: Google-Extended
Allow: /
# 训练型爬虫 — 暂时允许
User-agent: GPTBot
Allow: /
# 标准规则
User-agent: *
Disallow: /private/
Disallow: /admin/
Sitemap: https://clientsite.com/sitemap.xml
llms.txt 实施:
为客户网站制作结构化概览,包括:
防火墙更新:
监控设置:
时间预期:
成功指标:
感谢大家的技术细节和真实配置分享。
Get personalized help from our team. We'll respond within 24 hours.
社区关于为 GPTBot、ClaudeBot 和 PerplexityBot 等 AI 爬虫配置 robots.txt 的讨论。站长和 SEO 专家们关于屏蔽与允许 AI 爬虫访问的真实经验分享。...
关于允许或屏蔽哪些 AI 爬虫的社区讨论。站长们就 GPTBot、PerplexityBot 及其他 AI 爬虫访问权衡可见性与内容控制的真实决策。...
了解应在robots.txt中允许或阻止哪些AI爬虫。全面指南涵盖GPTBot、ClaudeBot、PerplexityBot及25+种AI爬虫,并附配置示例。