我应该在 robots.txt 允许哪些 AI 爬虫?GPTBot、PerplexityBot 等
关于允许或屏蔽哪些 AI 爬虫的社区讨论。站长们就 GPTBot、PerplexityBot 及其他 AI 爬虫访问权衡可见性与内容控制的真实决策。...
随着人工智能系统的出现,网络爬取发生了根本性的变化。与遵守既定协议的传统搜索引擎不同,一些AI公司采用了隐身爬取——故意伪装其机器人活动,以绕过网站限制和robots.txt指令。这种做法显著背离了近三十年来定义网络爬取的协作关系,引发了关于内容所有权、数据伦理以及开放互联网未来的关键讨论。

最突出的例子涉及Perplexity AI,这是一家AI驱动的答案引擎,被发现使用未声明爬虫访问被网站所有者明确屏蔽的内容。Cloudflare的调查显示,Perplexity既有声明爬虫(诚实地标识自己),也有隐身爬虫(伪装成普通网络浏览器)以规避封锁。这种双爬虫策略使Perplexity即使在网站通过robots.txt和防火墙规则明确禁止其访问时,仍能持续抓取内容。
robots.txt文件自1994年作为Robots Exclusion Protocol的一部分引入以来,一直是互联网的主要爬虫管理机制。这个简单的文本文件放置在网站根目录中,包含指示爬虫哪些部分可以访问、哪些不能访问的指令。典型的robots.txt内容如下:
User-agent: GPTBot
Disallow: /
此指令告知OpenAI的GPTBot爬虫不要访问网站上的任何内容。然而,robots.txt基于一个基本原则:完全依赖自觉。robots.txt中的指令无法强制爬虫行为,是否遵守取决于爬虫自身。像Googlebot等知名爬虫会遵守这些指令,但该协议缺乏强制机制。爬虫完全可以无视robots.txt,且从技术上无法阻止其这样做。
| 爬虫 | 声明的User Agent | 是否遵守robots.txt | 合规状态 |
|---|---|---|---|
| GPTBot (OpenAI) | Mozilla/5.0 (compatible; GPTBot/1.0) | 是 | 合规 |
| ChatGPT-User | Mozilla/5.0 (compatible; ChatGPT-User/1.0) | 是 | 合规 |
| ClaudeBot (Anthropic) | Mozilla/5.0 (compatible; Claude-Web/1.0) | 是 | 合规 |
| Google-Extended | Mozilla/5.0 (compatible; Google-Extended/1.0) | 是 | 合规 |
| Perplexity-User | Mozilla/5.0 (compatible; Perplexity-User/1.0) | 否 | 不合规 |
| 未声明隐身爬虫 | Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) Chrome/124.0.0.0 | 否 | 隐身/规避 |
守规与违规爬虫之间的区别变得越来越重要。像OpenAI和Anthropic这样的知名AI公司会公布其爬虫IP范围,保持透明的文档,并尊重网站所有者的偏好。相反,隐身爬虫则故意隐藏身份,无视网站指令,把robots.txt当作需要绕过的障碍而不是应遵循的准则。
Cloudflare对Perplexity爬取行为的深入调查,至今为止提供了最详尽的隐身爬取策略文档。研究团队创建了多个测试域名,并在robots.txt中明确禁止所有自动化访问。尽管有如此明确的限制,Perplexity在其AI界面中被查询时,仍然提供了这些测试域内容的详细信息。
调查揭示了复杂的双重爬取策略。Perplexity的声明爬虫(Perplexity-User)每天发起2000万到2500万次请求,并诚实地标识自己。然而,当声明爬虫遇到网络封锁或robots.txt限制时,Perplexity会部署未声明的隐身爬虫,该爬虫每天额外发起300万到600万次请求,并伪装成macOS上的合法Chrome浏览器。该隐身变体使用通用的user agent字符串:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36。
隐身爬虫同时采用多种规避技术。它会轮换使用未在Perplexity官方IP范围文档中列出的IP地址,使网站所有者无法通过已知Perplexity基础设施进行阻断。此外,该爬虫还会切换其来源自治系统号(ASN)——即网络服务提供商标识,以进一步隐藏其来源。上述活动在数万个域名上被观察到,每天产生数百万次请求。
鲜明对比的是,Cloudflare用ChatGPT进行同样测试时,观察到完全不同的行为。ChatGPT-User会获取robots.txt文件,识别出禁止指令,并立即停止爬取。面对网络层级的封锁时,ChatGPT不会尝试用其他user agent或IP发起后续请求。这表明,守规行为在技术上完全可行,公司选择无视robots.txt其实是出于商业决策,而非技术限制。
隐身爬虫采用复杂的技术组合来规避检测和绕过网站限制。了解这些机制有助于制定有效的防御措施:
User Agent伪造:爬虫通过采用真实浏览器的user agent字符串(如Chrome、Safari、Firefox)来伪装自己,使其表面上与人类访客无异。
IP轮换与代理网络:隐身爬虫不会只用单一IP或已知数据中心IP发起请求,而是通过数百、数千个不同IP分布请求,通常利用住宅代理网络,将流量伪装为真实家庭宽带。
ASN轮换:通过更换自治系统号(网络服务商标识),爬虫看似来自不同的互联网服务提供商,使基于IP的封锁无效。
无头浏览器模拟:现代隐身爬虫运行真实的浏览器引擎(如Chrome Headless、Puppeteer、Playwright),可执行JavaScript、维护Cookie,并模拟鼠标移动、随机延迟等真实用户操作。
请求速率操控:不像传统爬虫那样快速连续请求,隐身爬虫会引入可变延迟,模仿自然的人类浏览节奏,避开速率限制检测。
指纹随机化:爬虫会随机化浏览器指纹——如屏幕分辨率、时区、已安装字体、TLS握手特征等,避免被设备指纹识别系统检测。
这些技术协同作用,形成多层规避策略,有效破解传统检测方法。一个爬虫可能同时使用伪造user agent、住宅代理、随机请求延迟和指纹随机化,使其几乎与真实流量无异。
部署隐身爬虫的根本驱动力是数据渴求。训练先进的大型语言模型需要大量高质量文本数据。而最有价值的内容——专有研究、付费文章、独家论坛讨论、专业知识库——往往被网站所有者明确限制。公司面临抉择:尊重网站偏好,接受低质量训练数据,还是绕过限制,获取优质内容。
竞争压力极大。为模型开发投入巨资的AI公司认为,优质训练数据直接决定模型优劣,从而决定市场竞争力。当竞争者愿意抓取受限内容时,遵守robots.txt反而成了劣势。这导致道德行为被市场机制惩罚的“逐底竞争”局面。
此外,几乎没有执行机制。网站所有者无法从技术上阻止有决心的爬虫。法律救济程序缓慢、成本高昂且结果难以预料。除非网站采取正式法律行动——而这超出了大多数组织的资源能力——违规爬虫几乎不会面临即时后果。风险与回报的天平极度倾向于无视robots.txt。
法律环境同样模糊。虽然违反robots.txt可能违反服务条款,但抓取公开信息的法律地位因地区而异。一些法院裁定抓取公开数据合法,而另一些则认定违反了《计算机欺诈与滥用法》。这种不确定性助长了愿意游走于灰色地带的公司。
隐身爬取带来的后果远超技术困扰。Reddit发现其用户生成内容被用于训练AI模型,既未获许可也未获得补偿。对此,该平台大幅提高API价格,专门向AI公司收取数据访问费,CEO Steve Huffman公开点名微软、OpenAI、Anthropic和Perplexity“免费使用Reddit数据”。
Twitter/X采取更加激进的措施,曾一度封禁所有未认证用户访问推文,并对认证用户实施严格限流。Elon Musk明确表示,这是为了紧急阻止“数百家机构”抓取Twitter数据,因为这正在影响用户体验并消耗大量服务器资源。
新闻出版商对此尤为强烈。纽约时报、CNN、路透社和卫报均更新了robots.txt以屏蔽OpenAI的GPTBot。一些出版商采取法律行动,纽约时报对OpenAI提起版权侵权诉讼。美联社则采取了不同做法,与OpenAI就提供部分新闻内容换取技术访问权达成许可协议——这是此类商业合作的先例之一。
Stack Overflow则遭遇了更复杂的抓取行动,攻击者创建数千账户,利用高级技术将自己伪装为正常用户以批量抓取代码示例。其工程团队记录了抓取者如何在大量连接中使用相同TLS指纹、维持持久会话,甚至购买高级账户以规避检测。
所有这些案例的共同点是失去控制权。内容创作者无法再决定自己的作品如何被使用、由谁获益、是否能获得补偿。这标志着互联网权力格局的根本转变。
幸运的是,业界正在开发先进工具以检测并阻止隐身爬虫。Cloudflare的AI Crawl Control(前称AI Audit)可显示哪些AI服务正在访问您的内容以及它们是否遵守robots.txt政策。平台新增的Robotcop功能更进一步,能将robots.txt指令自动转化为Web应用防火墙(WAF)规则,在网络层面强制执行合规。

设备指纹识别是强大的检测技术。通过分析浏览器版本、屏幕分辨率、操作系统、已安装字体、TLS握手特征和行为模式等数十项信号,安全系统可发现不一致之处,从而揭示爬虫行为。例如,伪装成macOS Chrome的爬虫,其TLS指纹可能与真实Chrome不符,或缺失某些真实浏览器提供的API。
行为分析考察访客的实际操作。真实用户有自然的浏览行为:阅读内容、逻辑导航、犯错并纠正。机器人则常表现出异常模式:以不自然顺序访问页面、资源加载顺序异常、从不与交互元素互动,或以不可能的速度访问页面。
速率限制结合其他技术时依然有效。通过对每个IP、会话及账户严格限制请求速率,可显著拖慢抓取行为,使其失去经济意义。指数退避机制——每次违规后等待时间递增——进一步遏制自动化攻击。
AmICited填补了当前生态的关键空白:让您了解哪些AI系统实际在引用您的品牌和内容。虽然Cloudflare的AI Crawl Control等工具能显示有哪些爬虫访问了您的网站,AmICited则进一步跟踪哪些AI系统——如ChatGPT、Perplexity、Google Gemini、Claude等——实际在其答案中引用了您的内容。
这种区分至关重要。爬虫访问您的网站,并不代表您的内容一定会被引用。相反,您的内容也可能被通过间接渠道(如Common Crawl数据集)访问的AI系统引用。AmICited补全了这个缺口:为您的内容被AI系统使用提供证据,并详细说明引用方式。
该平台通过分析流量模式、user agent和行为信号,识别访问您内容的隐身爬虫。当AmICited侦测到可疑爬虫活动——尤其是使用伪造user agent的未声明爬虫时,会将其标记为可能的隐身爬取行为。这使网站所有者能对不合规爬虫采取措施,同时保留对合法AI访问的可见性。
实时警报在检测到隐身爬虫时及时通知您,便于快速响应。与现有SEO和安全工作流的集成,使您能将AmICited数据纳入整体内容策略和安全防护。对于关心AI时代内容使用方式的组织来说,AmICited提供了关键情报。
保护内容免受隐身爬虫侵扰需要多层防护:
制定明确的Robots.txt策略:虽然隐身爬虫可能无视robots.txt,合规爬虫仍会遵守。明确禁止不希望访问您内容的爬虫,并为已知AI爬虫如GPTBot、ClaudeBot、Google-Extended等添加指令。
部署WAF规则:使用Web应用防火墙规则,在网络层面强制执行robots.txt策略。Cloudflare的Robotcop等工具可自动将robots.txt生成WAF规则。
定期监控爬虫行为:利用AmICited、Cloudflare AI Crawl Control等工具,跟踪哪些爬虫访问您的网站及其是否遵守指令。定期监控有助于快速识别隐身爬虫。
部署设备指纹识别:实施设备指纹识别解决方案,分析浏览器特征及行为模式,识别伪装成正常用户的机器人。
对敏感内容考虑身份认证:对于最有价值的内容,考虑要求认证或设置付费墙。这能阻止合规和隐身爬虫访问受限内容。
关注爬虫策略动态:爬虫规避技术持续演进。订阅安全简报、关注业界研究,及时更新防御措施以应对新策略。
目前这种既有AI公司公开无视robots.txt,也有公司严格遵守的局面难以为继。行业和监管响应已在出现。**互联网工程任务组(IETF)**正在制定robots.txt扩展规范,以便对AI训练和数据使用实现更细致的控制。届时,网站所有者可针对搜索引擎、AI训练及其他用途区分政策。
Web Bot Auth是新提出的开放标准,允许爬虫通过加密签名请求,证明自身身份和合法性。OpenAI的ChatGPT Agent已在实施这一标准,表明透明、可验证的爬虫身份识别在技术上完全可行。
监管变化也很可能到来。欧盟对AI的监管态度,加上内容创作者和出版商的持续压力,预示未来法规或将对爬虫合规提出法律要求。无视robots.txt的公司将面临的不只是声誉风险,还有监管处罚。
行业正转向以透明与合规为竞争优势的新模式。那些尊重网站所有者偏好、明确标识爬虫、为内容创作者带来价值的公司,将赢得信任并建立可持续关系。依赖隐身策略的公司则面临日益严峻的技术、法律与声誉风险。
对网站所有者而言,信息明确:主动监控与执行有必要。通过实施上述工具和方法,您可在AI时代持续掌控内容使用权,同时支持尊重开放互联网基本原则的负责任AI系统的发展。
隐身爬虫通过伪装成合法的网络浏览器并隐藏其真实来源,故意伪装其身份。与使用独特user agent且遵守robots.txt指令的普通爬虫不同,隐身爬虫采用伪造的user agent,轮换IP地址,并利用规避技术绕过网站限制,访问那些被明确禁止访问的内容。
AI公司无视robots.txt,主要是因为训练大型语言模型对数据的极度渴求。最有价值的内容往往被网站所有者限制,形成了规避限制的竞争动机。此外,几乎没有执行机制——网站所有者无法从技术上阻止有决心的爬虫,而法律救济则慢且昂贵,使得风险与回报的权衡倾向于无视robots.txt。
虽然无法彻底阻止所有隐身爬虫,但通过多层防护可以显著减少未经授权的访问。实施明确的robots.txt策略,部署WAF规则,使用设备指纹识别,利用如AmICited等工具监控爬虫行为,并考虑对敏感内容进行认证。关键在于多种技术的结合,而不是依赖单一方案。
user agent伪造是指爬虫通过采用真实的user agent字符串(如Chrome或Safari)来伪装成合法的网络浏览器。这使得爬虫看起来像是真正的人类访客而非机器人。隐身爬虫利用这种技术绕过基于user agent的简单屏蔽,并避开那些查找机器身份标识的安全系统的检测。
您可以通过分析流量模式中的可疑行为来检测隐身爬虫:如来自异常IP的请求、不可能的导航路径、缺乏人类交互的特征,或与真实浏览器指纹不符的请求。像AmICited、Cloudflare的AI Crawl Control以及设备指纹识别解决方案等工具可以通过同时分析数十种信号,实现自动检测。
爬虫规避的法律地位因司法管辖区而异。虽然违反robots.txt可能构成服务条款违约,但抓取公开信息的法律地位仍不明确。一些法院裁定抓取是合法的,而另一些则以违反计算机欺诈与滥用法为由认定违法。这种法律不确定性助长了愿意在灰色地带运营的公司,尽管相关监管正在逐步出台。
AmICited能够让您了解哪些AI系统实际在引用您的品牌和内容,不仅仅局限于跟踪哪些爬虫访问了您的网站。该平台通过分析流量模式和行为信号识别隐身爬虫,在检测到可疑活动时实时发送警报,并与现有SEO和安全工作流集成,帮助您持续掌控内容的使用方式。
已声明爬虫会用独特的user agent字符串公开标识自己,公布其IP范围,并通常遵守robots.txt指令。例如OpenAI的GPTBot和Anthropic的ClaudeBot。未声明爬虫则通过伪装浏览器、伪造user agent并故意无视网站限制来隐藏身份。Perplexity的隐身爬虫就是未声明爬虫的典型代表。
关于允许或屏蔽哪些 AI 爬虫的社区讨论。站长们就 GPTBot、PerplexityBot 及其他 AI 爬虫访问权衡可见性与内容控制的真实决策。...
了解如何配置 robots.txt 以控制 AI 爬虫的访问,包括 GPTBot、ClaudeBot 和 Perplexity。管理您的品牌在 AI 生成答案中的可见性。
了解应在robots.txt中允许或阻止哪些AI爬虫。全面指南涵盖GPTBot、ClaudeBot、PerplexityBot及25+种AI爬虫,并附配置示例。
Cookie 同意
我们使用 cookie 来增强您的浏览体验并分析我们的流量。 See our privacy policy.