
ClaudeBot 详解:Anthropic 的爬虫及其与您内容的关系
了解 ClaudeBot 的工作原理、它与 Claude-Web 和 Claude-SearchBot 的区别,以及如何通过 robots.txt 配置管理 Anthropic 的网络爬虫在您网站上的行为。...

CCBot 是 Common Crawl 的网络爬虫,系统性地收集数十亿网页,以构建开放数据集,被 AI 公司用于训练大型语言模型。它遵循 robots.txt 指令,网站所有者若担心内容被用于 AI 训练或数据使用,亦可选择屏蔽该爬虫。
CCBot 是 Common Crawl 的网络爬虫,系统性地收集数十亿网页,以构建开放数据集,被 AI 公司用于训练大型语言模型。它遵循 robots.txt 指令,网站所有者若担心内容被用于 AI 训练或数据使用,亦可选择屏蔽该爬虫。
CCBot 是由非营利机构 Common Crawl 运营的 基于 Nutch 的网络爬虫,致力于让网络信息获取更加民主化。该爬虫系统性地访问互联网上的网站,采集并归档网页内容,使其可被全球研究、分析及AI 训练使用。CCBot 属于AI 数据抓取器,即专门下载网站内容以纳入用于训练大型语言模型和其他机器学习系统的数据集。不同于传统为检索而索引内容的搜索引擎爬虫,CCBot 着重于为机器学习应用收集全面的数据。该爬虫运行透明,拥有专用 IP 段及反向 DNS 验证,便于站长认证真实的 CCBot 请求。Common Crawl 的使命,是推动包容性知识生态,让机构、学界和非营利组织通过开放数据协作,解决复杂的全球性挑战。

CCBot 利用 Apache Hadoop 项目 和 Map-Reduce 处理,高效应对大规模网页抓取任务,从数十亿页面中筛选和处理抓取目标。其采集的数据以三种主要格式存储,各自在数据管道中承担不同职能。WARC 格式(Web ARChive)存储原始抓取数据,包括完整的 HTTP 响应、请求信息和抓取元数据,直接映射抓取过程。WAT 格式(Web Archive Transformation)则保存 WARC 文件中记录的计算元数据,包括 HTTP 头及提取的链接,采用 JSON 格式。WET 格式(WARC Encapsulated Text)则抽取网页正文文本,适用于只需文本信息的任务。这三种格式让研究者和开发者可按需获取 Common Crawl 数据,从原始响应到处理后的元数据再到纯文本抽取,粒度灵活。
| 格式 | 内容 | 主要用途 |
|---|---|---|
| WARC | 原始 HTTP 响应、请求及抓取元数据 | 完整抓取数据分析与归档 |
| WET | 页面抽取的纯文本 | 基于文本的分析与自然语言处理 |
| WAT | 计算元数据、头信息及 JSON 格式链接 | 链接分析与元数据提取 |
CCBot 对现代人工智能系统至关重要,因为 Common Crawl 数据集被广泛用于训练包括 OpenAI、Google 等领先 AI 机构开发的大型语言模型(LLM)。Common Crawl 数据集作为一个庞大、公开可用的网页资源库,覆盖数十亿网页,是机器学习研究最全面的训练数据来源之一。最新行业数据显示,训练型爬虫目前占 AI 机器人活动的近 80%,较一年前的 72% 有显著增长,彰显 AI 模型开发的快速扩张。该数据集向研究机构、企业及非营利组织免费开放,极大地普及了尖端 AI 研究所需的数据基础设施。Common Crawl 的开放策略加速了自然语言处理、机器翻译等领域的进步,促进了机构间的协作研究。这一数据资源的可及性,对于开发全球数以百万计用户依赖的搜索引擎、聊天机器人等智能应用具有重要推动作用。

希望阻止 CCBot 抓取内容的网站所有者,可通过robots.txt 文件实现,该文件是向网络爬虫传达访问指令的标准机制。robots.txt 放置于网站根目录,用于指定哪些爬虫可访问或禁止访问哪些路径。如需专门屏蔽 CCBot,站长只需添加一条简单规则,禁止 CCBot 访问全站。Common Crawl 还提供专用 IP 段与反向 DNS 验证,便于站长确认请求是否真实来自 CCBot,而非冒充的恶意爬虫。此项验证尤为重要,因为部分恶意爬虫会伪造 CCBot 的 User-Agent 以绕过安全措施。站长可通过反向 DNS 查询 IP,正确请求应解析为 crawl.commoncrawl.org 域下的域名。
User-agent: CCBot
Disallow: /
CCBot 及 Common Crawl 数据集为研究者、开发者及组织带来处理大规模网络数据的巨大便利,但在内容使用与归属方面也存在一定争议。Common Crawl 数据集的开放和免费特性,使中小型机构和学术界无需高昂成本即可开展高水平 AI 研究。然而,内容创作者与出版方对其作品未经明确授权或补偿被用于 AI 训练数据集表达了担忧。
优势:
劣势:
虽说 CCBot 是最知名的 AI 数据抓取器之一,但还有其它重要爬虫如 GPTBot(由 OpenAI 运营)和 Perplexity Bot(由 Perplexity AI 运营),各自具有不同的目标和特性。GPTBot 专为 OpenAI 语言模型采集训练数据,可通过 robots.txt 屏蔽,方式与 CCBot 相同。Perplexity Bot 则为 Perplexity 的 AI 搜索引擎采集信息,搜索结果中会附带引用来源。与以检索为目的的 Googlebot 等搜索引擎爬虫不同,这三类 AI 数据爬虫均以为模型训练收集全量内容为核心。CCBot 与 GPTBot 等专有爬虫的主要区别在于 Common Crawl 以非营利机构身份提供开放数据,而 OpenAI 和 Perplexity 则运营专有系统。网站所有者可单独通过 robots.txt 屏蔽这些爬虫,但效果取决于运营方是否遵守指令。AI 数据抓取器激增,也推动了如 Dark Visitors 和 AmICited.com 等工具的流行,辅助网站监控和管理爬虫访问。
网站所有者可借助专业工具监控 CCBot 及其他 AI 爬虫的活动,提升对机器人流量和 AI 代理访问模式的可见性。Dark Visitors 是一站式平台,跟踪数百种 AI 代理、爬虫和抓取器,让站长及时了解访问机器人及其频率,获得 CCBot 及其他 AI 爬虫的实时分析和抓取模式洞察,便于据此决定是否屏蔽特定代理。AmICited.com 则帮助内容创作者了解作品是否被收录进 AI 训练数据集,以及在生成内容中的使用方式。这些监控工具尤为重要,因为它们能验证爬虫访问,区分真实 CCBot 与冒充请求。通过部署这些平台的代理分析,网站可洞察隐藏的机器人流量,追踪 AI 爬虫长期趋势。监控工具与 robots.txt 配置的结合,为站长全面掌控内容被 AI 训练系统访问的途径。
网站所有者应制定全面策略,管理 CCBot 及其他 AI 爬虫的访问,兼顾开放研究的益处与内容使用和归属担忧。首先,审视贵站点定位和内容,评估参与 Common Crawl 是否符合机构目标和价值观。其次,若决定屏蔽 CCBot,请配置相应 robots.txt 规则,并通过如 Dark Visitors 等工具监控爬虫执行情况。第三,可考虑采用robots.txt 分类管理,自动更新新发现的 AI 代理规则,而非手动维护各爬虫规则。第四,通过反向 DNS 验证 CCBot 请求,确保爬虫身份属实,防止伪造 User-Agent。第五,持续监控网站流量,评估 AI 爬虫对服务器资源的影响,及时调整屏蔽策略。第六,关注 AI 爬虫透明度和署名标准的行业动态,跟进内容创作者补偿和认可的新进展。最后,建议通过 Common Crawl 邮件列表和 Discord 社区参与行业讨论,反馈建议,共同推动负责任的网络爬虫实践。
CCBot 是专为收集机器学习模型训练数据而设计的 AI 数据抓取器,而 Googlebot 等搜索引擎爬虫则用于索引内容供搜索检索。CCBot 会下载整个页面以创建数据集,而 Googlebot 仅提取元数据用于搜索索引。两者都遵守 robots.txt 指令,但它们在网络生态中服务的根本目的不同。
可以,您可以通过在 robots.txt 文件中添加禁止 CCBot 的规则进行屏蔽。只需添加 'User-agent: CCBot' 和 'Disallow: /'。Common Crawl 遵守 robots.txt 指令,但建议您使用反向 DNS 验证,确保请求确实来自 crawl.commoncrawl.org 域名。
尽管 Common Crawl 体量巨大(超过 9.5 PB),但并未覆盖整个网络。它包含来自数十亿 URL 的网页样本,但许多大型网站如 Facebook 和《纽约时报》会屏蔽其爬虫。抓取内容偏向英语及高链接频率域名,因此它是具有代表性但不完整的网络快照。
AI 公司之所以使用 Common Crawl 数据,是因为它免费提供大规模、公开可用的网络内容,这对训练大型语言模型至关重要。该数据集覆盖数十亿页面的多样内容,非常适合构建具备广泛知识的模型。此外,使用 Common Crawl 比自行搭建抓取基础设施更具成本效益。
如 Dark Visitors 和 AmICited.com 等工具可实时监控您网站上的 AI 爬虫流量。Dark Visitors 跟踪数百种 AI 代理和爬虫,AmICited.com 则帮助您了解内容是否已被用于 AI 训练。这些平台能验证爬虫访问并提供抓取模式分析,辅助您决定是否屏蔽特定爬虫。
屏蔽 CCBot 对 SEO 影响极小,因为它不参与搜索引擎索引。不过,如果您的内容被用于训练 AI 驱动的搜索引擎,屏蔽 CCBot 可能会减少您在 AI 生成回答中的曝光。这有可能间接影响通过 AI 搜索平台的可发现性,因此建议权衡长期策略。
Common Crawl 遵循美国合理使用原则,但版权争议仍存。Common Crawl 本身不主张内容所有权,但利用这些数据训练模型的 AI 公司曾面临版权诉讼。如您担心内容被未经授权使用,建议屏蔽 CCBot 或咨询法律专家。
Common Crawl 每月抓取一次,每次覆盖 30-50 亿个 URL。组织会定期发布新的抓取数据,是更新频率最高的大型网络档案之一。但单个页面未必每月都被抓取,具体频率取决于域名的谐波中心性分数和抓取能力。

了解 ClaudeBot 的工作原理、它与 Claude-Web 和 Claude-SearchBot 的区别,以及如何通过 robots.txt 配置管理 Anthropic 的网络爬虫在您网站上的行为。...

了解 ClaudeBot 是什么、其工作原理,以及如何通过 robots.txt 配置在你的网站上阻止或允许这个 Anthropic 网页爬虫。

了解 PerplexityBot,这是一款由 Perplexity 开发的网页爬虫,为其 AI 答案引擎索引内容。了解其工作原理、对 robots.txt 的遵循以及如何在你的网站上管理它。...
Cookie 同意
我们使用 cookie 来增强您的浏览体验并分析我们的流量。 See our privacy policy.