Amazonbot

Amazonbot

Amazonbot

亚马逊用于提升包括Alexa、Rufus购物助手和亚马逊AI搜索功能在内的产品和服务的网页爬虫。它遵循Robots Exclusion Protocol,并可通过robots.txt指令进行控制。也可能被用于AI模型训练。

什么是Amazonbot及其作用

Amazonbot是亚马逊官方的网页爬虫,旨在通过收集和分析网页内容来提升公司产品与服务。这个先进的爬虫为亚马逊的关键功能提供支持,包括Alexa语音助手、Rufus AI购物助手以及亚马逊的AI驱动搜索体验。Amazonbot使用的user agent字符串为Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) Chrome/119.0.6045.214 Safari/537.36,可用于向Web服务器标识自身。Amazonbot收集的数据可能被用于训练亚马逊的人工智能模型,这使其成为亚马逊AI基础设施与产品开发战略的重要组成部分。

Amazonbot web crawler ecosystem showing connections to Alexa, Rufus shopping assistant, and Amazon search

Amazonbot的工作原理及相关爬虫

亚马逊运营着三种不同的网页爬虫,每种在其生态系统中有特定用途。Amazonbot是主要爬虫,用于整体产品和服务改进,也可能被用于AI模型训练。Amzn-SearchBot则专为提升Alexa和Rufus等亚马逊产品的搜索体验而设计,且重要的是——它不会抓取内容用于生成式AI模型训练。Amzn-User则支持用户发起的操作,比如当用户向Alexa提问需要最新网页数据时,抓取实时信息,也不会用于AI训练。三种爬虫均遵循Robots Exclusion Protocol并遵守robots.txt指令,网站所有者可据此控制其访问权限。亚马逊在其开发者门户公开每个爬虫的IP地址,便于站长验证真实流量。另外,所有亚马逊爬虫都支持链接级rel=nofollow指令及页面级robots meta标签,包括noarchive(防止用于模型训练)、noindex(防止收录)、none(两者都防止)。

爬虫名称主要用途AI模型训练User Agent关键应用场景
Amazonbot产品/服务整体提升Amazonbot/0.1亚马逊服务优化、AI训练
Amzn-SearchBot搜索体验提升Amzn-SearchBot/0.1Alexa搜索、Rufus购物助手索引
Amzn-User用户发起的实时数据抓取Amzn-User/0.1Alexa实时查询、最新信息请求

Robots.txt与访问控制

亚马逊遵循行业标准的Robots Exclusion Protocol(RFC 9309),这意味着网站所有者可以通过robots.txt文件控制Amazonbot的访问。亚马逊会从您域名根目录(如example.com/robots.txt)抓取robots.txt文件,若无法获取则使用最近30天的缓存。robots.txt文件的变更通常约24小时后会反映在亚马逊系统中。该协议支持标准的user-agentallow/disallow指令,您可精细控制哪些爬虫能访问哪些目录或文件。但需注意,亚马逊爬虫不支持crawl-delay指令,若在robots.txt中写入该参数会被忽略。

以下为Amazonbot访问控制示例:

# 阻止Amazonbot抓取您整个网站
User-agent: Amazonbot
Disallow: /

# 允许Amzn-SearchBot以获得搜索可见性
User-agent: Amzn-SearchBot
Allow: /

# 阻止Amazonbot抓取特定目录
User-agent: Amazonbot
Disallow: /private/

# 允许所有其他爬虫
User-agent: *
Disallow: /admin/

识别与验证Amazonbot

担心爬虫流量的网站所有者应验证自称为Amazonbot的爬虫是否真的来自亚马逊。亚马逊提供了基于DNS查询的验证流程,以确认Amazonbot的真实性。首先,在服务器日志中找到访问IP地址,然后用host命令进行反向DNS查询。得到的域名应为crawl.amazonbot.amazon的子域。接着对该域名做一次正向DNS查询,确认其解析回原始IP。该双向验证流程有助于防止伪造攻击,因为恶意者可能通过伪造反向DNS冒充Amazonbot。亚马逊在开发者门户(developer.amazon.com/amazonbot/ip-addresses/)公开所有爬虫的官方IP地址,也可据此比对。

验证示例:

$ host 12.34.56.789
789.56.34.12.in-addr.arpa domain name pointer 12-34-56-789.crawl.amazonbot.amazon.

$ host 12-34-56-789.crawl.amazonbot.amazon
12-34-56-789.crawl.amazonbot.amazon has address 12.34.56.789

如有关于Amazonbot的疑问或需报告可疑行为,请直接联系亚马逊(amazonbot@amazon.com),并在邮件中附上相关域名信息。

Amazonbot与AI模型训练

亚马逊不同爬虫在AI模型训练方面有关键区别。Amazonbot可能被用于亚马逊人工智能模型训练,这对于关注内容是否被用于AI训练的内容创作者尤为重要。而Amzn-SearchBot和Amzn-User则明确不会抓取内容用于生成式AI模型训练,它们仅用于提升搜索体验和支持用户查询。如果您想阻止自己的内容被用于AI训练,可在网页HTML头部添加robots meta标签noarchive,指示Amazonbot不得将该页面用于模型训练。这一区别对于希望控制自身内容在AI训练管道中用途的内容方、创作者及站长来说尤为重要,同时仍可让内容出现在亚马逊搜索和Rufus推荐中。

Rufus购物助手与Amazonbot

Rufus是亚马逊先进的AI购物助手,结合网页抓取和AI技术,为用户提供个性化购物推荐与支持。Amazonbot为亚马逊整体AI基础设施提供支持,而Rufus则专门使用Amzn-SearchBot索引与购物查询相关的产品信息和网页内容。Rufus基于Amazon Bedrock,采用包括Anthropic的Claude Sonnet和Amazon Nova在内的先进大语言模型,并结合自定义模型,训练数据涵盖亚马逊海量产品目录、用户评价、社区问答及网页信息。该购物助手协助用户调研商品、对比选择、追踪价格、发现优惠,甚至能在价格到达目标时自动下单。自推出以来,Rufus极为受欢迎,用户数超过2.5亿,月活跃用户增长149%,互动量同比增加210%。使用Rufus购物的客户,其购买转化率提升超60%,显示出AI购物助手对消费行为的显著影响。

Rufus AI shopping assistant interface showing product recommendations and shopping features

网站所有者最佳实践

网站所有者应结合自身业务目标和内容政策,制定有针对性的亚马逊爬虫管理策略:

  • 允许Amzn-SearchBot访问您的内容,可提升产品和信息在亚马逊搜索、Alexa答案及Rufus推荐中的可见性——该爬虫不会用于AI模型训练,能带来有价值的曝光
  • 根据自身对Amazonbot的态度,决定是否允许其访问您的内容;如不希望内容被用于AI模型训练,可用noarchive robots meta标签,或通过robots.txt完全阻止
  • 定期监控服务器日志,了解爬虫流量模式,及时发现有冒充正规爬虫的异常行为
  • 如爬虫流量影响服务器性能,可实施速率限制,但切勿过度屏蔽,以免影响在亚马逊搜索及购物功能中的可见性
  • 对可疑流量采取措施前,务必通过DNS查询验证爬虫真实性
  • 如有具体疑问或需要个性化建议,随时联系亚马逊支持团队(amazonbot@amazon.com)并附上您的域名信息

常见问题

Amazonbot与Amzn-SearchBot有何不同?

Amazonbot是亚马逊的通用型爬虫,用于提升产品和服务,也可能被用于AI模型训练。Amzn-SearchBot则专为Alexa和Rufus的搜索体验设计,明确不用于AI模型训练。如果您希望阻止AI训练用途,请阻止Amazonbot,但允许Amzn-SearchBot以获得搜索可见性。

如何阻止Amazonbot抓取我的网站?

在您域名根目录下的robots.txt文件中添加以下内容:User-agent: Amazonbot,接着是Disallow: /。这样可阻止Amazonbot抓取您整个网站。您也可以用Disallow: /specific-path/仅阻止某些目录。

Amazonbot会用我的内容训练AI模型吗?

会,Amazonbot可能会被用于训练亚马逊的人工智能模型。如果您想阻止此行为,请在网页的HTML头部使用robots meta标签,这样可指示Amazonbot不将该页面用于模型训练。

如何验证爬虫是否真的是Amazonbot?

对爬虫的IP地址执行反向DNS查询,确认域名为crawl.amazonbot.amazon的子域。然后再做一次正向DNS查询,确保该域名解析回原IP地址。您也可以在developer.amazon.com/amazonbot/ip-addresses/查阅亚马逊公布的IP地址。

控制Amazonbot的robots.txt语法是什么?

使用标准的robots.txt语法:User-agent: Amazonbot来针对该爬虫,后接Disallow: /阻止所有访问,或Disallow: /path/阻止特定目录。您也可以用Allow: /明确允许访问。

robots.txt变更多久生效?

亚马逊通常会在约24小时内反映robots.txt的变更。亚马逊会定期抓取您的robots.txt,并最多缓存30天,因此更改可能需要一天才能在其系统中完全生效。

我可以允许Amzn-SearchBot但阻止Amazonbot吗?

可以,完全没问题。您可以在robots.txt文件中为每个爬虫创建单独的规则。例如,用User-agent: Amzn-SearchBot和Allow: /允许Amzn-SearchBot,同时用User-agent: Amazonbot和Disallow: /阻止Amazonbot。

如果我对Amazonbot有疑问该怎么办?

请直接联系亚马逊,邮箱为amazonbot@amazon.com。邮件中务必包含您的域名及相关细节,亚马逊支持团队会针对您的具体情况提供个性化建议。

监控AI如何引用您的品牌

通过AmICited——领先的AI答案监测平台,跟踪Alexa、Rufus和Google AI Overviews等AI系统中对您品牌的引用。

了解更多

PerplexityBot:每个网站所有者都需要了解的内容
PerplexityBot:每个网站所有者都需要了解的内容

PerplexityBot:每个网站所有者都需要了解的内容

PerplexityBot爬虫的完整指南——了解其工作方式、管理访问权限、监控引用,并优化以提升Perplexity AI的可见性。了解有关隐秘爬取的担忧和最佳实践。...

1 分钟阅读
PerplexityBot
PerplexityBot:Perplexity 答案引擎的 AI 网页爬虫

PerplexityBot

了解 PerplexityBot,这是一款由 Perplexity 开发的网页爬虫,为其 AI 答案引擎索引内容。了解其工作原理、对 robots.txt 的遵循以及如何在你的网站上管理它。...

2 分钟阅读