Amazonbot

Amazonbot

Amazonbot

Amazons webcrawler bruges til at forbedre produkter og tjenester, herunder Alexa, Rufus-shoppingassistenten og Amazons AI-drevne søgefunktioner. Den respekterer Robots Exclusion Protocol og kan kontrolleres gennem robots.txt-direktiver. Kan bruges til AI-modeltræning.

Hvad er Amazonbot og dens formål

Amazonbot er Amazons officielle webcrawler designet til at forbedre virksomhedens produkter og tjenester ved at indsamle og analysere webindhold. Denne sofistikerede crawler driver kritiske Amazon-funktioner, herunder Alexa-stemmeassistenten, Rufus AI-shoppingassistenten og Amazons AI-drevne søgeoplevelser. Amazonbot opererer ved hjælp af user agent-strengen Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) Chrome/119.0.6045.214 Safari/537.36, som identificerer den over for webservere. De data, der indsamles af Amazonbot, kan bruges til at træne Amazons kunstige intelligensmodeller, hvilket gør den til en afgørende komponent i Amazons bredere AI-infrastruktur og produktudviklingsstrategi.

Amazonbot webcrawler-økosystem der viser forbindelser til Alexa, Rufus-shoppingassistenten og Amazon-søgning

Hvordan Amazonbot fungerer og relaterede crawlere

Amazon opererer tre forskellige webcrawlere, der hver tjener specifikke formål inden for dets økosystem. Amazonbot er den primære crawler, der bruges til generel produkt- og serviceforbedring, og den kan bruges til AI-modeltræning. Amzn-SearchBot er specifikt designet til at forbedre søgeoplevelser i Amazon-produkter som Alexa og Rufus, men vigtigt nok crawler den IKKE indhold til generativ AI-modeltræning. Amzn-User understøtter brugerinitierede handlinger, såsom at hente live information, når kunder stiller Alexa spørgsmål, der kræver opdaterede webdata, og den crawler heller ikke til AI-træningsformål. Alle tre crawlere respekterer Robots Exclusion Protocol og overholder robots.txt-direktiver, hvilket giver webstedsejere mulighed for at kontrollere deres adgang. Amazon publicerer IP-adresserne for hver crawler på sin udviklerportal, hvilket gør det muligt for webstedsejere at verificere legitim trafik. Derudover respekterer alle Amazon-crawlere rel=nofollow-direktiver på linkniveau og robots meta-tags på sideniveau, herunder noarchive (forhindrer brug til modeltræning), noindex (forhindrer indeksering) og none (forhindrer begge dele).

CrawlernavnPrimært formålAI-modeltræningUser AgentNøgle-use cases
AmazonbotGenerel produkt-/serviceforbedringJaAmazonbot/0.1Overordnet Amazon-serviceforbedring, AI-træning
Amzn-SearchBotSøgeoplevelse-forbedringNejAmzn-SearchBot/0.1Alexa-søgning, Rufus-shoppingassistent-indeksering
Amzn-UserBrugerinitieret live-datahentningNejAmzn-User/0.1Realtids-Alexa-forespørgsler, aktuelle informationsanmodninger

Robots.txt og adgangskontrol

Amazon respekterer den branchestandardiserede Robots Exclusion Protocol (RFC 9309), hvilket betyder, at webstedsejere kan kontrollere Amazonbot-adgang gennem deres robots.txt-fil. Amazon henter robots.txt-filer på værtsniveau fra roden af dit domæne (f.eks. example.com/robots.txt) og vil bruge en cached kopi fra de sidste 30 dage, hvis filen ikke kan hentes. Ændringer af din robots.txt-fil afspejles typisk inden for cirka 24 timer i Amazons systemer. Protokollen understøtter standard user-agent- og allow/disallow-direktiver, hvilket giver granulær kontrol over, hvilke crawlere der kan tilgå specifikke mapper eller filer. Det er dog vigtigt at bemærke, at Amazon-crawlere IKKE understøtter crawl-delay-direktivet, så denne parameter vil blive ignoreret, hvis den inkluderes i din robots.txt-fil.

Her er et eksempel på, hvordan du kontrollerer Amazonbot-adgang:

# Bloker Amazonbot fra at crawle hele dit websted
User-agent: Amazonbot
Disallow: /

# Tillad Amzn-SearchBot for søgesynlighed
User-agent: Amzn-SearchBot
Allow: /

# Bloker en specifik mappe fra Amazonbot
User-agent: Amazonbot
Disallow: /private/

# Tillad alle andre crawlere
User-agent: *
Disallow: /admin/

Identificering og verificering af Amazonbot

Webstedsejere bekymret over bot-trafik bør verificere, at crawlere der hævder at være Amazonbot, faktisk er legitime Amazon-crawlere. Amazon leverer en verificeringsproces ved hjælp af DNS-opslag til at bekræfte autentisk Amazonbot-trafik. For at verificere en crawlers legitimitet, find først den tilgående IP-adresse fra dine serverlogfiler, udfør derefter et omvendt DNS-opslag på denne IP-adresse ved hjælp af host-kommandoen. Det hentede domænenavn bør være et subdomæne af crawl.amazonbot.amazon. Udfør derefter et fremadrettet DNS-opslag på det hentede domænenavn for at verificere, at det resolver tilbage til den originale IP-adresse. Denne tovejs verificeringsproces hjælper med at forhindre spoofing-angreb, da ondsindede aktører potentielt kunne sætte omvendte DNS-records til at efterligne Amazonbot. Amazon publicerer verificerede IP-adresser for alle sine crawlere på udviklerportalen på developer.amazon.com/amazonbot/ip-addresses/, hvilket giver et yderligere referencepunkt til verificering.

Eksempel på verificeringsproces:

$ host 12.34.56.789
789.56.34.12.in-addr.arpa domain name pointer 12-34-56-789.crawl.amazonbot.amazon.

$ host 12-34-56-789.crawl.amazonbot.amazon
12-34-56-789.crawl.amazonbot.amazon has address 12.34.56.789

Hvis du har spørgsmål om Amazonbot eller har brug for at rapportere mistænkelig aktivitet, kontakt Amazon direkte på amazonbot@amazon.com og inkluder relevante domænenavne i din besked.

Amazonbot og AI-modeltræning

Der eksisterer en kritisk skelnen mellem Amazons crawlere vedrørende AI-modeltræning. Amazonbot kan bruges til at træne Amazons kunstige intelligensmodeller, hvilket gør den relevant for indholdsskabere bekymret over, at deres arbejde bruges til AI-træningsformål. I modsætning hertil crawler Amzn-SearchBot og Amzn-User eksplicit IKKE indhold til generativ AI-modeltræning, og fokuserer udelukkende på at forbedre søgeoplevelser og understøtte brugerforespørgsler. Hvis du vil forhindre dit indhold i at blive brugt til AI-modeltræning, kan du bruge robots meta-tagget noarchive i din sides HTML-header, som instruerer Amazonbot om ikke at bruge siden til modeltræningsformål. Denne skelnen er vigtig for udgivere, skabere og webstedsejere, der ønsker at opretholde kontrol over, hvordan deres indhold bruges i AI-træningspipelinen, mens de stadig tillader deres indhold at optræde i Amazon-søgeresultater og Rufus-anbefalinger.

Rufus-shoppingassistenten og Amazonbot

Rufus er Amazons avancerede AI-shoppingassistent, der udnytter webcrawling og AI-teknologi til at levere personaliserede shoppinganbefalinger og assistance. Mens Amazonbot bidrager til Amazons overordnede AI-infrastruktur, bruger Rufus specifikt Amzn-SearchBot til at indeksere produktinformation og webindhold relevant for shopping-forespørgsler. Rufus er bygget på Amazon Bedrock og udnytter avancerede store sprogmodeller, herunder Anthropic Claude Sonnet og Amazon Nova, kombineret med en custom model trænet på Amazons omfattende produktkatalog, kundeanmeldelser, community Q&As og webinformation. Shoppingassistenten hjælper kunder med at researche produkter, sammenligne muligheder, spore priser, finde tilbud og endda automatisk købe varer, når de når målpriser. Siden lanceringen er Rufus blevet bemærkelsesværdigt populær, med over 250 millioner kunder der bruger den, månedlige aktive brugere op med 149 %, og interaktioner steget 210 % år-over-år. Kunder der bruger Rufus mens de handler, er over 60 % mere tilbøjelige til at foretage et køb under den shopping-session, hvilket demonstrerer den betydelige indvirkning af AI-drevet shoppingassistance på forbrugeradfærd.

Rufus AI-shoppingassistent-interface der viser produktanbefalinger og shoppingfunktioner

Best practices for webstedsejere

Webstedsejere bør udvikle en strategisk tilgang til at håndtere Amazons crawlere baseret på deres specifikke forretningsmål og indholdspolitikker:

  • Tillad Amzn-SearchBot at tilgå dit indhold, hvis du ønsker, at dine produkter og information skal optræde i Amazon-søgeresultater, Alexa-svar og Rufus-shoppinganbefalinger—denne crawler træner ikke AI-modeller og giver værdifuld synlighed
  • Overvej din position om Amazonbot baseret på, om du er komfortabel med, at dit indhold potentielt bruges til AI-modeltræning; hvis ikke, brug noarchive robots meta-tagget eller bloker den helt via robots.txt
  • Overvåg dine serverlogfiler regelmæssigt for at forstå crawler-trafikmønstre og identificere usædvanlig aktivitet, der kan indikere ondsindede bots der efterligner legitime crawlere
  • Implementer rate limiting, hvis crawler-trafik påvirker din serverydelse, men vær forsigtig med alt for aggressiv blokering, da dette kan påvirke din synlighed i Amazons søge- og shoppingfunktioner negativt
  • Verificer altid crawler-legitimitet ved hjælp af DNS-opslag, før du handler på mistænkelig trafik
  • Kontakt Amazons supportteamamazonbot@amazon.com med dine domæneinformationer for personlig vejledning, hvis du har specifikke bekymringer eller spørgsmål om, hvordan Amazon-crawlere interagerer med dit websted

Ofte stillede spørgsmål

Hvad er forskellen mellem Amazonbot og Amzn-SearchBot?

Amazonbot er Amazons generelle crawler, der bruges til at forbedre produkter og tjenester, og den kan bruges til AI-modeltræning. Amzn-SearchBot er specifikt designet til søgeoplevelser i Alexa og Rufus, og den crawler eksplicit IKKE til AI-modeltræning. Hvis du vil forhindre AI-træningsbrug, bloker Amazonbot, men tillad Amzn-SearchBot for søgesynlighed.

Hvordan kan jeg blokere Amazonbot fra at crawle mit websted?

Tilføj følgende linjer til din robots.txt-fil i roden af dit domæne: User-agent: Amazonbot efterfulgt af Disallow: /. Dette vil forhindre Amazonbot i at crawle hele dit websted. Du kan også bruge Disallow: /specific-path/ til kun at blokere bestemte mapper.

Bruger Amazonbot mit indhold til at træne AI-modeller?

Ja, Amazonbot kan bruges til at træne Amazons kunstige intelligensmodeller. Hvis du vil forhindre dette, brug robots meta-tagget i din sides HTML-header, som instruerer Amazonbot om ikke at bruge siden til modeltræning.

Hvordan verificerer jeg, at en crawler faktisk er Amazonbot?

Udfør et omvendt DNS-opslag på crawlerens IP-adresse og verificer, at domænet er et subdomæne af crawl.amazonbot.amazon. Udfør derefter et fremadrettet DNS-opslag for at bekræfte, at domænet resolver tilbage til den originale IP. Du kan også tjekke Amazons publicerede IP-adresser på developer.amazon.com/amazonbot/ip-addresses/.

Hvad er robots.txt-syntaksen til at kontrollere Amazonbot?

Brug standard robots.txt-syntaks: User-agent: Amazonbot til at målrette crawleren, efterfulgt af Disallow: / for at blokere al adgang eller Disallow: /path/ for at blokere specifikke mapper. Du kan også bruge Allow: / for eksplicit at tillade adgang.

Hvor lang tid tager det, før robots.txt-ændringer træder i kraft?

Amazon afspejler typisk robots.txt-ændringer inden for cirka 24 timer. Amazon henter din robots.txt-fil regelmæssigt og vedligeholder en cached kopi i op til 30 dage, så ændringer kan tage en hel dag at propagere gennem deres systemer.

Kan jeg tillade Amzn-SearchBot, men blokere Amazonbot?

Ja, absolut. Du kan oprette separate regler for hver crawler i din robots.txt-fil. For eksempel, tillad Amzn-SearchBot med User-agent: Amzn-SearchBot og Allow: /, mens du blokerer Amazonbot med User-agent: Amazonbot og Disallow: /.

Hvad skal jeg gøre, hvis jeg har spørgsmål om Amazonbot?

Kontakt Amazon direkte på amazonbot@amazon.com. Inkluder altid dit domænenavn og eventuelle relevante detaljer om din bekymring i din besked. Amazons supportteam kan give personlig vejledning til din specifikke situation.

Overvåg hvordan AI refererer til dit brand

Spor nævnelser af dit brand på tværs af AI-systemer som Alexa, Rufus og Google AI Overviews med AmICited - den førende platform til overvågning af AI-svar.

Lær mere

AI-crawlere forklaret: GPTBot, ClaudeBot og flere
AI-crawlere forklaret: GPTBot, ClaudeBot og flere

AI-crawlere forklaret: GPTBot, ClaudeBot og flere

Få indsigt i hvordan AI-crawlere som GPTBot og ClaudeBot fungerer, hvordan de adskiller sig fra traditionelle søgemaskinecrawlere, og hvordan du optimerer dit s...

12 min læsning
PerplexityBot
PerplexityBot: AI-webcrawler til Perplexity Svarmotor

PerplexityBot

Lær om PerplexityBot, Perplexitys webcrawler, der indekserer indhold til dens AI-svarmotor. Forstå hvordan den fungerer, overholdelse af robots.txt, og hvordan ...

6 min læsning