Amazonbot

Amazonbot

Amazonbot

Web crawler Amazona używany do ulepszania produktów i usług, w tym Alexa, asystenta zakupowego Rufus oraz funkcji wyszukiwania Amazona opartych na AI. Przestrzega protokołu wykluczania robotów i może być kontrolowany za pomocą dyrektyw w pliku robots.txt. Może być wykorzystywany do trenowania modeli AI.

Czym jest Amazonbot i do czego służy

Amazonbot to oficjalny web crawler Amazona, zaprojektowany w celu ulepszania produktów i usług firmy poprzez zbieranie i analizę treści z internetu. Ten zaawansowany crawler zasila kluczowe funkcje Amazona, w tym asystenta głosowego Alexa, AI asystenta zakupowego Rufus oraz wyszukiwanie Amazona oparte na sztucznej inteligencji. Amazonbot działa z użyciem user agent stringa Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) Chrome/119.0.6045.214 Safari/537.36, który identyfikuje go dla serwerów. Dane zbierane przez Amazonbot mogą być wykorzystywane do trenowania modeli sztucznej inteligencji Amazona, co czyni go kluczowym elementem szeroko pojętej infrastruktury AI Amazona i strategii rozwoju produktów.

Amazonbot web crawler ecosystem showing connections to Alexa, Rufus shopping assistant, and Amazon search

Jak działa Amazonbot i powiązane crawlery

Amazon obsługuje trzy różne crawlery internetowe, z których każdy pełni określone funkcje w jego ekosystemie. Amazonbot to główny crawler wykorzystywany do ogólnego ulepszania produktów i usług, a także może być używany do trenowania modeli AI. Amzn-SearchBot jest zaprojektowany specjalnie do ulepszania wyników wyszukiwania w produktach Amazona, takich jak Alexa i Rufus, ale co ważne, NIE pobiera treści do trenowania generatywnych modeli AI. Amzn-User obsługuje działania inicjowane przez użytkownika, takie jak pobieranie aktualnych informacji, gdy klienci pytają Alexę o dane wymagające najnowszych treści z internetu, i również nie pobiera treści do trenowania AI. Wszystkie trzy crawlery przestrzegają protokołu wykluczania robotów oraz respektują dyrektywy z pliku robots.txt, co umożliwia właścicielom stron kontrolowanie dostępu. Amazon publikuje adresy IP każdego crawlera na swoim portalu developerskim, umożliwiając weryfikację autentyczności ruchu. Dodatkowo, wszystkie crawlery Amazona respektują dyrektywy rel=nofollow na poziomie linków oraz meta tagi robots na poziomie strony: noarchive (blokuje użycie do trenowania modeli), noindex (blokuje indeksowanie) i none (blokuje oba).

Nazwa crawleraGłówne przeznaczenieTrenowanie modeli AIUser AgentKluczowe zastosowania
AmazonbotOgólne ulepszanie produktów/usługTakAmazonbot/0.1Usprawnianie usług Amazona, trenowanie AI
Amzn-SearchBotUlepszanie wyników wyszukiwaniaNieAmzn-SearchBot/0.1Wyszukiwanie Alexa, indeksowanie Rufus
Amzn-UserPobieranie na życzenie użytkownikaNieAmzn-User/0.1Bieżące zapytania do Alexy, aktualne informacje

Robots.txt i kontrola dostępu

Amazon przestrzega branżowego standardu protokołu wykluczania robotów (RFC 9309), co oznacza, że właściciele stron mogą kontrolować dostęp Amazonbota za pomocą pliku robots.txt. Amazon pobiera plik robots.txt z katalogu głównego domeny (np. example.com/robots.txt) i, jeśli nie jest dostępny, korzysta z kopii zapasowej z ostatnich 30 dni. Zmiany w pliku robots.txt są zwykle odzwierciedlane w systemach Amazona w ciągu około 24 godzin. Protokół obsługuje standardowe dyrektywy user-agent oraz allow/disallow, umożliwiając precyzyjną kontrolę, które crawlery mają dostęp do wybranych katalogów lub plików. Ważne jest jednak, że crawlery Amazona NIE obsługują dyrektywy crawl-delay — ta opcja zostanie zignorowana, jeśli pojawi się w pliku robots.txt.

Przykład kontroli dostępu Amazonbota:

# Zablokuj Amazonbota na całej stronie
User-agent: Amazonbot
Disallow: /

# Zezwól Amzn-SearchBot na widoczność w wyszukiwarce
User-agent: Amzn-SearchBot
Allow: /

# Zablokuj konkretny katalog dla Amazonbota
User-agent: Amazonbot
Disallow: /private/

# Zezwól wszystkim innym crawlerom
User-agent: *
Disallow: /admin/

Identyfikacja i weryfikacja Amazonbota

Właściciele stron internetowych, zaniepokojeni ruchem botów, powinni zweryfikować, czy crawlery podające się za Amazonbota są rzeczywiście autentyczne. Amazon udostępnia proces weryfikacji z użyciem zapytań DNS, pozwalający potwierdzić autentyczność ruchu Amazonbota. Aby zweryfikować crawlera, najpierw znajdź adres IP z logów serwera, następnie wykonaj odwrotne wyszukiwanie DNS tego adresu IP za pomocą polecenia host. Otrzymana nazwa domenowa powinna być subdomeną crawl.amazonbot.amazon. Następnie wykonaj zwykłe wyszukiwanie DNS tej domeny, by potwierdzić, że rozwiązuje się na pierwotny adres IP. Ten dwukierunkowy proces weryfikacji pomaga zapobiegać podszywaniu się, ponieważ złośliwi aktorzy mogą ustawić odwrotne rekordy DNS, aby podszywać się pod Amazonbota. Amazon publikuje zweryfikowane adresy IP wszystkich swoich crawlerów na portalu developerskim pod adresem developer.amazon.com/amazonbot/ip-addresses/, co stanowi dodatkowy punkt referencyjny do weryfikacji.

Przykład procesu weryfikacji:

$ host 12.34.56.789
789.56.34.12.in-addr.arpa domain name pointer 12-34-56-789.crawl.amazonbot.amazon.

$ host 12-34-56-789.crawl.amazonbot.amazon
12-34-56-789.crawl.amazonbot.amazon has address 12.34.56.789

Jeśli masz pytania dotyczące Amazonbota lub chcesz zgłosić podejrzaną aktywność, skontaktuj się bezpośrednio z Amazonem pod adresem amazonbot@amazon.com i dołącz odpowiednie nazwy domen.

Amazonbot a trenowanie modeli AI

Istotną różnicą pomiędzy crawlerami Amazona jest ich udział w trenowaniu modeli AI. Amazonbot może być wykorzystywany do trenowania modeli sztucznej inteligencji Amazona, co jest ważne dla twórców treści zaniepokojonych wykorzystaniem ich pracy w AI. Z kolei Amzn-SearchBot i Amzn-User wyraźnie NIE pobierają treści do trenowania generatywnych modeli AI — skupiają się wyłącznie na ulepszaniu wyszukiwania i obsłudze zapytań użytkowników. Jeśli nie chcesz, by Twoje treści były wykorzystywane do trenowania modeli AI, możesz użyć meta tagu robots noarchive w nagłówku HTML strony — Amazonbot nie powinien wówczas ich używać do trenowania modeli. To rozróżnienie jest istotne dla wydawców, twórców i właścicieli stron, którzy chcą mieć kontrolę nad wykorzystaniem swoich treści w pipeline AI, a jednocześnie umożliwić ich obecność w wynikach wyszukiwania Amazona i rekomendacjach Rufusa.

Asystent zakupowy Rufus a Amazonbot

Rufus to zaawansowany asystent zakupowy AI Amazona, łączący web crawling i sztuczną inteligencję w celu dostarczania spersonalizowanych rekomendacji i wsparcia zakupowego. Choć Amazonbot wspiera całą infrastrukturę AI Amazona, Rufus korzysta przede wszystkim z Amzn-SearchBot do indeksowania informacji produktowych i treści internetowych istotnych dla zapytań zakupowych. Rufus bazuje na Amazon Bedrock i wykorzystuje zaawansowane modele językowe, w tym Claude Sonnet od Anthropic i Amazon Nova, połączone z autorskim modelem wytrenowanym na katalogu produktów Amazona, recenzjach, pytaniach społeczności i informacjach z sieci. Asystent zakupowy pomaga klientom w badaniu produktów, porównywaniu opcji, śledzeniu cen, wyszukiwaniu okazji oraz automatycznym zakupie, gdy ceny osiągną ustalony poziom. Od czasu premiery Rufus zyskał ogromną popularność — korzysta z niego ponad 250 milionów klientów, liczba aktywnych użytkowników miesięcznie wzrosła o 149%, a liczba interakcji zwiększyła się o 210% rok do roku. Klienci korzystający z Rufusa podczas zakupów są o ponad 60% bardziej skłonni do dokonania zakupu w danej sesji, co pokazuje, jak duży wpływ na zachowania konsumenckie mają rozwiązania zakupowe oparte na AI.

Rufus AI shopping assistant interface showing product recommendations and shopping features

Najlepsze praktyki dla właścicieli stron internetowych

Właściciele stron powinni strategicznie zarządzać crawlerami Amazona w zależności od celów biznesowych i polityki dotyczącej treści:

  • Zezwól Amzn-SearchBot na dostęp do swoich treści, jeśli chcesz, by produkty i informacje pojawiały się w wynikach wyszukiwania Amazona, odpowiedziach Alexy i rekomendacjach Rufusa — ten crawler nie trenuje modeli AI i zapewnia cenną widoczność
  • Przemyśl swoje stanowisko wobec Amazonbota w zależności od tego, czy akceptujesz możliwość wykorzystania swoich treści do trenowania modeli AI; jeśli nie, użyj meta tagu robots noarchive lub całkowicie zablokuj go w robots.txt
  • Regularnie monitoruj logi serwera, aby rozumieć ruch crawlerów i identyfikować nietypowe aktywności mogące świadczyć o podszywaniu się przez złośliwe boty
  • Wdrażaj limity zapytań, jeśli ruch crawlerów wpływa na wydajność serwera, ale zachowaj ostrożność przy zbyt agresywnych blokadach, bo może to negatywnie wpłynąć na widoczność w wyszukiwarce Amazona i funkcjach zakupowych
  • Zawsze weryfikuj autentyczność crawlerów za pomocą zapytań DNS przed podjęciem działań przeciwko podejrzanemu ruchowi
  • W razie wątpliwości skontaktuj się z zespołem wsparcia Amazona pod adresem amazonbot@amazon.com, podając informacje o swojej domenie, aby uzyskać indywidualne wsparcie w kwestii interakcji crawlerów Amazona z Twoją stroną

Najczęściej zadawane pytania

Jaka jest różnica między Amazonbot a Amzn-SearchBot?

Amazonbot to ogólnego przeznaczenia crawler Amazona, używany do ulepszania produktów i usług, a także może być wykorzystywany do trenowania modeli AI. Amzn-SearchBot jest specjalnie zaprojektowany do wyszukiwania w Alexa i Rufus i wyraźnie NIE pobiera treści do trenowania modeli AI. Jeśli chcesz zapobiec wykorzystywaniu Twoich treści do trenowania AI, zablokuj Amazonbot, ale pozwól Amzn-SearchBot na dostęp dla widoczności w wyszukiwarce.

Jak zablokować Amazonbot przed indeksowaniem mojej strony internetowej?

Dodaj poniższe linie do pliku robots.txt w katalogu głównym domeny: User-agent: Amazonbot, a następnie Disallow: /. To uniemożliwi Amazonbotowi indeksowanie całej witryny. Możesz także użyć Disallow: /konkretny-katalog/, aby zablokować tylko wybrane katalogi.

Czy Amazonbot wykorzystuje moje treści do trenowania modeli AI?

Tak, Amazonbot może być wykorzystywany do trenowania modeli sztucznej inteligencji Amazona. Jeśli chcesz temu zapobiec, użyj meta tagu robots w nagłówku HTML swojej strony, co poinstruuje Amazonbota, by nie wykorzystywał strony do trenowania modeli.

Jak zweryfikować, czy crawler to rzeczywiście Amazonbot?

Wykonaj odwrotne wyszukiwanie DNS adresu IP crawlera i sprawdź, czy domena jest subdomeną crawl.amazonbot.amazon. Następnie wykonaj zwykłe wyszukiwanie DNS, by potwierdzić, że domena rozwiązuje się z powrotem na pierwotny adres IP. Możesz też sprawdzić opublikowane przez Amazona adresy IP na developer.amazon.com/amazonbot/ip-addresses/.

Jaka jest składnia robots.txt do kontrolowania Amazonbot?

Użyj standardowej składni robots.txt: User-agent: Amazonbot, aby wskazać crawlera, następnie Disallow: /, by zablokować cały dostęp, lub Disallow: /ścieżka/, by zablokować konkretne katalogi. Możesz także użyć Allow: /, aby jawnie zezwolić na dostęp.

Jak długo trwa wprowadzenie zmian w robots.txt?

Amazon zazwyczaj wdraża zmiany w robots.txt w ciągu około 24 godzin. Amazon regularnie pobiera Twój plik robots.txt i utrzymuje jego kopię w pamięci podręcznej przez maksymalnie 30 dni, więc zmiany mogą potrzebować całego dnia, by zostać odzwierciedlone w ich systemach.

Czy mogę pozwolić Amzn-SearchBot, blokując jednocześnie Amazonbot?

Tak, oczywiście. Możesz utworzyć osobne reguły dla każdego crawlera w swoim pliku robots.txt. Na przykład zezwól Amzn-SearchBot za pomocą User-agent: Amzn-SearchBot i Allow: /, jednocześnie blokując Amazonbot regułą User-agent: Amazonbot i Disallow: /.

Co zrobić, jeśli mam pytania dotyczące Amazonbot?

Skontaktuj się bezpośrednio z Amazonem pod adresem amazonbot@amazon.com. Zawsze dołącz nazwę swojej domeny oraz wszelkie istotne szczegóły dotyczące zgłoszenia. Zespół wsparcia Amazona udzieli indywidualnych wskazówek w Twojej sprawie.

Monitoruj, jak AI odnosi się do Twojej marki

Śledź wzmianki o swojej marce w systemach AI, takich jak Alexa, Rufus czy Google AI Overviews, dzięki AmICited – wiodącej platformie monitorowania odpowiedzi AI.

Dowiedz się więcej

Czym są AI Crawlers: GPTBot, ClaudeBot i inni
Czym są AI Crawlers: GPTBot, ClaudeBot i inni

Czym są AI Crawlers: GPTBot, ClaudeBot i inni

Dowiedz się, jak działają AI crawlers takie jak GPTBot i ClaudeBot, czym różnią się od tradycyjnych crawlerów wyszukiwarek oraz jak zoptymalizować swoją stronę ...

12 min czytania
Amazon Rufus
Amazon Rufus: Przewodnik po Asystencie Zakupowym AI

Amazon Rufus

Dowiedz się o Amazon Rufus, asystencie zakupowym AI, który odpowiada na pytania o produkty, porównuje artykuły i dostarcza spersonalizowane rekomendacje. Odkryj...

4 min czytania