Hvilke AI-crawlere bør jeg tillade i robots.txt? GPTBot, PerplexityBot, osv.
Fællesskabsdiskussion om hvilke AI-crawlere, der skal tillades eller blokeres. Virkelige beslutninger fra webmasters om adgang til GPTBot, PerplexityBot og andr...
Jeg prøver at finde den rigtige robots.txt-konfiguration til AI-crawlere, men informationen online er modstridende.
Nogle artikler siger, at man skal blokere alt for at “beskytte dit indhold.” Andre siger, at man skal tillade alt for AI-synlighed. De fleste nævner ikke engang specifikke crawler-navne.
Det jeg prøver at forstå:
Lige nu er vores robots.txt et rod med regler fra 2019, der bestemt ikke tager højde for noget af det her.
Er der nogen, der rent faktisk har gjort det her korrekt – hvad er jeres opsætning?
Jeg administrerer robots.txt for omkring 40 virksomhedssites. Her er opdelingen, der faktisk betyder noget:
Niveau 1 – Skal konfigureres:
GPTBot – OpenAI’s trænings-crawlerChatGPT-User – ChatGPT’s browsertilstandClaudeBot – Anthropics crawlerGoogle-Extended – Google Gemini træningPerplexityBot – Perplexitys indeksNiveau 2 – Værd at overveje:
anthropic-ai – Sekundær Anthropic-crawlerOAI-SearchBot – OpenAIs søgeindekseringCCBot – Common Crawl (brugt af mange AI-virksomheder)Det vi gør:
User-agent: GPTBot
Allow: /blog/
Allow: /resources/
Disallow: /pricing/
Disallow: /admin/
User-agent: PerplexityBot
Allow: /
Vigtig indsigt: PerplexityBot er den, jeg altid tillader fuldt ud, fordi den faktisk citerer dine sider med links. At blokere den svarer til at skyde sig selv i foden uden nogen fordel overhovedet.
Det her er præcis det framework, jeg havde brug for. Hurtigt spørgsmål – fjerner blokering af GPTBot faktisk indhold fra ChatGPT? Eller er det allerede i deres træningsdata?
Vi blokerede den for 6 måneder siden, men vores brand dukker stadig op i ChatGPT-svar.
Godt spørgsmål. At blokere GPTBot påvirker kun fremtidig indsamling af træningsdata. Indhold, der allerede er i deres træningssæt (før 2024 for GPT-4), vil stadig være der.
Det det PÅVIRKER:
Så hvis I blokerede for 6 måneder siden, “ved” ChatGPT stadig det, den har lært før. Men den kan ikke hente nyt indhold fra dit site.
Derfor siger jeg til kunderne: at blokere nu ændrer ikke fortiden, det begrænser bare synlighed fremadrettet.
Vi lavede en kæmpe fejl ved at blokere alle AI-crawlere sidste år på baggrund af “indholdsbeskyttelses”-råd.
Hvad der skete:
Vi har nu ændret kurs og tillader alle større AI-crawlere. “Beskyttelses”-argumentet gav ingen mening, da vi indså:
Den eneste undtagelse er reelt fortroligt indhold bag login – og de sider var allerede disallowed.
Andet perspektiv fra tungt reguleret branche (sundhedsteknologi).
Vi har legitime grunde til at styre AI-adgang til visse typer indhold:
Vores tilgang:
Vi har lavet et trinvist system:
Nøglen er at være bevidst. “Bloker alt” og “tillad alt” er begge dovne tilgange. Kortlæg dit indhold, forstå hvad hver type skal gøre for dig, og konfigurer derefter.
Pro tip, som tog mig alt for lang tid at finde ud af:
Test din robots.txt med faktiske crawler-user-agents.
Jeg troede, jeg havde konfigureret alt korrekt, indtil jeg tjekkede vores serverlogs og så, at nogle AI-crawlere ikke matchede vores regler, fordi jeg havde stavefejl i user-agent-navnene.
“GPT-Bot” er ikke det samme som “GPTBot” – gæt hvem der havde den forkerte i 3 måneder?
Brug Googles robots.txt-tester eller kommandolinjeværktøjer til at verificere, at hver regel faktisk matcher det, du forventer.
Her er min standardanbefaling til de fleste virksomheder:
Tillad som udgangspunkt, begræns strategisk.
Virksomheder, der har fordel af at blokere, er sjældne undtagelser:
For alle andre er regnestykket enkelt: AI-synlighed er en voksende trafikkilde. Perplexity alene står for 200 mio.+ månedlige forespørgsler. At være usynlig der er en strategisk ulempe.
Min standardkonfiguration for kunder:
# Tillad alle AI-crawlere til offentligt indhold
User-agent: GPTBot
User-agent: ClaudeBot
User-agent: PerplexityBot
User-agent: Google-Extended
Allow: /
# Begræns følsomme områder
Disallow: /admin/
Disallow: /internal/
Disallow: /api/
En ting, ingen nævner: overvåg hvad der faktisk sker efter konfigurationen.
Jeg opsatte alerts for AI-bottrafik i vores analytics. Lagde mærke til nogle interessante mønstre:
Disse data hjælper mig til at forstå, hvilke AI-platforme der faktisk indekserer vores indhold. Sammen med værktøjer, der tracker AI-citater, kan jeg se hele kæden fra allow robots.txt > AI-crawling > AI-citater.
Uden denne overvågning gætter man bare på effekten.
Forlæggerperspektiv her. Vi driver et nyheds-/analysesite med 10.000+ artikler.
Det vi lærte på den hårde måde:
At blokere AI-crawlere skadede os på uventede måder:
“Beskyttelses”-argumentet antager, at AI stjæler dit indhold. I virkeligheden citerer og driver AI trafik til det indhold, den kan tilgå. At blokere betyder bare, at du ikke er med i samtalen.
Vi tillader nu alle AI-crawlere og bruger Am I Cited til at overvåge, hvordan vi bliver citeret. Vores AI-henvisningstrafik er steget med 340 % siden vi skiftede tilgang.
Denne tråd har været utroligt hjælpsom. Opsummering af, hvad jeg implementerer baseret på alles feedback:
Umiddelbare ændringer:
Overvågningsopsætning: 4. Tilføj serverlog-tracking for AI-bottrafik 5. Opsæt Am I Cited til at spore faktiske citater 6. Gennemgå om 30 dage for at se effekt
Den vigtigste indsigt for mig var, at blokering ikke beskytter indhold, der allerede er i træningsdata – det begrænser bare fremtidig synlighed. Og fordi AI-søgning vokser hurtigt, betyder synlighed mere end “beskyttelse.”
Tak til alle for de virkelige konfigurationer og erfaringer.
Get personalized help from our team. We'll respond within 24 hours.
Følg med i hvilke AI-crawlere, der tilgår dit site, og hvordan dit indhold fremstår i AI-genererede svar på tværs af ChatGPT, Perplexity og Claude.
Fællesskabsdiskussion om hvilke AI-crawlere, der skal tillades eller blokeres. Virkelige beslutninger fra webmasters om adgang til GPTBot, PerplexityBot og andr...
Lær hvordan du konfigurerer robots.txt for at kontrollere AI-crawleres adgang, herunder GPTBot, ClaudeBot og Perplexity. Administrer din brands synlighed i AI-g...
Fællesskabsdiskussion om at tillade AI-bots at crawle dit site. Virkelige erfaringer med robots.txt-konfiguration, llms.txt-implementering og håndtering af AI-c...
Cookie Samtykke
Vi bruger cookies til at forbedre din browsingoplevelse og analysere vores trafik. See our privacy policy.