Welke AI-crawlers moet ik toestaan in robots.txt? GPTBot, PerplexityBot, enz.
Communitydiscussie over welke AI-crawlers je moet toestaan of blokkeren. Echte beslissingen van webmasters over toegang van GPTBot, PerplexityBot en andere AI-c...
Ik probeer uit te zoeken wat de juiste robots.txt-configuratie is voor AI-crawlers, maar de informatie online spreekt elkaar tegen.
Sommige artikelen zeggen dat je alles moet blokkeren om je content te “beschermen”. Anderen adviseren juist alles toe te staan voor AI-zichtbaarheid. De meeste noemen niet eens specifieke crawler-namen.
Wat ik wil begrijpen:
Op dit moment is onze robots.txt een rommeltje met regels uit 2019 die hier zeker geen rekening mee houden.
Heeft iemand dit echt goed ingesteld? Wat is jouw setup?
Ik beheer robots.txt voor zo’n 40 enterprise-sites. Dit is de indeling die er echt toe doet:
Tier 1 - Moet je instellen:
GPTBot - OpenAI’s trainingscrawlerChatGPT-User - ChatGPT’s browse-modusClaudeBot - Anthropic’s crawlerGoogle-Extended - Google Gemini trainingPerplexityBot - Perplexity’s indexTier 2 - De moeite waard om te overwegen:
anthropic-ai - Secundaire Anthropic crawlerOAI-SearchBot - OpenAI’s zoekindexerCCBot - Common Crawl (gebruikt door veel AI-bedrijven)Wat wij doen:
User-agent: GPTBot
Allow: /blog/
Allow: /resources/
Disallow: /pricing/
Disallow: /admin/
User-agent: PerplexityBot
Allow: /
Belangrijk inzicht: PerplexityBot laat ik altijd volledig toe omdat deze je pagina’s met links citeert. Blokkeren is jezelf onnodig benadelen zonder enig voordeel.
Dit is precies het kader dat ik nodig had. Korte vraag: verwijdert het blokkeren van GPTBot daadwerkelijk content uit ChatGPT? Of zit dat al in hun trainingsdata?
Wij hebben het 6 maanden geleden geblokkeerd maar ons merk komt nog steeds voor in ChatGPT-antwoorden.
Goede vraag. Het blokkeren van GPTBot heeft alleen invloed op het verzamelen van toekomstige trainingsdata. Content die al in hun trainingsset zit (pre-2024 voor GPT-4) blijft daar.
Wat het WEL beïnvloedt:
Dus als je 6 maanden geleden hebt geblokkeerd, “kent” ChatGPT nog steeds wat hij daarvoor heeft geleerd. Maar hij kan geen nieuwe content van je site ophalen.
Daarom zeg ik altijd tegen klanten: blokkeren nu wist het verleden niet uit, het beperkt alleen toekomstige zichtbaarheid.
Wij hebben vorig jaar een grote fout gemaakt door alle AI-crawlers te blokkeren op basis van “contentbescherming”-advies.
Wat er gebeurde:
We zijn nu omgedraaid en staan alle grote AI-crawlers toe. Het “beschermings”-argument sloeg nergens op toen we beseften:
Uitzondering is echt vertrouwelijke content achter authenticatie – en die pagina’s waren sowieso al uitgesloten.
Een ander perspectief vanuit een sterk gereguleerde industrie (healthcare tech).
Wij hebben legitieme redenen om AI-toegang tot bepaalde content te beperken:
Onze aanpak:
We hebben een gelaagd systeem gemaakt:
Het belangrijkste is om bewust te zijn. “Alles blokkeren” of “alles toestaan” zijn beide gemakzuchtig. Breng je content in kaart, bepaal wat elk type voor je moet doen en configureer dat vervolgens.
Pro-tip waar ik veel te lang over heb gedaan:
Test je robots.txt met daadwerkelijke crawler user-agents.
Ik dacht dat alles goed stond totdat ik in de serverlogs zag dat sommige AI-crawlers onze regels niet volgden omdat ik tikfouten had in de user-agent namen.
“GPT-Bot” is niet hetzelfde als “GPTBot” – raad eens welke ik drie maanden lang fout had?
Gebruik Google’s robots.txt-tester of commandoregeltools om te controleren of elke regel doet wat je verwacht.
Dit is mijn standaardadvies voor de meeste bedrijven:
Sta standaard toe, beperk strategisch.
Bedrijven die voordeel hebben bij blokkeren zijn zeldzame uitzonderingen:
Voor alle anderen is het simpel: AI-zichtbaarheid is een groeiende verkeersbron. Alleen Perplexity al zorgt voor 200M+ maandelijkse zoekopdrachten. Onzichtbaar zijn is een strategisch nadeel.
Mijn standaardconfiguratie voor klanten:
# Sta alle AI-crawlers toe op publieke content
User-agent: GPTBot
User-agent: ClaudeBot
User-agent: PerplexityBot
User-agent: Google-Extended
Allow: /
# Beperk gevoelige gebieden
Disallow: /admin/
Disallow: /internal/
Disallow: /api/
Wat niemand noemt: monitor wat er daadwerkelijk gebeurt nadat je hebt geconfigureerd.
Ik heb meldingen ingesteld voor AI-botverkeer in onze analytics. Zag interessante patronen:
Met deze data zie ik welke AI-platforms onze content echt indexeren. In combinatie met tools die AI-citaties volgen, krijg ik het volledige plaatje van toestaan in robots.txt > AI-crawlen > AI-citaties.
Zonder monitoring ben je alleen maar aan het gokken over het effect.
Perspectief van een uitgever. Wij runnen een nieuws-/analysesite met 10.000+ artikelen.
Wat we op de harde manier leerden:
Blokkeren van AI-crawlers heeft ons op onverwachte manieren geschaad:
Het “beschermings”-argument gaat ervan uit dat AI je content steelt. In werkelijkheid citeert en stuurt AI verkeer naar content die toegankelijk is. Blokkeren betekent gewoon dat je niet meedoet.
We staan nu alle AI-crawlers toe en gebruiken Am I Cited om te monitoren hoe we worden geciteerd. Ons AI-verwijzingsverkeer is met 340% gestegen sinds deze wijziging.
Deze thread was ontzettend behulpzaam. Samenvatting van wat ik ga implementeren op basis van alle feedback:
Directe wijzigingen:
Monitoring: 4. Serverlogtracking voor AI-botverkeer toevoegen 5. Am I Cited instellen om citaties te volgen 6. Over 30 dagen evalueren wat het effect is
Het belangrijkste inzicht voor mij was dat blokkeren geen bescherming biedt voor content die al in trainingsdata zit – het beperkt alleen toekomstige zichtbaarheid. En nu AI-zoek snel groeit, is zichtbaarheid belangrijker dan “bescherming”.
Bedankt allemaal voor de praktijkvoorbeelden en ervaringen.
Get personalized help from our team. We'll respond within 24 hours.
Volg welke AI-crawlers je site bezoeken en hoe je content verschijnt in AI-gegenereerde antwoorden in ChatGPT, Perplexity en Claude.
Communitydiscussie over welke AI-crawlers je moet toestaan of blokkeren. Echte beslissingen van webmasters over toegang van GPTBot, PerplexityBot en andere AI-c...
Leer hoe je robots.txt configureert om AI-crawlerstoegang te beheren, inclusief GPTBot, ClaudeBot en Perplexity. Beheer de zichtbaarheid van je merk in AI-gegen...
Discussie binnen de community over het al dan niet toestaan van AI-bots om je site te crawlen. Echte ervaringen met robots.txt-configuratie, llms.txt-implementa...
Cookie Toestemming
We gebruiken cookies om uw browse-ervaring te verbeteren en ons verkeer te analyseren. See our privacy policy.