Welke AI-crawlers moet ik toestaan in robots.txt? GPTBot, PerplexityBot, enz.
Communitydiscussie over welke AI-crawlers je moet toestaan of blokkeren. Echte beslissingen van webmasters over toegang van GPTBot, PerplexityBot en andere AI-c...
Zojuist een site van een klant gecontroleerd en iets interessants ontdekt.
De ontdekking:
Hun robots.txt blokkeert AI-crawlers al meer dan 2 jaar:
User-agent: *
Disallow: /private/
# Dit is toegevoegd door een beveiligingsplugin in 2023
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
Impact:
Nu vraag ik me af:
Vragen aan de community:
Ik zoek praktische configuraties, geen theorie.
Dit komt vaker voor dan mensen denken. Ik zet de crawlers even op een rijtje:
AI-crawler-types:
| Crawler | Bedrijf | Doel | Aanbeveling |
|---|---|---|---|
| GPTBot | OpenAI | Modeltraining | Eigen keuze |
| ChatGPT-User | OpenAI | Realtime zoeken | Toestaan |
| ClaudeBot | Anthropic | Realtime vermeldingen | Toestaan |
| Claude-Web | Anthropic | Web browsing | Toestaan |
| PerplexityBot | Perplexity | Zoekindex | Toestaan |
| Perplexity-User | Perplexity | Gebruikersverzoeken | Toestaan |
| Google-Extended | Gemini/AI-functies | Toestaan |
Het belangrijkste verschil:
De meeste bedrijven:
Laten zoekcrawlers toe (je wilt vermeldingen) en nemen een zakelijke beslissing over trainingscrawlers.
Aanbevolen robots.txt:
# AI-zoekcrawlers toestaan
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: PerplexityBot
User-agent: Perplexity-User
User-agent: Google-Extended
Allow: /
# Training blokkeren indien gewenst (optioneel)
User-agent: GPTBot
Disallow: /
Sitemap: https://jouwsite.com/sitemap.xml
Belangrijke aanvulling: controleer of crawlers daadwerkelijk geblokkeerd worden of gewoon niet langskomen.
Hoe te controleren:
Wat wij bij een klant vonden:
robots.txt stond GPTBot toe, maar Cloudflare’s beveiligingsregels blokkeerden deze als “verdachte bot”.
Firewallconfiguratie voor AI-bots:
Als je Cloudflare gebruikt:
robots.txt is noodzakelijk maar niet voldoende.
Controleer alle lagen van je stack.
Laat me llms.txt uitleggen, zoals gevraagd:
Wat is llms.txt:
Een nieuwe standaard (voorgesteld in 2024) die AI-systemen een gestructureerd overzicht van je site geeft. Zie het als een inhoudsopgave speciaal voor taalmodellen.
Locatie: jouwsite.com/llms.txt
Basisstructuur:
# Jouw Bedrijfsnaam
> Korte beschrijving van je bedrijf
## Kernpagina's
- [Home](https://jouwsite.com/): Hoofdpagina
- [Producten](https://jouwsite.com/products): Productcatalogus
- [Prijzen](https://jouwsite.com/pricing): Prijsinformatie
## Resources
- [Blog](https://jouwsite.com/blog): Branche-inzichten
- [Documentatie](https://jouwsite.com/docs): Technische documentatie
- [FAQ](https://jouwsite.com/faq): Veelgestelde vragen
## Support
- [Contact](https://jouwsite.com/contact): Neem contact op
Waarom het helpt:
AI-systemen hebben beperkte context. Ze kunnen je hele site niet begrijpen door alleen te crawlen. llms.txt geeft ze een gericht overzicht.
Onze resultaten na implementatie:
Het verschil tussen training en zoeken verdient meer aandacht.
De filosofische vraag:
Wil je dat je content AI-modellen traint?
Argumenten om training toe te staan:
Argumenten tegen:
Wat uitgevers doen:
| Uitgeverstype | Training | Zoeken |
|---|---|---|
| Nieuwssites | Blokkeren | Toestaan |
| SaaS-bedrijven | Toestaan | Toestaan |
| E-commerce | Verschilt | Toestaan |
| Bureaus | Toestaan | Toestaan |
Mijn advies:
De meeste B2B-bedrijven kunnen beide toestaan. Het voordeel van vermeldingen weegt zwaarder dan de training-zorg.
Als je contentuitgever bent met licentiewaarde, blokkeer training en sta zoeken toe.
Hier echte resultaten na het deblokkeren van AI-crawlers:
Klant A (SaaS):
Voor: GPTBot geblokkeerd, 0 AI-vermeldingen Na: GPTBot + alle crawlers toegestaan
| Metriek | Voor | 30 dagen | 90 dagen |
|---|---|---|---|
| AI-vermeldingen | 0 | 12 | 47 |
| AI-verkeer | 0 | 0,8% | 2,3% |
| Merkszoekopdrachten | basislijn | +8% | +22% |
Klant B (E-commerce):
Voor: Alle AI geblokkeerd Na: Zoekcrawlers toegestaan, training geblokkeerd
| Metriek | Voor | 30 dagen | 90 dagen |
|---|---|---|---|
| Productvermeldingen | 0 | 34 | 89 |
| AI-verkeer | 0 | 1,2% | 3,1% |
| Productzoekopdrachten | basislijn | +15% | +28% |
De tijdlijn:
Belangrijk inzicht:
Deblokkeren geeft niet direct resultaat. Het duurt 4-8 weken voor je echt effect ziet.
Security perspectief op AI-crawlers:
Legitieme zorgen:
Hoe te beperken:
Crawleridentiteit verifiëren:
Rate limiting (per crawler):
GPTBot: 100 verzoeken/minuut
ClaudeBot: 100 verzoeken/minuut
PerplexityBot: 100 verzoeken/minuut
Monitor voor afwijkingen:
Officiële IP-reeksen:
Elke AI-aanbieder publiceert hun crawler-IP’s:
Controleer hierop voor je toestaat.
Voor WordPress-gebruikers – veelvoorkomende blokkades die ik zie:
Beveiligingsplugins die AI blokkeren:
Hoe te controleren:
WordPress robots.txt:
WordPress genereert robots.txt dynamisch. Aanpassen kan zo:
Optie 1: Gebruik Yoast SEO → Tools → File editor Optie 2: Maak een fysiek robots.txt-bestand in de root (overschrijft) Optie 3: Gebruik plugin zoals “Robots.txt Editor”
Onze standaard WordPress-configuratie:
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
Sitemap: https://jouwsite.com/sitemap.xml
Goede WordPress-uitleg. Nog een aanvulling: zo maak je llms.txt voor WordPress.
Optie 1: Statisch bestand
Maak llms.txt aan in de root van je thema en upload naar public_html/
Optie 2: Plugin
Er zijn inmiddels plugins die llms.txt ondersteunen:
Optie 3: Code snippet
// In functions.php
add_action('init', function() {
if ($_SERVER['REQUEST_URI'] == '/llms.txt') {
header('Content-Type: text/plain');
// Output je llms.txt-inhoud
exit;
}
});
Best practice:
Houd llms.txt up-to-date als je:
Statisch bestand is het simpelst, maar vereist handmatige updates.
Na het deblokkeren kun je AI-crawleractiviteit zo monitoren:
Wat te meten:
| Metriek | Waar te vinden | Wat het je vertelt |
|---|---|---|
| Crawl-frequentie | Serverlogs | Hoe vaak bots langskomen |
| Gecrawlde pagina’s | Serverlogs | Welke content ze indexeren |
| Crawlfouten | Serverlogs | Blokkadeproblemen |
| AI-vermeldingen | Am I Cited | Of crawling tot zichtbaarheid leidt |
Serverlog-analyse:
Zoek naar deze user-agent-patronen:
Simpele grep-opdracht:
grep -E "GPTBot|ClaudeBot|PerplexityBot|Google-Extended" access.log
Wat gezond gedrag is:
Rode vlaggen:
Deze discussie gaf me alles wat ik nodig had. Dit is ons implementatieplan:
Aangepaste robots.txt:
# AI-zoekcrawlers toestaan (vermeldingen)
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: PerplexityBot
User-agent: Perplexity-User
User-agent: Google-Extended
Allow: /
# Trainingscrawler – voorlopig toestaan
User-agent: GPTBot
Allow: /
# Standaardregels
User-agent: *
Disallow: /private/
Disallow: /admin/
Sitemap: https://clientsite.com/sitemap.xml
llms.txt implementatie:
Gestructureerd overzicht van klantsite gemaakt met:
Firewall-updates:
Monitoring setup:
Tijdlijnverwachting:
Succesmetingen:
Iedereen bedankt voor de technische details en praktijkvoorbeelden!
Get personalized help from our team. We'll respond within 24 hours.
Volg welke AI-bots je site crawlen en hoe je content verschijnt in AI-gegenereerde antwoorden. Zie het effect van je crawlerconfiguratie.
Communitydiscussie over welke AI-crawlers je moet toestaan of blokkeren. Echte beslissingen van webmasters over toegang van GPTBot, PerplexityBot en andere AI-c...
Communitydiscussie over het configureren van robots.txt voor AI-crawlers zoals GPTBot, ClaudeBot en PerplexityBot. Echte ervaringen van webmasters en SEO-specia...
Leer hoe je robots.txt configureert om AI-crawlerstoegang te beheren, inclusief GPTBot, ClaudeBot en Perplexity. Beheer de zichtbaarheid van je merk in AI-gegen...
Cookie Toestemming
We gebruiken cookies om uw browse-ervaring te verbeteren en ons verkeer te analyseren. See our privacy policy.