Så här gör du i praktiken:
1. Selektiv blockering i robots.txt:
Tillåt AI-crawlers till innehåll med högt värde, blockera från områden med lågt värde:
User-agent: GPTBot
Disallow: /internal-search/
Disallow: /paginated/*/page-
Disallow: /archive/
Allow: /
2. Hastighetsbegränsning på servernivå:
I Nginx:
limit_req_zone $http_user_agent zone=aibot:10m rate=1r/s;
Detta saktar ner AI-crawlers utan att blockera dem.
3. Prioritetssignal via sitemap:
Lägg sidor med högt värde i sitemap med prioritet. AI-crawlers respekterar ofta sitemap-signaler.
4. Kontroll på CDN-nivå:
Cloudflare och liknande tjänster låter dig sätta olika hastighetsbegränsningar per user-agent.
Vad du ska skydda:
- Ditt viktigaste innehåll
- Produktsidor du vill få citerade
- Tjänstebeskrivningar
- Expertinnehåll
Vad du ska blockera:
- Interna sökresultat
- Djup paginering
- Användargenererat innehåll
- Arkivsidor
- Test-/staging-innehåll