Voici l’approche pratique :
1. Blocage sélectif dans robots.txt :
Autorisez les crawlers IA sur le contenu à forte valeur, bloquez-les ailleurs :
User-agent: GPTBot
Disallow: /internal-search/
Disallow: /paginated/*/page-
Disallow: /archive/
Allow: /
2. Limitation du débit au niveau serveur :
Dans Nginx :
limit_req_zone $http_user_agent zone=aibot:10m rate=1r/s;
Cela ralentit les crawlers IA sans les bloquer.
3. Signal de priorité via sitemap :
Placez les pages importantes dans le sitemap avec des indicateurs de priorité. Les crawlers IA respectent souvent ces indications.
4. Contrôles côté CDN :
Cloudflare et autres permettent de définir des limites de débit différentes par user-agent.
À protéger :
- Votre contenu de référence clé
- Pages produit à citer
- Descriptions de services
- Contenus d’expertise
À bloquer :
- Résultats de recherche interne
- Pagination profonde
- Contenu généré par les utilisateurs
- Pages d’archive
- Contenu de test/préproduction