Angle sécurité sur l’analyse des crawlers IA :
Vérification des vrais crawlers IA :
Tout le trafic se réclamant de GPTBot ne l’est pas forcément. Des usurpateurs existent.
Méthodes de vérification :
- Reverse DNS lookup
host 20.15.240.10
# Doit résoudre vers openai.com pour GPTBot
- Confirmation DNS directe
host crawl-20-15-240-10.openai.com
# Doit retourner la même IP
- Plages d’IP connues (exemple partiel)
| Crawler | Plages d’IP |
|---|
| GPTBot | 20.15.240.0/24, diverses plages Azure |
| Googlebot | 66.249.x.x, 64.233.x.x |
| Anthropic | Publié dans leur documentation |
Pourquoi c’est important :
- Des concurrents peuvent usurper des crawlers IA pour analyser votre site
- Des acteurs malveillants peuvent se cacher derrière des user agents IA
- Des données précises nécessitent une vérification
Script de vérification automatisée :
def verify_crawler(ip, claimed_agent):
# Reverse lookup
hostname = socket.gethostbyaddr(ip)[0]
# Forward lookup
verified_ip = socket.gethostbyname(hostname)
return ip == verified_ip and expected_domain in hostname