
PerplexityBot
Découvrez PerplexityBot, le robot d’indexation web de Perplexity qui indexe le contenu pour son moteur de réponses IA. Comprenez son fonctionnement, sa conformi...

Guide complet sur le robot d’indexation PerplexityBot – comprenez son fonctionnement, gérez l’accès, surveillez les citations et optimisez la visibilité sur Perplexity AI. Découvrez les préoccupations liées à l’indexation furtive et les meilleures pratiques.
PerplexityBot est le robot d’indexation officiel développé par Perplexity AI, conçu pour indexer et faire remonter les sites web dans les résultats de recherche alimentés par l’IA de Perplexity. Contrairement à certains robots IA qui collectent des données pour l’entraînement de grands modèles de langage, PerplexityBot a un objectif précis : découvrir, explorer et créer des liens vers des sites web qui fournissent des réponses pertinentes aux requêtes des utilisateurs. Le robot utilise une chaîne user-agent clairement définie (Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)) et publie publiquement ses plages d’adresses IP, permettant aux propriétaires de sites web d’identifier et de gérer le trafic du robot. Comprendre ce que fait PerplexityBot est essentiel pour les propriétaires de sites web souhaitant contrôler la visibilité de leur contenu dans le moteur de réponses de Perplexity tout en maintenant la transparence sur la façon dont leurs sites sont accédés.

PerplexityBot fonctionne comme un robot d’indexation classique, scannant continuellement Internet pour découvrir et indexer des pages web. Lorsqu’il visite un site, il lit le fichier robots.txt pour comprendre à quel contenu il est autorisé à accéder, puis explore systématiquement les pages afin d’en extraire et d’indexer le contenu. Ces informations indexées alimentent l’algorithme de recherche de Perplexity, qui s’en sert pour fournir des réponses citées aux requêtes des utilisateurs. Cependant, Perplexity exploite en réalité deux robots distincts ayant des objectifs différents, chacun avec son propre user-agent et ses propres comportements. Comprendre la différence entre ces robots est crucial pour les propriétaires de sites qui souhaitent affiner leurs politiques d’accès.
| Fonctionnalité | PerplexityBot | Perplexity-User |
|---|---|---|
| Objectif | Indexe les sites pour les résultats de recherche et citations | Récupère des pages spécifiques en temps réel lors des requêtes utilisateur |
| Chaîne User-Agent | PerplexityBot/1.0 | Perplexity-User/1.0 |
| Respect du robots.txt | Respecte les directives disallow du robots.txt | Ignore généralement le robots.txt (requêtes initiées par l’utilisateur) |
| Plages IP | Publiées sur perplexity.com/perplexitybot.json | Publiées sur perplexity.com/perplexity-user.json |
| Fréquence | Exploration continue et planifiée | À la demande, déclenchée par les requêtes utilisateur |
| Cas d’usage | Constitution de l’index de recherche | Récupération d’informations actuelles pour les réponses |
La distinction entre ces deux robots est importante car ils peuvent être gérés séparément via les règles du robots.txt et la configuration des pare-feu. L’exploration régulière de PerplexityBot respecte vos directives robots.txt, tandis que Perplexity-User peut les ignorer puisqu’il récupère du contenu en réponse à une requête utilisateur précise. Les deux robots publient publiquement leurs plages IP, ce qui permet aux propriétaires de sites de mettre en place des règles de pare-feu précises pour bloquer ou autoriser certains trafics de robots.
En 2025, Cloudflare a publié une enquête détaillée révélant que Perplexity utilisait des robots non déclarés pour contourner les restrictions des sites web. Selon leurs conclusions, lorsque les robots déclarés de Perplexity (PerplexityBot et Perplexity-User) étaient bloqués via le fichier robots.txt ou les règles de pare-feu, l’entreprise déployait d’autres robots utilisant des user-agents génériques de navigateurs (comme Chrome sur macOS) et des adresses IP rotatives provenant de différents ASN (numéros de système autonome) pour continuer à accéder au contenu restreint. Ce comportement va à l’encontre des standards d’indexation du web décrits dans la RFC 9309, qui mettent l’accent sur la transparence et le respect des préférences des propriétaires de sites. L’enquête a testé cela en créant de nouveaux domaines avec des règles explicites de disallow dans le fichier robots.txt, mais Perplexity a tout de même fourni des informations détaillées sur leur contenu, suggérant l’utilisation de sources de données non déclarées ou de techniques d’indexation furtive.
Cela contraste fortement avec la gestion des robots chez OpenAI. GPTBot d’OpenAI s’identifie clairement, respecte les directives du robots.txt et cesse d’explorer lorsqu’il rencontre des blocages – démontrant qu’un comportement transparent et éthique est possible et pratique. Les révélations de Cloudflare ont soulevé d’importantes préoccupations quant à la sincérité de l’engagement de Perplexity à respecter les préférences des propriétaires de sites, notamment pour ceux qui souhaitent explicitement empêcher l’indexation ou la citation de leur contenu par des systèmes IA. Pour les propriétaires de sites soucieux du contrôle de leur contenu et de la transparence, cette controverse souligne l’importance de surveiller le comportement des robots et d’utiliser plusieurs couches de protection (robots.txt, règles WAF et blocage IP) pour faire respecter leurs préférences.
Décider d’autoriser ou non PerplexityBot sur votre site implique de peser plusieurs facteurs importants. D’un côté, autoriser le robot présente des avantages significatifs : votre contenu devient éligible à la citation dans les réponses de Perplexity, ce qui peut générer du trafic de recommandation provenant des utilisateurs voyant votre site mentionné dans les réponses générées par l’IA. De l’autre, il existe des préoccupations légitimes concernant la consommation de bande passante, le scraping de contenu et la perte de contrôle sur l’utilisation de vos informations. La décision dépend en fin de compte de vos objectifs métier, de votre stratégie de contenu et de votre position face à l’accès de l’IA à vos données.
Points clés à considérer avant d’autoriser PerplexityBot :

La gestion de l’accès de PerplexityBot est simple et peut être effectuée par différentes méthodes, selon votre infrastructure technique et vos besoins spécifiques. L’approche la plus courante est d’utiliser votre fichier robots.txt, qui fournit des directives claires à tous les robots respectueux des règles sur le contenu accessible.
Pour autoriser PerplexityBot dans votre fichier robots.txt :
User-agent: PerplexityBot
Allow: /
Pour bloquer PerplexityBot dans votre fichier robots.txt :
User-agent: PerplexityBot
Disallow: /
Si vous souhaitez bloquer PerplexityBot sur certains répertoires tout en autorisant l’accès à d’autres, vous pouvez utiliser des règles plus granulaires :
User-agent: PerplexityBot
Disallow: /admin/
Disallow: /private/
Allow: /public/
Pour une protection renforcée, notamment si vous craignez l’indexation furtive, mettez en place des règles au niveau du pare-feu applicatif Web (WAF). Les utilisateurs de Cloudflare WAF peuvent créer des règles personnalisées pour bloquer PerplexityBot en combinant la détection du user-agent et des adresses IP :
Les utilisateurs de AWS WAF devraient créer des ensembles d’IP à partir des plages IP publiées sur https://www.perplexity.com/perplexitybot.json, puis des règles qui associent cet ensemble d’IP à la chaîne user-agent PerplexityBot. Utilisez toujours les plages IP officielles publiées par Perplexity, car celles-ci sont régulièrement mises à jour et représentent la source de référence du trafic légitime du robot.
Une fois votre politique PerplexityBot définie, la surveillance de l’activité réelle du robot vous permet de vérifier l’efficacité de vos règles et d’évaluer l’impact sur votre infrastructure. Vous pouvez identifier les requêtes PerplexityBot dans vos logs serveur en recherchant la chaîne user-agent distinctive : PerplexityBot/1.0 ou un user-agent de navigateur générique si une indexation furtive est en cours. La plupart des plateformes d’analyses web et des outils d’analyse de logs permettent de filtrer le trafic par user-agent, facilitant l’isolement des requêtes PerplexityBot et l’analyse de leurs schémas.
Les métriques clés à surveiller incluent la fréquence de passage du robot, les pages consultées et la bande passante consommée. Si vous constatez des schémas inhabituels – tels qu’un crawl rapide de pages sensibles ou des requêtes provenant d’adresses IP non incluses dans les plages officielles de Perplexity – cela peut indiquer une activité d’indexation furtive. Au-delà de la simple surveillance du trafic, l’utilisation d’outils spécialisés comme AmICited.com offre des insights plus poussés sur la façon dont votre contenu est réellement cité sur les plateformes IA, y compris Perplexity. AmICited suit les mentions de votre marque et de votre contenu dans les réponses générées par l’IA, vous permettant de mesurer l’impact réel de l’autorisation de PerplexityBot et de comprendre quelles pages de votre site sont les plus précieuses pour les systèmes IA. Ces données vous aident à prendre des décisions éclairées sur les politiques de gestion des robots et les stratégies d’optimisation de contenu.
Gérer PerplexityBot efficacement suppose une approche équilibrée qui protège vos intérêts tout en tenant compte de la valeur de la visibilité induite par l’IA. Premièrement, établissez une politique claire fondée sur vos objectifs métier : décidez si le trafic et l’exposition de marque potentiels via les citations Perplexity compensent vos préoccupations concernant la bande passante et le contrôle du contenu. Documentez cette décision dans votre fichier robots.txt et communiquez-la à votre équipe pour que tout le monde connaisse votre stratégie de gestion des robots.
Deuxièmement, mettez en place une protection en couches si vous choisissez de bloquer PerplexityBot. Ne vous fiez pas uniquement au robots.txt, car la controverse sur l’indexation furtive montre que certains robots peuvent ignorer ces directives. Combinez les règles du robots.txt avec des règles WAF et des blocages IP pour une défense en profondeur. Troisièmement, restez informé sur le comportement des robots en surveillant régulièrement vos logs et en suivant les discussions sectorielles sur l’éthique et la transparence des robots IA. Le paysage évolue rapidement et de nouveaux robots ou tactiques peuvent émerger, nécessitant des ajustements de politique.
Enfin, utilisez les outils de surveillance de façon stratégique pour mesurer l’impact réel de vos décisions. Des outils comme AmICited.com offrent de la visibilité sur la façon dont les systèmes IA citent votre contenu, vous aidant à comprendre si l’autorisation de PerplexityBot vous apporte réellement la visibilité attendue. Si vous autorisez le robot, ces données vous aident à optimiser votre contenu pour la citation IA. Si vous le bloquez, la surveillance confirme l’efficacité de vos blocages et que votre contenu n’apparaît pas dans les résultats Perplexity par d’autres moyens.
PerplexityBot évolue dans un paysage concurrentiel de robots IA, chacun ayant des objectifs et des standards de transparence différents. GPTBot, exploité par OpenAI, est largement reconnu comme un modèle de comportement transparent : il s’identifie clairement, respecte les directives du robots.txt et cesse l’indexation s’il est bloqué. Les robots de Google pour les Aperçus IA et autres fonctionnalités IA maintiennent eux aussi la transparence et respectent les préférences des sites. À l’inverse, le comportement d’indexation furtive de Perplexity, documenté par Cloudflare, représente une dérive préoccupante par rapport à ces standards.
La différence clé réside dans la transparence et le respect des préférences des propriétaires de site. Les robots bien élevés comme GPTBot permettent aux propriétaires de sites de comprendre leur activité et d’offrir des mécanismes de contrôle clairs. Le recours de Perplexity à des robots non déclarés et à la rotation d’IP pour contourner les restrictions mine la confiance. Pour les propriétaires de sites, cela signifie qu’il faut être plus vigilant vis-à-vis des politiques affichées par Perplexity et mettre en place des contrôles techniques renforcés pour garantir le respect effectif de vos préférences. À mesure que l’écosystème des robots IA mûrit, attendez-vous à ce que la pression augmente sur des entreprises comme Perplexity pour adopter des pratiques plus transparentes et éthiques, alignées sur les standards du web et le respect de l’autonomie des propriétaires de sites.
PerplexityBot est le robot d'indexation officiel de Perplexity AI, conçu pour indexer les sites web et les faire apparaître dans les résultats de recherche alimentés par l'IA de Perplexity. Contrairement à certains robots IA qui collectent des données pour l'entraînement, PerplexityBot découvre et crée spécifiquement des liens vers des sites web offrant des réponses pertinentes aux requêtes des utilisateurs. Il fonctionne de manière transparente avec une chaîne user-agent publiée et des plages d'adresses IP officielles.
Non. Selon la documentation officielle de Perplexity, PerplexityBot est conçu pour faire remonter et lier des sites web dans les résultats de recherche de Perplexity. Il n'est pas utilisé pour explorer du contenu à des fins d'entraînement de modèles de fondation IA. La seule fonction du robot est d'indexer du contenu pour inclusion dans le moteur de réponses de Perplexity.
Vous pouvez bloquer PerplexityBot en utilisant votre fichier robots.txt en ajoutant 'User-agent: PerplexityBot' suivi de 'Disallow: /' pour empêcher tout accès. Pour une protection renforcée, mettez en place des règles WAF sur Cloudflare ou AWS WAF bloquant les requêtes correspondant au user-agent et aux plages IP de PerplexityBot. Cependant, sachez que l'indexation furtive peut contourner ces contrôles.
Perplexity publie les plages d'adresses IP officielles de PerplexityBot sur https://www.perplexity.com/perplexitybot.json et pour Perplexity-User sur https://www.perplexity.com/perplexity-user.json. Ces plages sont mises à jour régulièrement et doivent être la source de référence pour la configuration de votre pare-feu et de votre WAF. Utilisez toujours les points de terminaison officiels plutôt que de vous fier à des listes IP obsolètes.
PerplexityBot affirme respecter les directives du fichier robots.txt, mais l'enquête de Cloudflare en 2025 a révélé des preuves d'indexation furtive utilisant des user-agents non déclarés et des adresses IP rotatives pour contourner les restrictions du robots.txt. Bien que le robot déclaré PerplexityBot doive respecter vos règles robots.txt, il est recommandé de mettre en place des protections WAF supplémentaires si vous souhaitez garantir le respect de vos préférences.
L'utilisation de la bande passante varie en fonction de la taille et du volume de contenu de votre site. PerplexityBot effectue une exploration continue et planifiée, similaire à celle du robot de Google. Les sites à fort trafic peuvent constater une consommation de bande passante mesurable. Vous pouvez surveiller l'utilisation réelle en filtrant vos logs serveur pour les requêtes PerplexityBot et en analysant le volume de transfert de données afin de déterminer si cela a un impact sur votre infrastructure.
Oui. Vous pouvez effectuer manuellement des recherches sur Perplexity avec des requêtes liées à votre contenu pour voir si votre site est cité dans les réponses. Pour une surveillance plus complète, utilisez des outils comme AmICited.com, qui suit la façon dont votre marque et votre contenu apparaissent sur les plateformes IA, y compris Perplexity, offrant des insights en temps réel sur votre visibilité IA et vos schémas de citation.
PerplexityBot est le robot d'indexation planifié qui indexe en continu les sites web pour l'index de recherche de Perplexity. Perplexity-User est déclenché à la demande lorsque des utilisateurs posent des questions et que Perplexity doit récupérer des pages spécifiques en temps réel. PerplexityBot respecte le robots.txt, tandis que Perplexity-User l'ignore généralement puisqu'il répond à des requêtes utilisateur. Les deux disposent de chaînes user-agent et de plages IP distinctes.
Suivez comment Perplexity et d'autres plateformes IA citent votre marque. Obtenez des insights en temps réel sur votre visibilité IA et optimisez votre stratégie de contenu pour un impact maximal sur les moteurs de recherche génératifs.

Découvrez PerplexityBot, le robot d’indexation web de Perplexity qui indexe le contenu pour son moteur de réponses IA. Comprenez son fonctionnement, sa conformi...

Perplexity AI est un moteur de réponses alimenté par l’IA qui combine la recherche web en temps réel avec des LLM pour fournir des réponses précises et sourcées...

Découvrez ce qu’est GPTBot, son fonctionnement et s’il faut le bloquer sur votre site web. Comprenez l’impact sur le SEO, la charge serveur et la visibilité de ...