PerplexityBot : Ce que chaque propriétaire de site web doit savoir

PerplexityBot : Ce que chaque propriétaire de site web doit savoir

Publié le Jan 3, 2026. Dernière modification le Jan 3, 2026 à 8:37 am

Qu’est-ce que PerplexityBot ?

PerplexityBot est le robot d’indexation officiel développé par Perplexity AI, conçu pour indexer et faire remonter les sites web dans les résultats de recherche alimentés par l’IA de Perplexity. Contrairement à certains robots IA qui collectent des données pour l’entraînement de grands modèles de langage, PerplexityBot a un objectif précis : découvrir, explorer et créer des liens vers des sites web qui fournissent des réponses pertinentes aux requêtes des utilisateurs. Le robot utilise une chaîne user-agent clairement définie (Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)) et publie publiquement ses plages d’adresses IP, permettant aux propriétaires de sites web d’identifier et de gérer le trafic du robot. Comprendre ce que fait PerplexityBot est essentiel pour les propriétaires de sites web souhaitant contrôler la visibilité de leur contenu dans le moteur de réponses de Perplexity tout en maintenant la transparence sur la façon dont leurs sites sont accédés.

PerplexityBot Web Crawler indexing websites

Comment fonctionne PerplexityBot

PerplexityBot fonctionne comme un robot d’indexation classique, scannant continuellement Internet pour découvrir et indexer des pages web. Lorsqu’il visite un site, il lit le fichier robots.txt pour comprendre à quel contenu il est autorisé à accéder, puis explore systématiquement les pages afin d’en extraire et d’indexer le contenu. Ces informations indexées alimentent l’algorithme de recherche de Perplexity, qui s’en sert pour fournir des réponses citées aux requêtes des utilisateurs. Cependant, Perplexity exploite en réalité deux robots distincts ayant des objectifs différents, chacun avec son propre user-agent et ses propres comportements. Comprendre la différence entre ces robots est crucial pour les propriétaires de sites qui souhaitent affiner leurs politiques d’accès.

FonctionnalitéPerplexityBotPerplexity-User
ObjectifIndexe les sites pour les résultats de recherche et citationsRécupère des pages spécifiques en temps réel lors des requêtes utilisateur
Chaîne User-AgentPerplexityBot/1.0Perplexity-User/1.0
Respect du robots.txtRespecte les directives disallow du robots.txtIgnore généralement le robots.txt (requêtes initiées par l’utilisateur)
Plages IPPubliées sur perplexity.com/perplexitybot.jsonPubliées sur perplexity.com/perplexity-user.json
FréquenceExploration continue et planifiéeÀ la demande, déclenchée par les requêtes utilisateur
Cas d’usageConstitution de l’index de rechercheRécupération d’informations actuelles pour les réponses

La distinction entre ces deux robots est importante car ils peuvent être gérés séparément via les règles du robots.txt et la configuration des pare-feu. L’exploration régulière de PerplexityBot respecte vos directives robots.txt, tandis que Perplexity-User peut les ignorer puisqu’il récupère du contenu en réponse à une requête utilisateur précise. Les deux robots publient publiquement leurs plages IP, ce qui permet aux propriétaires de sites de mettre en place des règles de pare-feu précises pour bloquer ou autoriser certains trafics de robots.

La controverse : allégations d’indexation furtive

En 2025, Cloudflare a publié une enquête détaillée révélant que Perplexity utilisait des robots non déclarés pour contourner les restrictions des sites web. Selon leurs conclusions, lorsque les robots déclarés de Perplexity (PerplexityBot et Perplexity-User) étaient bloqués via le fichier robots.txt ou les règles de pare-feu, l’entreprise déployait d’autres robots utilisant des user-agents génériques de navigateurs (comme Chrome sur macOS) et des adresses IP rotatives provenant de différents ASN (numéros de système autonome) pour continuer à accéder au contenu restreint. Ce comportement va à l’encontre des standards d’indexation du web décrits dans la RFC 9309, qui mettent l’accent sur la transparence et le respect des préférences des propriétaires de sites. L’enquête a testé cela en créant de nouveaux domaines avec des règles explicites de disallow dans le fichier robots.txt, mais Perplexity a tout de même fourni des informations détaillées sur leur contenu, suggérant l’utilisation de sources de données non déclarées ou de techniques d’indexation furtive.

Cela contraste fortement avec la gestion des robots chez OpenAI. GPTBot d’OpenAI s’identifie clairement, respecte les directives du robots.txt et cesse d’explorer lorsqu’il rencontre des blocages – démontrant qu’un comportement transparent et éthique est possible et pratique. Les révélations de Cloudflare ont soulevé d’importantes préoccupations quant à la sincérité de l’engagement de Perplexity à respecter les préférences des propriétaires de sites, notamment pour ceux qui souhaitent explicitement empêcher l’indexation ou la citation de leur contenu par des systèmes IA. Pour les propriétaires de sites soucieux du contrôle de leur contenu et de la transparence, cette controverse souligne l’importance de surveiller le comportement des robots et d’utiliser plusieurs couches de protection (robots.txt, règles WAF et blocage IP) pour faire respecter leurs préférences.

Faut-il autoriser PerplexityBot ? Avantages et risques

Décider d’autoriser ou non PerplexityBot sur votre site implique de peser plusieurs facteurs importants. D’un côté, autoriser le robot présente des avantages significatifs : votre contenu devient éligible à la citation dans les réponses de Perplexity, ce qui peut générer du trafic de recommandation provenant des utilisateurs voyant votre site mentionné dans les réponses générées par l’IA. De l’autre, il existe des préoccupations légitimes concernant la consommation de bande passante, le scraping de contenu et la perte de contrôle sur l’utilisation de vos informations. La décision dépend en fin de compte de vos objectifs métier, de votre stratégie de contenu et de votre position face à l’accès de l’IA à vos données.

Points clés à considérer avant d’autoriser PerplexityBot :

  • Visibilité accrue : votre contenu devient repérable dans le moteur de réponses de Perplexity, atteignant des millions d’utilisateurs qui s’appuient sur la recherche IA pour des réponses rapides
  • Suivi des citations : apparaître dans les résultats de Perplexity offre une exposition à la marque et peut être surveillé via des outils comme AmICited.com pour suivre la fréquence de citation de votre contenu
  • Trafic de recommandation : les utilisateurs voyant votre site cité peuvent cliquer pour obtenir plus d’informations, augmentant potentiellement les conversions
  • Impact sur la bande passante : le trafic du robot consomme des ressources serveur ; les sites à fort trafic peuvent constater un usage notable de bande passante dû à l’indexation continue de PerplexityBot
  • Préoccupations de contrôle du contenu : une fois indexé, votre contenu peut être cité ou résumé dans des réponses IA sans compensation directe, soulevant des questions sur l’usage loyal et la propriété du contenu
Benefits and Risks of allowing PerplexityBot

Comment autoriser ou bloquer PerplexityBot

La gestion de l’accès de PerplexityBot est simple et peut être effectuée par différentes méthodes, selon votre infrastructure technique et vos besoins spécifiques. L’approche la plus courante est d’utiliser votre fichier robots.txt, qui fournit des directives claires à tous les robots respectueux des règles sur le contenu accessible.

Pour autoriser PerplexityBot dans votre fichier robots.txt :

User-agent: PerplexityBot
Allow: /

Pour bloquer PerplexityBot dans votre fichier robots.txt :

User-agent: PerplexityBot
Disallow: /

Si vous souhaitez bloquer PerplexityBot sur certains répertoires tout en autorisant l’accès à d’autres, vous pouvez utiliser des règles plus granulaires :

User-agent: PerplexityBot
Disallow: /admin/
Disallow: /private/
Allow: /public/

Pour une protection renforcée, notamment si vous craignez l’indexation furtive, mettez en place des règles au niveau du pare-feu applicatif Web (WAF). Les utilisateurs de Cloudflare WAF peuvent créer des règles personnalisées pour bloquer PerplexityBot en combinant la détection du user-agent et des adresses IP :

  1. Rendez-vous dans Sécurité → WAF → Règles personnalisées
  2. Créez une règle avec les conditions : le User-Agent contient “PerplexityBot” ET l’adresse IP source appartient aux plages IP publiées de PerplexityBot
  3. Définissez l’action sur Block ou Challenge selon votre préférence

Les utilisateurs de AWS WAF devraient créer des ensembles d’IP à partir des plages IP publiées sur https://www.perplexity.com/perplexitybot.json, puis des règles qui associent cet ensemble d’IP à la chaîne user-agent PerplexityBot. Utilisez toujours les plages IP officielles publiées par Perplexity, car celles-ci sont régulièrement mises à jour et représentent la source de référence du trafic légitime du robot.

Surveiller votre trafic PerplexityBot

Une fois votre politique PerplexityBot définie, la surveillance de l’activité réelle du robot vous permet de vérifier l’efficacité de vos règles et d’évaluer l’impact sur votre infrastructure. Vous pouvez identifier les requêtes PerplexityBot dans vos logs serveur en recherchant la chaîne user-agent distinctive : PerplexityBot/1.0 ou un user-agent de navigateur générique si une indexation furtive est en cours. La plupart des plateformes d’analyses web et des outils d’analyse de logs permettent de filtrer le trafic par user-agent, facilitant l’isolement des requêtes PerplexityBot et l’analyse de leurs schémas.

Les métriques clés à surveiller incluent la fréquence de passage du robot, les pages consultées et la bande passante consommée. Si vous constatez des schémas inhabituels – tels qu’un crawl rapide de pages sensibles ou des requêtes provenant d’adresses IP non incluses dans les plages officielles de Perplexity – cela peut indiquer une activité d’indexation furtive. Au-delà de la simple surveillance du trafic, l’utilisation d’outils spécialisés comme AmICited.com offre des insights plus poussés sur la façon dont votre contenu est réellement cité sur les plateformes IA, y compris Perplexity. AmICited suit les mentions de votre marque et de votre contenu dans les réponses générées par l’IA, vous permettant de mesurer l’impact réel de l’autorisation de PerplexityBot et de comprendre quelles pages de votre site sont les plus précieuses pour les systèmes IA. Ces données vous aident à prendre des décisions éclairées sur les politiques de gestion des robots et les stratégies d’optimisation de contenu.

Bonnes pratiques pour les propriétaires de sites web

Gérer PerplexityBot efficacement suppose une approche équilibrée qui protège vos intérêts tout en tenant compte de la valeur de la visibilité induite par l’IA. Premièrement, établissez une politique claire fondée sur vos objectifs métier : décidez si le trafic et l’exposition de marque potentiels via les citations Perplexity compensent vos préoccupations concernant la bande passante et le contrôle du contenu. Documentez cette décision dans votre fichier robots.txt et communiquez-la à votre équipe pour que tout le monde connaisse votre stratégie de gestion des robots.

Deuxièmement, mettez en place une protection en couches si vous choisissez de bloquer PerplexityBot. Ne vous fiez pas uniquement au robots.txt, car la controverse sur l’indexation furtive montre que certains robots peuvent ignorer ces directives. Combinez les règles du robots.txt avec des règles WAF et des blocages IP pour une défense en profondeur. Troisièmement, restez informé sur le comportement des robots en surveillant régulièrement vos logs et en suivant les discussions sectorielles sur l’éthique et la transparence des robots IA. Le paysage évolue rapidement et de nouveaux robots ou tactiques peuvent émerger, nécessitant des ajustements de politique.

Enfin, utilisez les outils de surveillance de façon stratégique pour mesurer l’impact réel de vos décisions. Des outils comme AmICited.com offrent de la visibilité sur la façon dont les systèmes IA citent votre contenu, vous aidant à comprendre si l’autorisation de PerplexityBot vous apporte réellement la visibilité attendue. Si vous autorisez le robot, ces données vous aident à optimiser votre contenu pour la citation IA. Si vous le bloquez, la surveillance confirme l’efficacité de vos blocages et que votre contenu n’apparaît pas dans les résultats Perplexity par d’autres moyens.

Comparaison avec d’autres robots IA

PerplexityBot évolue dans un paysage concurrentiel de robots IA, chacun ayant des objectifs et des standards de transparence différents. GPTBot, exploité par OpenAI, est largement reconnu comme un modèle de comportement transparent : il s’identifie clairement, respecte les directives du robots.txt et cesse l’indexation s’il est bloqué. Les robots de Google pour les Aperçus IA et autres fonctionnalités IA maintiennent eux aussi la transparence et respectent les préférences des sites. À l’inverse, le comportement d’indexation furtive de Perplexity, documenté par Cloudflare, représente une dérive préoccupante par rapport à ces standards.

La différence clé réside dans la transparence et le respect des préférences des propriétaires de site. Les robots bien élevés comme GPTBot permettent aux propriétaires de sites de comprendre leur activité et d’offrir des mécanismes de contrôle clairs. Le recours de Perplexity à des robots non déclarés et à la rotation d’IP pour contourner les restrictions mine la confiance. Pour les propriétaires de sites, cela signifie qu’il faut être plus vigilant vis-à-vis des politiques affichées par Perplexity et mettre en place des contrôles techniques renforcés pour garantir le respect effectif de vos préférences. À mesure que l’écosystème des robots IA mûrit, attendez-vous à ce que la pression augmente sur des entreprises comme Perplexity pour adopter des pratiques plus transparentes et éthiques, alignées sur les standards du web et le respect de l’autonomie des propriétaires de sites.

Questions fréquemment posées

Qu'est-ce que PerplexityBot et pourquoi explore-t-il mon site web ?

PerplexityBot est le robot d'indexation officiel de Perplexity AI, conçu pour indexer les sites web et les faire apparaître dans les résultats de recherche alimentés par l'IA de Perplexity. Contrairement à certains robots IA qui collectent des données pour l'entraînement, PerplexityBot découvre et crée spécifiquement des liens vers des sites web offrant des réponses pertinentes aux requêtes des utilisateurs. Il fonctionne de manière transparente avec une chaîne user-agent publiée et des plages d'adresses IP officielles.

PerplexityBot est-il utilisé pour entraîner des modèles d'IA ?

Non. Selon la documentation officielle de Perplexity, PerplexityBot est conçu pour faire remonter et lier des sites web dans les résultats de recherche de Perplexity. Il n'est pas utilisé pour explorer du contenu à des fins d'entraînement de modèles de fondation IA. La seule fonction du robot est d'indexer du contenu pour inclusion dans le moteur de réponses de Perplexity.

Comment puis-je bloquer PerplexityBot sur mon site web ?

Vous pouvez bloquer PerplexityBot en utilisant votre fichier robots.txt en ajoutant 'User-agent: PerplexityBot' suivi de 'Disallow: /' pour empêcher tout accès. Pour une protection renforcée, mettez en place des règles WAF sur Cloudflare ou AWS WAF bloquant les requêtes correspondant au user-agent et aux plages IP de PerplexityBot. Cependant, sachez que l'indexation furtive peut contourner ces contrôles.

Quelles sont les adresses IP de PerplexityBot ?

Perplexity publie les plages d'adresses IP officielles de PerplexityBot sur https://www.perplexity.com/perplexitybot.json et pour Perplexity-User sur https://www.perplexity.com/perplexity-user.json. Ces plages sont mises à jour régulièrement et doivent être la source de référence pour la configuration de votre pare-feu et de votre WAF. Utilisez toujours les points de terminaison officiels plutôt que de vous fier à des listes IP obsolètes.

PerplexityBot respecte-t-il le fichier robots.txt ?

PerplexityBot affirme respecter les directives du fichier robots.txt, mais l'enquête de Cloudflare en 2025 a révélé des preuves d'indexation furtive utilisant des user-agents non déclarés et des adresses IP rotatives pour contourner les restrictions du robots.txt. Bien que le robot déclaré PerplexityBot doive respecter vos règles robots.txt, il est recommandé de mettre en place des protections WAF supplémentaires si vous souhaitez garantir le respect de vos préférences.

Quelle quantité de bande passante utilise PerplexityBot ?

L'utilisation de la bande passante varie en fonction de la taille et du volume de contenu de votre site. PerplexityBot effectue une exploration continue et planifiée, similaire à celle du robot de Google. Les sites à fort trafic peuvent constater une consommation de bande passante mesurable. Vous pouvez surveiller l'utilisation réelle en filtrant vos logs serveur pour les requêtes PerplexityBot et en analysant le volume de transfert de données afin de déterminer si cela a un impact sur votre infrastructure.

Puis-je surveiller la façon dont Perplexity cite mon contenu ?

Oui. Vous pouvez effectuer manuellement des recherches sur Perplexity avec des requêtes liées à votre contenu pour voir si votre site est cité dans les réponses. Pour une surveillance plus complète, utilisez des outils comme AmICited.com, qui suit la façon dont votre marque et votre contenu apparaissent sur les plateformes IA, y compris Perplexity, offrant des insights en temps réel sur votre visibilité IA et vos schémas de citation.

Quelle est la différence entre PerplexityBot et Perplexity-User ?

PerplexityBot est le robot d'indexation planifié qui indexe en continu les sites web pour l'index de recherche de Perplexity. Perplexity-User est déclenché à la demande lorsque des utilisateurs posent des questions et que Perplexity doit récupérer des pages spécifiques en temps réel. PerplexityBot respecte le robots.txt, tandis que Perplexity-User l'ignore généralement puisqu'il répond à des requêtes utilisateur. Les deux disposent de chaînes user-agent et de plages IP distinctes.

Surveillez vos citations IA avec AmICited

Suivez comment Perplexity et d'autres plateformes IA citent votre marque. Obtenez des insights en temps réel sur votre visibilité IA et optimisez votre stratégie de contenu pour un impact maximal sur les moteurs de recherche génératifs.

En savoir plus

PerplexityBot
PerplexityBot : robot d’indexation web IA pour le moteur de réponses Perplexity

PerplexityBot

Découvrez PerplexityBot, le robot d’indexation web de Perplexity qui indexe le contenu pour son moteur de réponses IA. Comprenez son fonctionnement, sa conformi...

8 min de lecture
Perplexity AI
Perplexity AI : moteur de réponses alimenté par l’IA avec recherche web en temps réel

Perplexity AI

Perplexity AI est un moteur de réponses alimenté par l’IA qui combine la recherche web en temps réel avec des LLM pour fournir des réponses précises et sourcées...

14 min de lecture
GPTBot
GPTBot : le robot d’indexation web d’OpenAI pour l’entraînement de l’IA

GPTBot

Découvrez ce qu’est GPTBot, son fonctionnement et s’il faut le bloquer sur votre site web. Comprenez l’impact sur le SEO, la charge serveur et la visibilité de ...

11 min de lecture