PerplexityBot: Lo que todo propietario de sitio web debe saber

PerplexityBot: Lo que todo propietario de sitio web debe saber

Publicado el Jan 3, 2026. Última modificación el Jan 3, 2026 a las 8:37 am

¿Qué es PerplexityBot?

PerplexityBot es el rastreador web oficial desarrollado por Perplexity AI, diseñado para indexar y mostrar sitios web en los resultados de búsqueda impulsados por IA de Perplexity. A diferencia de algunos rastreadores de IA que recopilan datos para entrenar grandes modelos de lenguaje, PerplexityBot cumple un propósito específico: descubrir, rastrear y enlazar sitios web que proporcionan respuestas relevantes a las consultas de los usuarios. El rastreador opera usando una cadena de agente de usuario claramente definida (Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)) y publica públicamente sus rangos de direcciones IP, permitiendo a los propietarios de sitios web identificar y gestionar el tráfico del rastreador. Comprender lo que hace PerplexityBot es esencial para los propietarios de sitios que desean controlar la visibilidad de su contenido en el motor de respuestas de Perplexity y mantener la transparencia sobre cómo se accede a sus sitios.

PerplexityBot Web Crawler indexing websites

Cómo funciona PerplexityBot

PerplexityBot opera como un rastreador web estándar, escaneando continuamente Internet para descubrir e indexar páginas web. Cuando encuentra un sitio, lee el archivo robots.txt para entender a qué contenido se le permite acceder y luego rastrea sistemáticamente las páginas para extraer e indexar su contenido. Esta información indexada alimenta el algoritmo de búsqueda de Perplexity, que la utiliza para proporcionar respuestas citadas a las consultas de los usuarios. Sin embargo, Perplexity en realidad opera dos rastreadores distintos con diferentes propósitos, cada uno con su propio agente de usuario y patrones de comportamiento. Comprender la diferencia entre estos rastreadores es crucial para los propietarios de sitios web que deseen afinar sus políticas de acceso.

CaracterísticaPerplexityBotPerplexity-User
PropósitoIndexa sitios web para resultados de búsqueda y citasObtiene páginas específicas en tiempo real al responder consultas de usuarios
Cadena de agente de usuarioPerplexityBot/1.0Perplexity-User/1.0
Cumplimiento de robots.txtRespeta las directivas de disallow en robots.txtGeneralmente ignora robots.txt (solicitudes iniciadas por usuarios)
Rangos de IPPublicados en perplexity.com/perplexitybot.jsonPublicados en perplexity.com/perplexity-user.json
FrecuenciaRastreo continuo y programadoBajo demanda, activado por consultas de usuarios
Caso de usoConstrucción del índice de búsquedaRecuperación de información actual para respuestas

La distinción entre estos dos rastreadores es importante porque pueden gestionarse por separado mediante reglas en robots.txt y configuraciones de firewall. El rastreo regular de PerplexityBot respeta tus directivas en robots.txt, mientras que Perplexity-User puede ignorarlas ya que obtiene contenido en respuesta a una solicitud específica de usuario. Ambos rastreadores publican sus rangos de IP, lo que permite a los propietarios de sitios implementar reglas de firewall precisas si deciden bloquear o permitir tráfico específico de rastreadores.

La controversia: acusaciones de rastreo sigiloso

En 2025, Cloudflare publicó una investigación detallada que revelaba que Perplexity estaba utilizando rastreadores no declarados para eludir las restricciones de los sitios web. Según sus hallazgos, cuando los rastreadores declarados de Perplexity (PerplexityBot y Perplexity-User) eran bloqueados mediante robots.txt o reglas de firewall, la empresa desplegaba rastreadores adicionales utilizando agentes de usuario genéricos de navegador (como Chrome en macOS) y direcciones IP rotativas de diferentes ASNs (Números de Sistemas Autónomos) para seguir accediendo a contenido restringido. Este comportamiento contradice directamente los estándares de rastreo web descritos en RFC 9309, que enfatizan la transparencia y el respeto a las preferencias de los propietarios de sitios web. La investigación probó esto creando dominios completamente nuevos con reglas explícitas de disallow en robots.txt, y aun así Perplexity proporcionó información detallada sobre su contenido, lo que sugiere el uso de fuentes de datos no declaradas o técnicas de rastreo sigiloso.

Esto contrasta fuertemente con la forma en que OpenAI gestiona sus rastreadores. GPTBot de OpenAI se identifica claramente, respeta las directivas de robots.txt y deja de rastrear cuando se le bloquea, demostrando que es posible y práctico un comportamiento transparente y ético por parte de los rastreadores. Los hallazgos de Cloudflare generaron preocupaciones importantes sobre si el compromiso declarado de Perplexity con el respeto a las preferencias de los propietarios de sitios es genuino, especialmente para quienes desean evitar que su contenido sea indexado o citado por sistemas de IA. Para los propietarios preocupados por el control del contenido y la transparencia, esta controversia destaca la importancia de monitorear el comportamiento de los rastreadores y usar múltiples capas de protección (robots.txt, reglas WAF y bloqueo de IP) para hacer cumplir sus preferencias.

¿Deberías permitir a PerplexityBot? Beneficios y riesgos

Decidir si permitir o no a PerplexityBot en tu sitio web implica sopesar varios factores importantes. Por un lado, permitir el rastreador ofrece beneficios relevantes: tu contenido puede ser citado en las respuestas de Perplexity, lo que potencialmente genera tráfico de referencia de usuarios que ven tu sitio mencionado en respuestas generadas por IA. Por otro lado, existen preocupaciones legítimas sobre el consumo de ancho de banda, el scraping de contenido y la pérdida de control sobre cómo se utiliza tu información. La decisión depende en última instancia de tus objetivos de negocio, estrategia de contenidos y nivel de comodidad con los sistemas de IA accediendo a tus datos.

Consideraciones clave para permitir a PerplexityBot:

  • Mayor visibilidad: Tu contenido se vuelve accesible en el motor de respuestas de Perplexity, alcanzando a millones de usuarios que confían en la búsqueda por IA para respuestas rápidas
  • Seguimiento de citas: Aparecer en los resultados de Perplexity brinda exposición de marca y puede monitorearse usando herramientas como AmICited.com para rastrear la frecuencia de las citas a tu contenido
  • Tráfico de referencia: Los usuarios que ven tu sitio citado en respuestas pueden hacer clic para obtener más información, lo que potencialmente aumenta las conversiones
  • Impacto en el ancho de banda: El tráfico del rastreador consume recursos del servidor; los sitios de alto tráfico pueden notar un uso apreciable de ancho de banda debido al rastreo continuo de PerplexityBot
  • Preocupaciones sobre el control del contenido: Una vez indexado, tu contenido puede ser citado o resumido en respuestas de IA sin compensación directa, lo que plantea preguntas sobre el uso justo y la propiedad del contenido
Benefits and Risks of allowing PerplexityBot

Cómo permitir o bloquear a PerplexityBot

Gestionar el acceso de PerplexityBot es sencillo y puede lograrse mediante varios métodos, según tu infraestructura técnica y requisitos específicos. El método más común es usar el archivo robots.txt, que proporciona directivas claras a todos los rastreadores respetuosos sobre qué contenido pueden acceder.

Para permitir a PerplexityBot en tu archivo robots.txt:

User-agent: PerplexityBot
Allow: /

Para bloquear a PerplexityBot en tu archivo robots.txt:

User-agent: PerplexityBot
Disallow: /

Si deseas bloquear a PerplexityBot en directorios específicos y permitir el acceso a otros, puedes usar reglas más granulares:

User-agent: PerplexityBot
Disallow: /admin/
Disallow: /private/
Allow: /public/

Para una protección más robusta, especialmente si te preocupa el rastreo sigiloso, implementa reglas de firewall a nivel de Web Application Firewall (WAF). Los usuarios de Cloudflare WAF pueden crear reglas personalizadas para bloquear a PerplexityBot combinando coincidencias de agente de usuario y direcciones IP:

  1. Ve a Seguridad → WAF → Reglas personalizadas
  2. Crea una regla con condiciones: el agente de usuario contiene “PerplexityBot” Y la dirección IP origen está en los rangos de IP publicados de PerplexityBot
  3. Configura la acción en Bloquear o Desafiar según tu preferencia

Los usuarios de AWS WAF deben crear conjuntos de IP usando los rangos publicados de PerplexityBot desde https://www.perplexity.com/perplexitybot.json, luego crear reglas que coincidan tanto con el conjunto de IP como con la cadena de agente de usuario PerplexityBot. Utiliza siempre los rangos oficiales publicados por Perplexity, ya que se actualizan regularmente y son la fuente autorizada para el tráfico legítimo del rastreador.

Monitoreo del tráfico de PerplexityBot

Una vez que has decidido tu política respecto a PerplexityBot, monitorear la actividad real del rastreador te ayuda a verificar que tus reglas funcionen correctamente y a entender el impacto en tu infraestructura. Puedes identificar las solicitudes de PerplexityBot en los registros de tu servidor buscando la distintiva cadena de agente de usuario: PerplexityBot/1.0 o el agente de usuario genérico de navegador si se produce rastreo sigiloso. La mayoría de las plataformas de análisis web y herramientas de análisis de registros permiten filtrar el tráfico por agente de usuario, lo que facilita aislar las solicitudes de PerplexityBot y analizar sus patrones.

Las métricas clave a monitorear incluyen la frecuencia de las visitas del rastreador, las páginas accedidas y el ancho de banda consumido. Si observas patrones inusuales—como rastreo rápido de páginas sensibles o solicitudes desde direcciones IP que no están en los rangos publicados por Perplexity—esto puede indicar actividad de rastreo sigiloso. Más allá del monitoreo básico de tráfico, el uso de herramientas especializadas como AmICited.com proporciona una visión más profunda sobre cómo tu contenido es citado realmente en plataformas de IA incluyendo Perplexity. AmICited rastrea menciones de tu marca y contenido en respuestas generadas por IA, permitiéndote medir el impacto real de permitir a PerplexityBot y entender cuáles de tus páginas son más valiosas para los sistemas de IA. Estos datos te ayudan a tomar decisiones informadas sobre futuras políticas de gestión de rastreadores y estrategias de optimización de contenido.

Mejores prácticas para propietarios de sitios web

Gestionar PerplexityBot de manera efectiva requiere un enfoque equilibrado que proteja tus intereses y reconozca el valor de la visibilidad impulsada por IA. Primero, establece una política clara basada en tus objetivos de negocio: decide si el tráfico potencial y la exposición de marca que brinda Perplexity superan tus preocupaciones sobre el ancho de banda y el control del contenido. Documenta esta decisión en tu archivo robots.txt y comunícalo a tu equipo para que todos comprendan tu estrategia de gestión de rastreadores.

En segundo lugar, implementa protección en capas si decides bloquear a PerplexityBot. No te bases únicamente en robots.txt, ya que la controversia del rastreo sigiloso demuestra que algunos rastreadores pueden ignorar estas directivas. Combina reglas en robots.txt con reglas WAF y bloqueo de IP para una protección en profundidad. En tercer lugar, mantente informado sobre el comportamiento de los rastreadores monitoreando regularmente tus registros y siguiendo las discusiones del sector sobre la ética y transparencia de los rastreadores de IA. El panorama evoluciona rápidamente, y pueden surgir nuevos rastreadores o tácticas que requieran ajustes de política.

Finalmente, utiliza herramientas de monitoreo estratégicamente para medir el impacto real de tus decisiones. Herramientas como AmICited.com te dan visibilidad sobre cómo los sistemas de IA citan tu contenido, ayudándote a entender si permitir a PerplexityBot te está proporcionando los beneficios de visibilidad que esperabas. Si permites el rastreador, estos datos te ayudan a optimizar tu contenido para la citación por IA. Si lo bloqueas, el monitoreo confirma que tus bloqueos son efectivos y que tu contenido no aparece en los resultados de Perplexity por otros medios.

Comparación con otros rastreadores de IA

PerplexityBot opera en un panorama lleno de rastreadores de IA, cada uno con diferentes propósitos y estándares de transparencia. GPTBot, operado por OpenAI, es ampliamente reconocido como un modelo de comportamiento transparente de rastreador: se identifica claramente, respeta las directivas de robots.txt y deja de rastrear cuando se le bloquea. Los rastreadores de Google para AI Overviews y otras funciones de IA también mantienen la transparencia y respetan las preferencias de los sitios web. En contraste, el comportamiento de rastreo sigiloso de Perplexity, documentado por Cloudflare, representa una desviación preocupante de estos estándares.

La diferencia clave radica en la transparencia y el respeto por las preferencias de los propietarios de sitios web. Rastreadores bien comportados como GPTBot facilitan a los propietarios entender lo que hacen y ofrecen mecanismos claros de control. El uso por parte de Perplexity de rastreadores no declarados y rotación de IPs para eludir restricciones mina esta confianza. Para los propietarios de sitios web, esto significa que deben ser más cautelosos respecto a las políticas declaradas por Perplexity e implementar controles técnicos más fuertes si desean asegurarse de que sus preferencias sean realmente respetadas. A medida que el ecosistema de rastreadores de IA madura, se espera una mayor presión sobre empresas como Perplexity para adoptar prácticas más transparentes y éticas que se alineen con los estándares web establecidos y respeten la autonomía de los propietarios de sitios.

Preguntas frecuentes

¿Qué es PerplexityBot y por qué rastrea mi sitio web?

PerplexityBot es el rastreador web oficial de Perplexity AI, diseñado para indexar sitios web y mostrarlos en los resultados de búsqueda impulsados por IA de Perplexity. A diferencia de algunos rastreadores de IA que recopilan datos para entrenamiento, PerplexityBot descubre y enlaza específicamente sitios web que proporcionan respuestas relevantes a las consultas de los usuarios. Opera de manera transparente con una cadena de agente de usuario publicada y rangos de direcciones IP.

¿Se utiliza PerplexityBot para entrenar modelos de IA?

No. Según la documentación oficial de Perplexity, PerplexityBot está diseñado para mostrar y enlazar sitios web en los resultados de búsqueda de Perplexity. No se utiliza para rastrear contenido con fines de entrenamiento de modelos fundacionales de IA. La única función del rastreador es indexar contenido para su inclusión en el motor de respuestas de Perplexity.

¿Cómo puedo bloquear a PerplexityBot en mi sitio web?

Puedes bloquear a PerplexityBot usando tu archivo robots.txt añadiendo 'User-agent: PerplexityBot' seguido de 'Disallow: /' para evitar todo acceso. Para una protección más fuerte, implementa reglas WAF en Cloudflare o AWS WAF que bloqueen solicitudes que coincidan con el agente de usuario e IPs de PerplexityBot. Sin embargo, ten en cuenta que el rastreo sigiloso puede eludir estos controles.

¿Cuáles son las direcciones IP de PerplexityBot?

Perplexity publica los rangos de direcciones IP oficiales para PerplexityBot en https://www.perplexity.com/perplexitybot.json y para Perplexity-User en https://www.perplexity.com/perplexity-user.json. Estos rangos se actualizan regularmente y deben ser la fuente autorizada para la configuración de tu firewall y WAF. Utiliza siempre los endpoints oficiales en lugar de depender de listas de IPs obsoletas.

¿PerplexityBot respeta el robots.txt?

PerplexityBot afirma respetar las directivas de robots.txt, pero la investigación de Cloudflare en 2025 encontró evidencia de rastreo sigiloso utilizando agentes de usuario no declarados y direcciones IP rotativas para eludir las restricciones de robots.txt. Aunque el rastreador PerplexityBot declarado debería respetar tus reglas, se recomienda implementar protecciones adicionales con WAF si deseas asegurarte de que tus preferencias se apliquen.

¿Cuánto ancho de banda utiliza PerplexityBot?

El consumo de ancho de banda varía según el tamaño y volumen de contenido de tu sitio. PerplexityBot realiza un rastreo continuo y programado similar al de Google. Los sitios de alto tráfico pueden notar un consumo de ancho de banda considerable. Puedes monitorear el uso real filtrando los registros de tu servidor por solicitudes de PerplexityBot y analizando el volumen de transferencia de datos para determinar si afecta tu infraestructura.

¿Puedo monitorear cómo Perplexity cita mi contenido?

Sí. Puedes buscar manualmente en Perplexity consultas relacionadas con tu contenido para ver si tu sitio es citado en las respuestas. Para un monitoreo más completo, utiliza herramientas como AmICited.com, que rastrea cómo tu marca y contenido aparecen en plataformas de IA incluyendo Perplexity, proporcionando información en tiempo real sobre tu visibilidad en IA y patrones de citación.

¿Cuál es la diferencia entre PerplexityBot y Perplexity-User?

PerplexityBot es el rastreador programado que indexa continuamente sitios web para el índice de búsqueda de Perplexity. Perplexity-User se activa bajo demanda cuando los usuarios hacen preguntas y Perplexity necesita obtener páginas específicas en tiempo real. PerplexityBot respeta robots.txt, mientras que Perplexity-User generalmente lo ignora ya que responde a solicitudes de usuarios. Ambos tienen cadenas de agente de usuario y rangos de IP diferentes.

Monitorea tus citas en IA con AmICited

Haz seguimiento de cómo Perplexity y otras plataformas de IA citan tu marca. Obtén información en tiempo real sobre tu visibilidad en IA y optimiza tu estrategia de contenidos para lograr el máximo impacto en motores de búsqueda generativos.

Saber más

PerplexityBot
PerplexityBot: Rastreador Web de IA para el Motor de Respuestas de Perplexity

PerplexityBot

Descubre qué es PerplexityBot, el rastreador web de Perplexity que indexa contenido para su motor de respuestas de IA. Comprende cómo funciona, su cumplimiento ...

9 min de lectura
Perplexity AI
Perplexity AI: Motor de Respuestas con IA y Búsqueda Web en Tiempo Real

Perplexity AI

Perplexity AI es un motor de respuestas con IA que combina búsqueda web en tiempo real con LLM para entregar respuestas citadas y precisas. Descubre cómo funcio...

14 min de lectura