Home
Sobre

Content & Creativity

  • Sobre nós
    Somos muito mais do que performance
  • Carreiras
    #VemPraAdtail
Soluções

Strategy & Performance

  • Business & Strategy
    Maximize o seu impacto no mundo digital
  • Mídias pagas
    Aumente suas conversões
  • Otimização SEO
    Conquiste posições de destaque

Content & Creativity

  • Inbound Marketing
    Aumente a geração de oportunidades
  • Social Media
    Crie conexões, gere negócios
  • Produção Criativa
    Design estratégico que gera resultados

Data & Technology

  • CRM Marketing
    Automatize processos, conquiste clientes
  • otimização CRO
    Transforme visitantes em clientes
  • Data intelligence
    Transforme dados em insights estratégicos

Precisa de ajuda?

Agende uma conversa e receba um diagnóstico completo.
Entre em contato

E-commerce

  • Implementação novo
    Aprimore o posicionamento online
  • Evolução novo
    Potencialize suas vendas
  • Migração novo
    Maximize a performance
Conteúdo

Content

  • Blog
    Temos novidades para você
  • Materiais
    Confira guias, e-books e webinars
Sobre
Sobre nós
Carreiras
Soluções

Performance & Estratégia

Business & Strategy
Mídia Paga
Otimização SEO

Conteúdo & Criatividade

Inbound Marketing
Social Media
Produção Criativa

Dados & Tecnologia

CRM Marketing
Otimização CRO
Data Intelligence
Cases
Fale com um especialista
Blog

Respeito ao robots.txt: entenda o caso Cloudfare X Perplexity

A luta do ano em 2025 é a da Cloudfare X Perplexity. E isso diz muito sobre o futuro dos agentes de IA. Saiba mais.
Respeito ao robots.txt: entenda o caso Cloudfare X Perplexity
Blog

Respeito ao robots.txt: entenda o caso Cloudfare X Perplexity

A luta do ano em 2025 é a da Cloudfare X Perplexity. E isso diz muito sobre o futuro dos agentes de IA. Saiba mais.
Respeito ao robots.txt: entenda o caso Cloudfare X Perplexity

Navegue pelo conteúdo

Example H2
Example H3
Example H4
Example H5
Example H6

O caso Cloudflare X Perplexity está causando ondas no oceano já conturbado da era das IAs.

Na data de redação desse artigo, estamos vivendo uma polêmica seríssima: o Cloudfare está limitando o acesso dos crawlers da Perplexity, alegando que a IA está ignorando seu robots.txt e fazendo acessos “stealth”. 

E com isso, o Cloudfare está ameaçando implementar um paywall específico para agentes de IAs.

A Perplexity, por sua vez, meio que nega e meio que dobra a aposta, dizendo que agentes de IA devem ter os mesmos direitos que humanos ao navegar pela internet. 

De forma não irônica, podemos estar vendo o primeiro caso de litigação contra agentes de IA da história da humanidade. 

Litigação caso chegue a processo, mas de qualquer forma, é o primeiro caso de discriminação/segregação de agentes de IA na internet. 

Vamos conversar melhor sobre o assunto nesse tópico. A leitura é bem interessante, e já te traz muitos assuntos para a próxima reunião. 

Primeiro, o básico: quem são os envolvidos? 

Conhecendo o Cloudfare e a Perplexity 

Se você já conhece as empresas, pode saltar para o resumo do caso, que é o próximo tópico. 

Aqui vamos falar um pouco mais sobre as duas empresas para te contextualizar melhor sobre o que está realmente acontecendo. 

Incluímos um separador para organizar melhor a leitura. Acompanhe logo abaixo: 

Quem é a Perplexity

Perplexity é uma empresa americana (fundada em 2022) que opera um “answer engine” — um buscador conversacional que usa LLMs, consulta a web em tempo real e devolve respostas com citações. 

Seu foco é a pesquisa natural, perguntas de acompanhamento e resultados contextualizados. 

Para sustentar as respostas, a Perplexity mantém crawlers próprios. A documentação pública descreve o PerplexityBot (indexação/descoberta) e o Perplexity-User (fetch sob demanda iniciado por usuários).

Em poucas palavras e para entender a relevância: 

  • É um dos principais buscadores de IA “nativos”, logo seu comportamento de coleta e atribuição influencia o ecossistema editorial;
  • Declara bots e políticas de acesso — ponto crítico quando marcas querem controlar como seu conteúdo é usado por IAs;
  • Posiciona-se como alternativa aos buscadores clássicos, o que recoloca o blog como fonte citável e estável.

Quem é a Cloudflare

A Cloudflare é uma empresa de infraestrutura e segurança web (fundada em 2009; listada na NYSE desde 2019) que opera uma rede global de CDN, DNS, mitigação de DDoS, reverse proxy e serviços “zero trust”. 

Missão declarada: tornar sites e apps mais rápidos, seguros e confiáveis.

A presença é massiva: estimativas apontam que a Cloudflare protege/serve uma parcela relevante da web, o que a coloca como “camada de trânsito” para tráfego legítimo e bots — inclusive os de IAs.

Veja mais alguns detalhes: 

  • Como provedora de segurança e gateway, observa e regula comportamentos de crawlers em escala (programas de “bots verificados”, regras de bloqueio);
  • Publica pesquisas e políticas que viram referência técnica (ex.: diretrizes de bots, autenticação de bots);
  • Sua posição de infraestrutura dá credibilidade quando documenta padrões de acesso atípicos — o que alimenta discussões sobre governança de conteúdo e respeito a diretivas.

De forma geral, o Cloudfare é que tem a vantagem em uma disputa com a Perplexity, já que milhões de sites no mundo usam seus serviços de uma forma ou de outra. 

Mas o que realmente está acontecendo? O que está no centro da discussão? Veja o resumo rápido logo abaixo: 

Resumo da situação Cloudfare X Perplexity

Em 4 de agosto de 2025, a Cloudflare tornou pública uma acusação: a Perplexity estaria usando “crawlers furtivos”, não declarados, para contornar bloqueios — inclusive regras em robots.txt e filtros de firewall. 

A Cloudfare, então, tomou ações: removendo a startup do programa de bots verificados e aplicando bloqueios gerenciados. A denúncia ganhou cobertura ampla na imprensa especializada. 

Segundo a Cloudflare, foram feitos testes com domínios “isca”, inéditos e explicitamente bloqueados, ainda assim apareciam em respostas da Perplexity. 

A empresa afirma ter observado mudanças de user-agent para cabeçalhos de navegador comum, rotação de IPs/ASNs fora dos ranges documentados e, em alguns casos, ausência de consulta ao próprio robots.txt. 

A Perplexity nega “crawling massivo”, diz que seu sistema busca páginas sob demanda a partir de ações dos usuários e que parte do tráfego citado foi de um terceiro (BrowserBase), e não dela. 

A documentação pública reforça a distinção entre o PerplexityBot (que a empresa diz respeitar robots.txt) e o agente Perplexity-User, que — por ser fetch iniciado pelo usuário — “geralmente ignora” robots.txt, ponto que acirra a controvérsia.

No pano de fundo está o Robots Exclusion Protocol, formalizado no RFC 9309: um padrão que pede que crawlers honrem diretivas, mas que não é um mecanismo de autorização legal. 

A tensão cresce quando agentes não se identificam claramente ou divergem sobre o que significa “respeitar” essas regras em fluxos sob demanda.

Para quem publica, a disputa é menos um veredito e mais um alerta: na era dos agentes, credibilidade depende de políticas claras de acesso e de um repositório estável de ideias — um blog capaz de servir de fonte citável para humanos e máquinas.

Perspectiva da Perplexity

A Perplexity é apresentada como um answer engine que combina modelos de linguagem com consultas em tempo real. 

Nesse enquadramento, o PerplexityBot descobre e referencia conteúdos públicos, enquanto o agente Perplexity-User executa buscas sob demanda iniciadas por consultas específicas. A

 tese central sustenta que não há “crawling massivo” contínuo, e sim recuperações pontuais necessárias para responder perguntas com fontes.

Diante das acusações, a empresa argumenta que parte do tráfego atribuído a ela pode refletir acessos de provedores de automação de navegador ou de usuários reais, criando ruído na identificação. 

A leitura é que o robots.txt foi concebido para varreduras sistemáticas e não cobre com clareza fluxos de acesso mediados por interação humana.

O posicionamento público enfatiza serviço ao usuário, atribuição visível e abertura a padrões mais fortes de identificação de bots, desde que preservem a capacidade de um buscador moderno de consultar a web em tempo real. 

A prioridade declarada é reduzir ambiguidade técnica, melhorar transparência de agentes e manter limites para evitar coleta desnecessária, sem abdicar do princípio de respostas úteis com referências.

Perspectiva da Cloudflare

A Cloudflare se posiciona como camada de proteção e desempenho da web. 

Sob essa ótica, quando sites explicitamente bloqueados por diretivas de não rastreamento têm conteúdo que aparece em respostas de terceiros, configura-se quebra de expectativa e de convenções que sustentam a internet aberta. 

Robots.txt não é lei, mas funciona como gramática compartilhada que promove previsibilidade entre publishers e agentes automatizados.

A empresa descreve padrões considerados atípicos, como cabeçalhos que imitam navegadores comuns, rotação de IPs e ausência de consulta ao robots.txt antes do acesso a páginas. 

Diante de sinais consistentes, a resposta operacional inclui ambientes de teste controlados, remoção do selo de bot verificado e publicação de regras de bloqueio.

O caminho preferido é elevar o nível de confiança técnica, migrando de identificação por user-agent e IP para mecanismos assinados e auditáveis. 

A premissa é simples: agentes de busca, IA e monitoramento devem se identificar de forma verificável e respeitar políticas de acesso claras. Isso preserva os direitos dos publishers, reduz falsos positivos e mantém a inovação compatível com a governança da web.

O que isso significa para a internet pós-IA?

Se esse conflito caminhar para um acordo técnico — bots identificados de forma verificável, respeito a robots/llms.txt e auditoria de acesso — a experiência do usuário na web pós-IA melhora em três frentes: confiança, clareza e qualidade. 

As respostas deixam de ser “opiniões do modelo” e passam a vir com bibliografia estável; fica explícito de onde cada afirmação saiu, quando houve busca em tempo real e quais páginas foram consultadas. 

O efeito colateral é positivo: menos scraping agressivo, sites mais rápidos e menor circulação de conteúdo reciclado.

Há também uma mudança editorial. Com blogs tratados como fonte canônica — endereço perene, autoria, método e histórico de revisões — o mercado publica menos enchimento “para ranquear” e mais tese, dados e bastidores. 

Isso não promete mais volume, promete melhor sinal: textos que influenciam decisões, viram referência em newsletters e aparecem citados nas próprias respostas de IA. 

Para quem lê, significa menos ruído e mais substância, com direitos (paywalls, termos de uso) respeitados.

Em termos simples, a web troca “confiança por aparência” por “confiança comprovável”. 

Se a resolução consolidar esse padrão, o usuário final ganha uma internet mais previsível: respostas com fonte, conteúdo que presta contas e plataformas que jogam sob regras claras. 

‍

E aí, o que você achou desse duelo de gigantes? 

A situação é um pouco complicada no momento, e as IAs tendem a vencer essas disputas, como venceram contra o New York Times, contra os usuários do Deviant Art e outras situações. 

Mais do que pensar no que as IAs vão fazer ou deixar de fazer, o ideal é arrumar a sua casa. 

E para isso, vale colocar em prática o primo robô do robots.txt — o llms.txt. 

Saiba mais no nosso próximo artigo sobre o tema: 

➡️ Entendendo melhor o llms.txt e o rankeamento nas IAs

Escrito por:
André Bonanomi
CRO

O caso Cloudflare X Perplexity está causando ondas no oceano já conturbado da era das IAs.

Na data de redação desse artigo, estamos vivendo uma polêmica seríssima: o Cloudfare está limitando o acesso dos crawlers da Perplexity, alegando que a IA está ignorando seu robots.txt e fazendo acessos “stealth”. 

E com isso, o Cloudfare está ameaçando implementar um paywall específico para agentes de IAs.

A Perplexity, por sua vez, meio que nega e meio que dobra a aposta, dizendo que agentes de IA devem ter os mesmos direitos que humanos ao navegar pela internet. 

De forma não irônica, podemos estar vendo o primeiro caso de litigação contra agentes de IA da história da humanidade. 

Litigação caso chegue a processo, mas de qualquer forma, é o primeiro caso de discriminação/segregação de agentes de IA na internet. 

Vamos conversar melhor sobre o assunto nesse tópico. A leitura é bem interessante, e já te traz muitos assuntos para a próxima reunião. 

Primeiro, o básico: quem são os envolvidos? 

Conhecendo o Cloudfare e a Perplexity 

Se você já conhece as empresas, pode saltar para o resumo do caso, que é o próximo tópico. 

Aqui vamos falar um pouco mais sobre as duas empresas para te contextualizar melhor sobre o que está realmente acontecendo. 

Incluímos um separador para organizar melhor a leitura. Acompanhe logo abaixo: 

Quem é a Perplexity

Perplexity é uma empresa americana (fundada em 2022) que opera um “answer engine” — um buscador conversacional que usa LLMs, consulta a web em tempo real e devolve respostas com citações. 

Seu foco é a pesquisa natural, perguntas de acompanhamento e resultados contextualizados. 

Para sustentar as respostas, a Perplexity mantém crawlers próprios. A documentação pública descreve o PerplexityBot (indexação/descoberta) e o Perplexity-User (fetch sob demanda iniciado por usuários).

Em poucas palavras e para entender a relevância: 

  • É um dos principais buscadores de IA “nativos”, logo seu comportamento de coleta e atribuição influencia o ecossistema editorial;
  • Declara bots e políticas de acesso — ponto crítico quando marcas querem controlar como seu conteúdo é usado por IAs;
  • Posiciona-se como alternativa aos buscadores clássicos, o que recoloca o blog como fonte citável e estável.

Quem é a Cloudflare

A Cloudflare é uma empresa de infraestrutura e segurança web (fundada em 2009; listada na NYSE desde 2019) que opera uma rede global de CDN, DNS, mitigação de DDoS, reverse proxy e serviços “zero trust”. 

Missão declarada: tornar sites e apps mais rápidos, seguros e confiáveis.

A presença é massiva: estimativas apontam que a Cloudflare protege/serve uma parcela relevante da web, o que a coloca como “camada de trânsito” para tráfego legítimo e bots — inclusive os de IAs.

Veja mais alguns detalhes: 

  • Como provedora de segurança e gateway, observa e regula comportamentos de crawlers em escala (programas de “bots verificados”, regras de bloqueio);
  • Publica pesquisas e políticas que viram referência técnica (ex.: diretrizes de bots, autenticação de bots);
  • Sua posição de infraestrutura dá credibilidade quando documenta padrões de acesso atípicos — o que alimenta discussões sobre governança de conteúdo e respeito a diretivas.

De forma geral, o Cloudfare é que tem a vantagem em uma disputa com a Perplexity, já que milhões de sites no mundo usam seus serviços de uma forma ou de outra. 

Mas o que realmente está acontecendo? O que está no centro da discussão? Veja o resumo rápido logo abaixo: 

Resumo da situação Cloudfare X Perplexity

Em 4 de agosto de 2025, a Cloudflare tornou pública uma acusação: a Perplexity estaria usando “crawlers furtivos”, não declarados, para contornar bloqueios — inclusive regras em robots.txt e filtros de firewall. 

A Cloudfare, então, tomou ações: removendo a startup do programa de bots verificados e aplicando bloqueios gerenciados. A denúncia ganhou cobertura ampla na imprensa especializada. 

Segundo a Cloudflare, foram feitos testes com domínios “isca”, inéditos e explicitamente bloqueados, ainda assim apareciam em respostas da Perplexity. 

A empresa afirma ter observado mudanças de user-agent para cabeçalhos de navegador comum, rotação de IPs/ASNs fora dos ranges documentados e, em alguns casos, ausência de consulta ao próprio robots.txt. 

A Perplexity nega “crawling massivo”, diz que seu sistema busca páginas sob demanda a partir de ações dos usuários e que parte do tráfego citado foi de um terceiro (BrowserBase), e não dela. 

A documentação pública reforça a distinção entre o PerplexityBot (que a empresa diz respeitar robots.txt) e o agente Perplexity-User, que — por ser fetch iniciado pelo usuário — “geralmente ignora” robots.txt, ponto que acirra a controvérsia.

No pano de fundo está o Robots Exclusion Protocol, formalizado no RFC 9309: um padrão que pede que crawlers honrem diretivas, mas que não é um mecanismo de autorização legal. 

A tensão cresce quando agentes não se identificam claramente ou divergem sobre o que significa “respeitar” essas regras em fluxos sob demanda.

Para quem publica, a disputa é menos um veredito e mais um alerta: na era dos agentes, credibilidade depende de políticas claras de acesso e de um repositório estável de ideias — um blog capaz de servir de fonte citável para humanos e máquinas.

Perspectiva da Perplexity

A Perplexity é apresentada como um answer engine que combina modelos de linguagem com consultas em tempo real. 

Nesse enquadramento, o PerplexityBot descobre e referencia conteúdos públicos, enquanto o agente Perplexity-User executa buscas sob demanda iniciadas por consultas específicas. A

 tese central sustenta que não há “crawling massivo” contínuo, e sim recuperações pontuais necessárias para responder perguntas com fontes.

Diante das acusações, a empresa argumenta que parte do tráfego atribuído a ela pode refletir acessos de provedores de automação de navegador ou de usuários reais, criando ruído na identificação. 

A leitura é que o robots.txt foi concebido para varreduras sistemáticas e não cobre com clareza fluxos de acesso mediados por interação humana.

O posicionamento público enfatiza serviço ao usuário, atribuição visível e abertura a padrões mais fortes de identificação de bots, desde que preservem a capacidade de um buscador moderno de consultar a web em tempo real. 

A prioridade declarada é reduzir ambiguidade técnica, melhorar transparência de agentes e manter limites para evitar coleta desnecessária, sem abdicar do princípio de respostas úteis com referências.

Perspectiva da Cloudflare

A Cloudflare se posiciona como camada de proteção e desempenho da web. 

Sob essa ótica, quando sites explicitamente bloqueados por diretivas de não rastreamento têm conteúdo que aparece em respostas de terceiros, configura-se quebra de expectativa e de convenções que sustentam a internet aberta. 

Robots.txt não é lei, mas funciona como gramática compartilhada que promove previsibilidade entre publishers e agentes automatizados.

A empresa descreve padrões considerados atípicos, como cabeçalhos que imitam navegadores comuns, rotação de IPs e ausência de consulta ao robots.txt antes do acesso a páginas. 

Diante de sinais consistentes, a resposta operacional inclui ambientes de teste controlados, remoção do selo de bot verificado e publicação de regras de bloqueio.

O caminho preferido é elevar o nível de confiança técnica, migrando de identificação por user-agent e IP para mecanismos assinados e auditáveis. 

A premissa é simples: agentes de busca, IA e monitoramento devem se identificar de forma verificável e respeitar políticas de acesso claras. Isso preserva os direitos dos publishers, reduz falsos positivos e mantém a inovação compatível com a governança da web.

O que isso significa para a internet pós-IA?

Se esse conflito caminhar para um acordo técnico — bots identificados de forma verificável, respeito a robots/llms.txt e auditoria de acesso — a experiência do usuário na web pós-IA melhora em três frentes: confiança, clareza e qualidade. 

As respostas deixam de ser “opiniões do modelo” e passam a vir com bibliografia estável; fica explícito de onde cada afirmação saiu, quando houve busca em tempo real e quais páginas foram consultadas. 

O efeito colateral é positivo: menos scraping agressivo, sites mais rápidos e menor circulação de conteúdo reciclado.

Há também uma mudança editorial. Com blogs tratados como fonte canônica — endereço perene, autoria, método e histórico de revisões — o mercado publica menos enchimento “para ranquear” e mais tese, dados e bastidores. 

Isso não promete mais volume, promete melhor sinal: textos que influenciam decisões, viram referência em newsletters e aparecem citados nas próprias respostas de IA. 

Para quem lê, significa menos ruído e mais substância, com direitos (paywalls, termos de uso) respeitados.

Em termos simples, a web troca “confiança por aparência” por “confiança comprovável”. 

Se a resolução consolidar esse padrão, o usuário final ganha uma internet mais previsível: respostas com fonte, conteúdo que presta contas e plataformas que jogam sob regras claras. 

‍

E aí, o que você achou desse duelo de gigantes? 

A situação é um pouco complicada no momento, e as IAs tendem a vencer essas disputas, como venceram contra o New York Times, contra os usuários do Deviant Art e outras situações. 

Mais do que pensar no que as IAs vão fazer ou deixar de fazer, o ideal é arrumar a sua casa. 

E para isso, vale colocar em prática o primo robô do robots.txt — o llms.txt. 

Saiba mais no nosso próximo artigo sobre o tema: 

➡️ Entendendo melhor o llms.txt e o rankeamento nas IAs

André Bonanomi
André Bonanomi
CRO

Posts recentes

Nosso blog tem conteúdos semanais feitos por especialistas

Ver mais
Os reviews dos seus produtos ou serviços estão mais importantes com a IA
Marketing

Os reviews dos seus produtos ou serviços estão mais importantes com a IA

Todo mundo diz que faz gestão de reviews de produtos. Mas agora, com a IA, é preciso fazer de verdade. Saiba mais.
Ler mais
Como será (e está sendo) o marketing do futuro?
Marketing

Como será (e está sendo) o marketing do futuro?

O marketing do futuro é o resultado das ferramentas de marketing sendo desenvolvidas agora. E como ele será?
Ler mais
Marketing Digital: o guia completo para transformar estratégia em resultado real

Marketing Digital: o guia completo para transformar estratégia em resultado real

Descubra tudo sobre marketing digital: estratégias, canais, cases, ferramentas, métricas e muito mais. Um guia completo com a expertise da Adtail.
Ler mais
Ver todos

Torne seu marketing digital mais estratégico

Agende uma conversa e receba o contato da nossa equipe. Temos um time de especialistas em desenvolver soluções e entregar resultados.

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
E-mail de contato:
comercial@adtail.ag
HomeSobre nósCarreirasBlogCasesContato
Mídia PagaBusiness & StrategyOtimização SEOInbound MarketingSocial Media
Produção CriativaCRM MarketingOtimização CROData Intelligence
by
©
XXXX
Adtail Serviços de Publicidade Ltda. CNPJ 24.411.984/0001-61. Todos os direitos reservados.
Privacy PolicyTerms of Service