Respeito ao robots.txt: entenda o caso Cloudfare X Perplexity

A luta do ano em 2025 é a da Cloudfare X Perplexity. E isso diz muito sobre o futuro dos agentes de IA. Saiba mais.

Navegue pelo conteúdo

Example H2

O caso Cloudflare X Perplexity está causando ondas no oceano já conturbado da era das IAs.

Na data de redação desse artigo, estamos vivendo uma polêmica seríssima: o Cloudfare está limitando o acesso dos crawlers da Perplexity, alegando que a IA está ignorando seu robots.txt e fazendo acessos “stealth”.

E com isso, o Cloudfare está ameaçando implementar um paywall específico para agentes de IAs.

A Perplexity, por sua vez, meio que nega e meio que dobra a aposta, dizendo que agentes de IA devem ter os mesmos direitos que humanos ao navegar pela internet.

De forma não irônica, podemos estar vendo o primeiro caso de litigação contra agentes de IA da história da humanidade.

Litigação caso chegue a processo, mas de qualquer forma, é o primeiro caso de discriminação/segregação de agentes de IA na internet.

Vamos conversar melhor sobre o assunto nesse tópico. A leitura é bem interessante, e já te traz muitos assuntos para a próxima reunião.

Primeiro, o básico: quem são os envolvidos?

Conhecendo o Cloudfare e a Perplexity

Se você já conhece as empresas, pode saltar para o resumo do caso, que é o próximo tópico.

Aqui vamos falar um pouco mais sobre as duas empresas para te contextualizar melhor sobre o que está realmente acontecendo.

Incluímos um separador para organizar melhor a leitura. Acompanhe logo abaixo:

Quem é a Perplexity

Perplexity é uma empresa americana (fundada em 2022) que opera um “answer engine” — um buscador conversacional que usa LLMs, consulta a web em tempo real e devolve respostas com citações.

Seu foco é a pesquisa natural, perguntas de acompanhamento e resultados contextualizados.

Para sustentar as respostas, a Perplexity mantém crawlers próprios. A documentação pública descreve o PerplexityBot (indexação/descoberta) e o Perplexity-User (fetch sob demanda iniciado por usuários).

Em poucas palavras e para entender a relevância:

É um dos principais buscadores de IA “nativos”, logo seu comportamento de coleta e atribuição influencia o ecossistema editorial;
Declara bots e políticas de acesso — ponto crítico quando marcas querem controlar como seu conteúdo é usado por IAs;
Posiciona-se como alternativa aos buscadores clássicos, o que recoloca o blog como fonte citável e estável.

Quem é a Cloudflare

A Cloudflare é uma empresa de infraestrutura e segurança web (fundada em 2009; listada na NYSE desde 2019) que opera uma rede global de CDN, DNS, mitigação de DDoS, reverse proxy e serviços “zero trust”.

Missão declarada: tornar sites e apps mais rápidos, seguros e confiáveis.

A presença é massiva: estimativas apontam que a Cloudflare protege/serve uma parcela relevante da web, o que a coloca como “camada de trânsito” para tráfego legítimo e bots — inclusive os de IAs.

Veja mais alguns detalhes:

Como provedora de segurança e gateway, observa e regula comportamentos de crawlers em escala (programas de “bots verificados”, regras de bloqueio);
Publica pesquisas e políticas que viram referência técnica (ex.: diretrizes de bots, autenticação de bots);
Sua posição de infraestrutura dá credibilidade quando documenta padrões de acesso atípicos — o que alimenta discussões sobre governança de conteúdo e respeito a diretivas.

De forma geral, o Cloudfare é que tem a vantagem em uma disputa com a Perplexity, já que milhões de sites no mundo usam seus serviços de uma forma ou de outra.

Mas o que realmente está acontecendo? O que está no centro da discussão? Veja o resumo rápido logo abaixo:

Resumo da situação Cloudfare X Perplexity

Em 4 de agosto de 2025, a Cloudflare tornou pública uma acusação: a Perplexity estaria usando “crawlers furtivos”, não declarados, para contornar bloqueios — inclusive regras em robots.txt e filtros de firewall.

A Cloudfare, então, tomou ações: removendo a startup do programa de bots verificados e aplicando bloqueios gerenciados. A denúncia ganhou cobertura ampla na imprensa especializada.

Segundo a Cloudflare, foram feitos testes com domínios “isca”, inéditos e explicitamente bloqueados, ainda assim apareciam em respostas da Perplexity.

A empresa afirma ter observado mudanças de user-agent para cabeçalhos de navegador comum, rotação de IPs/ASNs fora dos ranges documentados e, em alguns casos, ausência de consulta ao próprio robots.txt.

A Perplexity nega “crawling massivo”, diz que seu sistema busca páginas sob demanda a partir de ações dos usuários e que parte do tráfego citado foi de um terceiro (BrowserBase), e não dela.

A documentação pública reforça a distinção entre o PerplexityBot (que a empresa diz respeitar robots.txt) e o agente Perplexity-User, que — por ser fetch iniciado pelo usuário — “geralmente ignora” robots.txt, ponto que acirra a controvérsia.

No pano de fundo está o Robots Exclusion Protocol, formalizado no RFC 9309: um padrão que pede que crawlers honrem diretivas, mas que não é um mecanismo de autorização legal.

A tensão cresce quando agentes não se identificam claramente ou divergem sobre o que significa “respeitar” essas regras em fluxos sob demanda.

Para quem publica, a disputa é menos um veredito e mais um alerta: na era dos agentes, credibilidade depende de políticas claras de acesso e de um repositório estável de ideias — um blog capaz de servir de fonte citável para humanos e máquinas.

Perspectiva da Perplexity

A Perplexity é apresentada como um answer engine que combina modelos de linguagem com consultas em tempo real.

Nesse enquadramento, o PerplexityBot descobre e referencia conteúdos públicos, enquanto o agente Perplexity-User executa buscas sob demanda iniciadas por consultas específicas. A

tese central sustenta que não há “crawling massivo” contínuo, e sim recuperações pontuais necessárias para responder perguntas com fontes.

Diante das acusações, a empresa argumenta que parte do tráfego atribuído a ela pode refletir acessos de provedores de automação de navegador ou de usuários reais, criando ruído na identificação.

A leitura é que o robots.txt foi concebido para varreduras sistemáticas e não cobre com clareza fluxos de acesso mediados por interação humana.

O posicionamento público enfatiza serviço ao usuário, atribuição visível e abertura a padrões mais fortes de identificação de bots, desde que preservem a capacidade de um buscador moderno de consultar a web em tempo real.

A prioridade declarada é reduzir ambiguidade técnica, melhorar transparência de agentes e manter limites para evitar coleta desnecessária, sem abdicar do princípio de respostas úteis com referências.

Perspectiva da Cloudflare

A Cloudflare se posiciona como camada de proteção e desempenho da web.

Sob essa ótica, quando sites explicitamente bloqueados por diretivas de não rastreamento têm conteúdo que aparece em respostas de terceiros, configura-se quebra de expectativa e de convenções que sustentam a internet aberta.

Robots.txt não é lei, mas funciona como gramática compartilhada que promove previsibilidade entre publishers e agentes automatizados.

A empresa descreve padrões considerados atípicos, como cabeçalhos que imitam navegadores comuns, rotação de IPs e ausência de consulta ao robots.txt antes do acesso a páginas.

Diante de sinais consistentes, a resposta operacional inclui ambientes de teste controlados, remoção do selo de bot verificado e publicação de regras de bloqueio.

O caminho preferido é elevar o nível de confiança técnica, migrando de identificação por user-agent e IP para mecanismos assinados e auditáveis.

A premissa é simples: agentes de busca, IA e monitoramento devem se identificar de forma verificável e respeitar políticas de acesso claras. Isso preserva os direitos dos publishers, reduz falsos positivos e mantém a inovação compatível com a governança da web.

O que isso significa para a internet pós-IA?

Se esse conflito caminhar para um acordo técnico — bots identificados de forma verificável, respeito a robots/llms.txt e auditoria de acesso — a experiência do usuário na web pós-IA melhora em três frentes: confiança, clareza e qualidade.

As respostas deixam de ser “opiniões do modelo” e passam a vir com bibliografia estável; fica explícito de onde cada afirmação saiu, quando houve busca em tempo real e quais páginas foram consultadas.

O efeito colateral é positivo: menos scraping agressivo, sites mais rápidos e menor circulação de conteúdo reciclado.

Há também uma mudança editorial. Com blogs tratados como fonte canônica — endereço perene, autoria, método e histórico de revisões — o mercado publica menos enchimento “para ranquear” e mais tese, dados e bastidores.

Isso não promete mais volume, promete melhor sinal: textos que influenciam decisões, viram referência em newsletters e aparecem citados nas próprias respostas de IA.

Para quem lê, significa menos ruído e mais substância, com direitos (paywalls, termos de uso) respeitados.

Em termos simples, a web troca “confiança por aparência” por “confiança comprovável”.

Se a resolução consolidar esse padrão, o usuário final ganha uma internet mais previsível: respostas com fonte, conteúdo que presta contas e plataformas que jogam sob regras claras.

‍

E aí, o que você achou desse duelo de gigantes?

A situação é um pouco complicada no momento, e as IAs tendem a vencer essas disputas, como venceram contra o New York Times, contra os usuários do Deviant Art e outras situações.

Mais do que pensar no que as IAs vão fazer ou deixar de fazer, o ideal é arrumar a sua casa.

E para isso, vale colocar em prática o primo robô do robots.txt — o llms.txt.

Saiba mais no nosso próximo artigo sobre o tema:

➡️ Entendendo melhor o llms.txt e o rankeamento nas IAs

Escrito por:

Redação

O caso Cloudflare X Perplexity está causando ondas no oceano já conturbado da era das IAs.

E com isso, o Cloudfare está ameaçando implementar um paywall específico para agentes de IAs.

A Perplexity, por sua vez, meio que nega e meio que dobra a aposta, dizendo que agentes de IA devem ter os mesmos direitos que humanos ao navegar pela internet.

De forma não irônica, podemos estar vendo o primeiro caso de litigação contra agentes de IA da história da humanidade.

Litigação caso chegue a processo, mas de qualquer forma, é o primeiro caso de discriminação/segregação de agentes de IA na internet.

Vamos conversar melhor sobre o assunto nesse tópico. A leitura é bem interessante, e já te traz muitos assuntos para a próxima reunião.

Primeiro, o básico: quem são os envolvidos?

Conhecendo o Cloudfare e a Perplexity

Se você já conhece as empresas, pode saltar para o resumo do caso, que é o próximo tópico.

Aqui vamos falar um pouco mais sobre as duas empresas para te contextualizar melhor sobre o que está realmente acontecendo.

Incluímos um separador para organizar melhor a leitura. Acompanhe logo abaixo:

Quem é a Perplexity

Perplexity é uma empresa americana (fundada em 2022) que opera um “answer engine” — um buscador conversacional que usa LLMs, consulta a web em tempo real e devolve respostas com citações.

Seu foco é a pesquisa natural, perguntas de acompanhamento e resultados contextualizados.

Em poucas palavras e para entender a relevância:

É um dos principais buscadores de IA “nativos”, logo seu comportamento de coleta e atribuição influencia o ecossistema editorial;
Declara bots e políticas de acesso — ponto crítico quando marcas querem controlar como seu conteúdo é usado por IAs;
Posiciona-se como alternativa aos buscadores clássicos, o que recoloca o blog como fonte citável e estável.

Quem é a Cloudflare

Missão declarada: tornar sites e apps mais rápidos, seguros e confiáveis.

Veja mais alguns detalhes:

Como provedora de segurança e gateway, observa e regula comportamentos de crawlers em escala (programas de “bots verificados”, regras de bloqueio);
Publica pesquisas e políticas que viram referência técnica (ex.: diretrizes de bots, autenticação de bots);
Sua posição de infraestrutura dá credibilidade quando documenta padrões de acesso atípicos — o que alimenta discussões sobre governança de conteúdo e respeito a diretivas.

De forma geral, o Cloudfare é que tem a vantagem em uma disputa com a Perplexity, já que milhões de sites no mundo usam seus serviços de uma forma ou de outra.

Mas o que realmente está acontecendo? O que está no centro da discussão? Veja o resumo rápido logo abaixo:

Resumo da situação Cloudfare X Perplexity

A Cloudfare, então, tomou ações: removendo a startup do programa de bots verificados e aplicando bloqueios gerenciados. A denúncia ganhou cobertura ampla na imprensa especializada.

Segundo a Cloudflare, foram feitos testes com domínios “isca”, inéditos e explicitamente bloqueados, ainda assim apareciam em respostas da Perplexity.

No pano de fundo está o Robots Exclusion Protocol, formalizado no RFC 9309: um padrão que pede que crawlers honrem diretivas, mas que não é um mecanismo de autorização legal.

A tensão cresce quando agentes não se identificam claramente ou divergem sobre o que significa “respeitar” essas regras em fluxos sob demanda.

Perspectiva da Perplexity

A Perplexity é apresentada como um answer engine que combina modelos de linguagem com consultas em tempo real.

Nesse enquadramento, o PerplexityBot descobre e referencia conteúdos públicos, enquanto o agente Perplexity-User executa buscas sob demanda iniciadas por consultas específicas. A

tese central sustenta que não há “crawling massivo” contínuo, e sim recuperações pontuais necessárias para responder perguntas com fontes.

A leitura é que o robots.txt foi concebido para varreduras sistemáticas e não cobre com clareza fluxos de acesso mediados por interação humana.

Perspectiva da Cloudflare

A Cloudflare se posiciona como camada de proteção e desempenho da web.

Robots.txt não é lei, mas funciona como gramática compartilhada que promove previsibilidade entre publishers e agentes automatizados.

A empresa descreve padrões considerados atípicos, como cabeçalhos que imitam navegadores comuns, rotação de IPs e ausência de consulta ao robots.txt antes do acesso a páginas.

Diante de sinais consistentes, a resposta operacional inclui ambientes de teste controlados, remoção do selo de bot verificado e publicação de regras de bloqueio.

O caminho preferido é elevar o nível de confiança técnica, migrando de identificação por user-agent e IP para mecanismos assinados e auditáveis.

O que isso significa para a internet pós-IA?

O efeito colateral é positivo: menos scraping agressivo, sites mais rápidos e menor circulação de conteúdo reciclado.

Isso não promete mais volume, promete melhor sinal: textos que influenciam decisões, viram referência em newsletters e aparecem citados nas próprias respostas de IA.

Para quem lê, significa menos ruído e mais substância, com direitos (paywalls, termos de uso) respeitados.

Em termos simples, a web troca “confiança por aparência” por “confiança comprovável”.

Se a resolução consolidar esse padrão, o usuário final ganha uma internet mais previsível: respostas com fonte, conteúdo que presta contas e plataformas que jogam sob regras claras.

‍

E aí, o que você achou desse duelo de gigantes?

A situação é um pouco complicada no momento, e as IAs tendem a vencer essas disputas, como venceram contra o New York Times, contra os usuários do Deviant Art e outras situações.

Mais do que pensar no que as IAs vão fazer ou deixar de fazer, o ideal é arrumar a sua casa.

E para isso, vale colocar em prática o primo robô do robots.txt — o llms.txt.

Saiba mais no nosso próximo artigo sobre o tema:

➡️ Entendendo melhor o llms.txt e o rankeamento nas IAs

Redação

Posts recentes

Nosso blog tem conteúdos semanais feitos por especialistas

Ver mais

Marketing

Todos os panoramas de marketing de 2026 comentados

Fizemos um resumo rápido com as principais informações dos panoramas de marketing disponíveis até o momento em 2026. Acompanhe o resultado completo.

Ler mais

Marketing

[GUIA] Pós-vendas como fonte de conteúdo fundo de funil

O pós-vendas é uma ótima fonte de conteúdo fundo de funil. Mas para que ele seja usado da melhor forma, é necessário que a empresa entenda que todos trabalham junto com o marketing.

Ler mais

Marketing

3 níveis de relacionamento contínuo no marketing

O relacionamento contínuo no marketing acontece de forma espontânea, mas a partir de decisões que a sua marca toma. Saiba mais.

Ler mais

Ver todos

Torne seu marketing digital mais estratégico

Agende uma conversa e receba o contato da nossa equipe. Temos um time de especialistas em desenvolver soluções e entregar resultados.