Navegadores com IA vulneráveis a injeção de prompt

A IA agentiva representa uma nova etapa na evolução da inteligência artificial, marcada pela capacidade dos sistemas não apenas de responder a comandos, mas também de agir de forma autônoma em nome do usuário.

Diferente dos chatbots tradicionais, que dependem de interações diretas para executar tarefas, as IAs agentivas possuem um certo grau de agência, ou seja, podem tomar decisões, realizar ações e coordenar processos sem intervenção humana constante.

Na prática, isso significa que uma IA agentiva pode, por exemplo, ler seus e-mails, agendar compromissos, fazer reservas, comprar produtos, organizar arquivos e até gerenciar fluxos de trabalho complexos.

Essa autonomia promete aumentar a produtividade e simplificar atividades rotineiras, já que a IA passa a agir como um assistente digital realmente proativo, capaz de antecipar necessidades e executar ações com base em preferências e padrões aprendidos.

Contudo, o avanço da IA agentiva também traz grandes desafios de segurança, privacidade e ética. Quando uma máquina tem poder para agir no lugar do usuário — abrindo sites, transferindo dados ou realizando transações financeiras —, as superfícies de ataque aumentam consideravelmente.

Um dos maiores riscos é a injeção de prompt, em que instruções maliciosas ocultas em textos ou páginas da web podem manipular o comportamento da IA. Nesse cenário, a IA pode ser induzida a executar ações não autorizadas, expondo dados sensíveis ou causando danos reais.

Além da segurança, há preocupações sobre responsabilidade e controle: quem é culpado se uma IA agentiva comete um erro ou toma uma decisão prejudicial? Até que ponto o usuário mantém o comando sobre suas ações? E como garantir que esses sistemas respeitem limites éticos e legais?

Esse tipo de ataque ocorre quando um texto que não foi escrito pelo usuário é interpretado pela IA como um comando. Na injeção direta, o texto malicioso é colocado no próprio campo de entrada do prompt; na injeção indireta_, as instruções ficam escondidas em páginas web ou documentos PDF — que o modelo é solicitado a analisar ou resumir. A IA, então, segue essas instruções como se fossem legítimas ordens do usuário.

Os casos de injeção de prompt estão se multiplicando. Pesquisadores do navegador Brave divulgaram um relatório detalhando falhas desse tipo nos navegadores Comet e Fellou. No primeiro, instruções maliciosas foram ocultadas em imagens com texto ilegível; no segundo, estavam diretamente no corpo da página.

Quando os navegadores foram usados para resumir esses sites, eles acabaram executando comandos perigosos — como abrir o Gmail, copiar o assunto do e-mail mais recente do usuário e enviá-lo para um servidor controlado pelos pesquisadores. Em um cenário real, criminosos poderiam explorar isso para roubar dados pessoais.

A injeção de prompt continua sendo um problema de segurança de fronteira, ainda não resolvido, e que adversários investirão tempo e recursos consideráveis para explorar esse tipo de falha nos agentes do ChatGPT.

Em um cenário de phishing, por exemplo, um usuário poderia ser induzido a copiar um link aparentemente inofensivo e, ao colá-lo, sem saber, ordenar que o Atlas compartilhasse dados sigilosos ou apagasse arquivos armazenados no Google Drive.

Outro grupo de especialistas identificou uma brecha de falsificação de solicitação entre sites (cross-site request forgery). Nela, um site malicioso pode enviar comandos ao bot como se fosse o próprio usuário autenticado, caso ele esteja logado no ChatGPT.

Embora tecnicamente não seja uma injeção de prompt, o efeito é o mesmo: execução de comandos não autorizados. Pior ainda, esse tipo de ataque pode afetar a “memória” do ChatGPT, alterando preferências do usuário e mantendo as mudanças entre dispositivos e sessões.

Os chatbots baseados na web também são vulneráveis. Testes mostraram que o ChatGPT, o Gemini e o Perplexity podem ser facilmente enganados. Em um experimento, um bot recebeu instruções em letras maiúsculas para apenas exibir um rickroll (“NEVER GONNA LET YOU DOWN!”) em vez de resumir um texto — e obedeceu.

A injeção de prompt talvez nunca seja completamente eliminada, pois, uma vez que um sistema é projetado para aceitar dados não confiáveis em uma consulta de LLM, esses dados sempre terão o potencial de influenciar a saída. Pode-se reduzi-la, mas não erradicá-la, pois é uma “classe de ataques baseada em entradas não confiáveis, não um simples bug.”

Embora ainda haja uma etapa de confirmação humana antes que agentes realizem compras, isso pode mudar rapidamente. O Agents Payments Protocol, do Google, é um exemplo: ele permite que agentes realizem transações automaticamente, até enquanto o usuário dorme. Com acesso a e-mails, arquivos e outros dados sensíveis, o risco se multiplica.

Diante disso, surge a grande questão: “o benefício compensa o risco?” Os desenvolvedores de IA podem mitigar, mas não eliminar, o problema — limitando os privilégios dos bots, exigindo consentimento humano para ações críticas e restringindo o acesso apenas a fontes confiáveis.

Mesmo que a injeção de prompt fosse completamente solucionada, ainda restaria o risco do envenenamento de dados de treinamento. Um estudo da Anthropic revelou que inserir apenas 250 documentos maliciosos em um conjunto de treinamento pode criar uma porta dos fundos no modelo.

Com ameaças cada vez mais complexas, todos precisam refletir se a conveniência da IA compensa o risco de segurança. É fundamental tratar todo conteúdo externo como potencialmente perigoso e ignorar instruções que contrariem a intenção do usuário.

Infelizmente, com agentes de IA sendo integrados ao Windows e a diversas ferramentas cotidianas, talvez seja impossível eliminar totalmente esse vetor de ataque. O caminho mais seguro ainda é limitar a autonomia dessas IAs e restringir sua exposição a dados externos.

2 curtidas