Investigadores de quatro instituições publicaram um estudo na quinta-feira, concluindo que agentes de IA alimentados por GPT-5 e Gemini 2.5-Flash não conseguem resistir de forma consistente a ataques de prompt injection. Ataques diretos tiveram sucesso mais de 79% das vezes, enquanto ataques indiretos alcançaram taxas de sucesso entre 41,67% e 68,16%. As conclusões destacam vulnerabilidades de segurança persistentes à medida que agentes de IA capazes de navegação autónoma na web, pesquisa e transações são cada vez mais utilizados.
A prompt injection ocorre quando atacantes incorporam instruções ocultas em conteúdos que um agente de IA encontra, levando-o a seguir as instruções do atacante em vez das do utilizador. O estudo foi realizado por investigadores da Nanyang Technological University, ST Engineering, IBM Research e da University of Illinois Urbana-Champaign.
Investigadores conduzem 3.168 simulações de ataque usando o StakeBench
A equipa de investigação desenvolveu o StakeBench, um benchmark que testa como os agentes de IA respondem a ataques de prompt injection em ambientes online realistas. Conduziram 3.168 simulações de ataque usando o NanoBrowser e o BrowserUse com GPT-5 e Gemini 2.5-Flash.
Os investigadores escreveram que os benchmarks de segurança existentes adotam uma perspetiva centrada no ataque, ao mesmo tempo que ignoram a distribuição dos danos resultantes. Afirmaram que o risco de prompt-injection é dependente da vítima, com um único exploit a produzir consequências assimétricas para diferentes partes interessadas.
O StakeBench analisa três fatores: a distância semântica entre o objetivo injetado e a intenção original do utilizador, a consistência dos sinais ambientais circundantes e a posição ao longo da trajetória de execução do agente em que o benchmark o expõe pela primeira vez ao conteúdo injetado.
Microsoft e Google documentaram ataques de prompt injection
Em fevereiro, investigadores da Microsoft alertaram que instruções ocultas incorporadas em ligações de resumo de IA poderiam influenciar o comportamento de chatbots. Em abril, o Google documentou ataques de prompt injection escondidos em páginas web que tentavam manipular agentes de IA para divulgarem credenciais ou enviarem pagamentos.
A Microsoft revelou uma falha de prompt injection na ação GitHub do Claude Code, da Anthropic, que poderia ter exposto credenciais de utilizadores.
Estudo identifica padrão de ataque de parasitismo discreto
O estudo identificou o que os investigadores chamaram de “parasitismo discreto”, em que um agente de IA completa a tarefa de um utilizador enquanto, em simultâneo, avança o objetivo do atacante. Por exemplo, o parasitismo discreto causado por um ataque de prompt injection podia influenciar de forma subtil as recomendações de produtos, encaminhando os utilizadores para um item específico sem quaisquer sinais óbvios de que o sistema tivesse sido comprometido.
Os investigadores concluíram que a segurança contra prompt-injection em agentes web acionáveis não é uma propriedade escalar do modelo backbone, mas sim uma distribuição de danos determinada em conjunto pela parte interessada afetada, o alinhamento semântico entre o objetivo injetado e a tarefa do utilizador, e o contexto arquitetónico em que o backbone é implementado.
FAQ
O que é que os investigadores encontraram sobre a segurança de agentes de IA na quinta-feira?
Investigadores da Nanyang Technological University, ST Engineering, IBM Research e da University of Illinois Urbana-Champaign publicaram na quinta-feira um estudo que conclui que agentes de IA alimentados por GPT-5 e Gemini 2.5-Flash não conseguem resistir de forma consistente a ataques de prompt injection, com ataques diretos a terem sucesso mais de 79% das vezes.
O que é parasitismo discreto em ataques a agentes de IA?
Parasitismo discreto é um padrão identificado no estudo em que um agente de IA completa a tarefa do utilizador enquanto, em simultâneo, avança o objetivo do atacante, como influenciar subtilmente recomendações de produtos sem sinais óbvios de comprometimento.
Quantas simulações de ataque os investigadores realizaram?
A equipa de investigação conduziu 3.168 simulações de ataque usando o NanoBrowser e o BrowserUse com GPT-5 e Gemini 2.5-Flash para testar as respostas de agentes de IA a ataques de prompt injection.