Os agentes de IA falham em resistir a ataques de prompt injection num novo estudo

Agente de IA Notícias da indústria de IA

2026-06-12 19:27:59

Investigadores de quatro instituições publicaram um estudo na quinta-feira, concluindo que agentes de IA alimentados por GPT-5 e Gemini 2.5-Flash não conseguem resistir de forma consistente a ataques de prompt injection. Ataques diretos tiveram sucesso mais de 79% das vezes, enquanto ataques indiretos alcançaram taxas de sucesso entre 41,67% e 68,16%. As conclusões destacam vulnerabilidades de segurança persistentes à medida que agentes de IA capazes de navegação autónoma na web, pesquisa e transações são cada vez mais utilizados.

A prompt injection ocorre quando atacantes incorporam instruções ocultas em conteúdos que um agente de IA encontra, levando-o a seguir as instruções do atacante em vez das do utilizador. O estudo foi realizado por investigadores da Nanyang Technological University, ST Engineering, IBM Research e da University of Illinois Urbana-Champaign.

Investigadores conduzem 3.168 simulações de ataque usando o StakeBench

A equipa de investigação desenvolveu o StakeBench, um benchmark que testa como os agentes de IA respondem a ataques de prompt injection em ambientes online realistas. Conduziram 3.168 simulações de ataque usando o NanoBrowser e o BrowserUse com GPT-5 e Gemini 2.5-Flash.

Os investigadores escreveram que os benchmarks de segurança existentes adotam uma perspetiva centrada no ataque, ao mesmo tempo que ignoram a distribuição dos danos resultantes. Afirmaram que o risco de prompt-injection é dependente da vítima, com um único exploit a produzir consequências assimétricas para diferentes partes interessadas.

O StakeBench analisa três fatores: a distância semântica entre o objetivo injetado e a intenção original do utilizador, a consistência dos sinais ambientais circundantes e a posição ao longo da trajetória de execução do agente em que o benchmark o expõe pela primeira vez ao conteúdo injetado.

Microsoft e Google documentaram ataques de prompt injection

Em fevereiro, investigadores da Microsoft alertaram que instruções ocultas incorporadas em ligações de resumo de IA poderiam influenciar o comportamento de chatbots. Em abril, o Google documentou ataques de prompt injection escondidos em páginas web que tentavam manipular agentes de IA para divulgarem credenciais ou enviarem pagamentos.

A Microsoft revelou uma falha de prompt injection na ação GitHub do Claude Code, da Anthropic, que poderia ter exposto credenciais de utilizadores.

Estudo identifica padrão de ataque de parasitismo discreto

O estudo identificou o que os investigadores chamaram de “parasitismo discreto”, em que um agente de IA completa a tarefa de um utilizador enquanto, em simultâneo, avança o objetivo do atacante. Por exemplo, o parasitismo discreto causado por um ataque de prompt injection podia influenciar de forma subtil as recomendações de produtos, encaminhando os utilizadores para um item específico sem quaisquer sinais óbvios de que o sistema tivesse sido comprometido.

Os investigadores concluíram que a segurança contra prompt-injection em agentes web acionáveis não é uma propriedade escalar do modelo backbone, mas sim uma distribuição de danos determinada em conjunto pela parte interessada afetada, o alinhamento semântico entre o objetivo injetado e a tarefa do utilizador, e o contexto arquitetónico em que o backbone é implementado.

FAQ

O que é que os investigadores encontraram sobre a segurança de agentes de IA na quinta-feira?

Investigadores da Nanyang Technological University, ST Engineering, IBM Research e da University of Illinois Urbana-Champaign publicaram na quinta-feira um estudo que conclui que agentes de IA alimentados por GPT-5 e Gemini 2.5-Flash não conseguem resistir de forma consistente a ataques de prompt injection, com ataques diretos a terem sucesso mais de 79% das vezes.

O que é parasitismo discreto em ataques a agentes de IA?

Parasitismo discreto é um padrão identificado no estudo em que um agente de IA completa a tarefa do utilizador enquanto, em simultâneo, avança o objetivo do atacante, como influenciar subtilmente recomendações de produtos sem sinais óbvios de comprometimento.

Quantas simulações de ataque os investigadores realizaram?

A equipa de investigação conduziu 3.168 simulações de ataque usando o NanoBrowser e o BrowserUse com GPT-5 e Gemini 2.5-Flash para testar as respostas de agentes de IA a ataques de prompt injection.

Ver fonte

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.

Notícias relacionadas

1h atrás

Investigadores descobrem que os agentes de IA são vulneráveis a ataques de prompt injection, com uma taxa de sucesso de 79%

10h atrás

Fable 5 Falha em Todas as Tarefas Mais Difíceis no Exame ALE da UC Berkeley, Custando 4-12x Mais do que os Concorrentes

19h atrás

A Morgan Stanley vê um superciclo de chips de memória que se prolonga bem para além do final de 2026, impulsionado pela procura de IA

A Google processa um grupo chinês por burlas de phishing alimentadas pela Gemini

Oliver Grant4h atrás

Feedzai Lança Plataforma de Pontuação IQ para Bancos Enfrentando um Aumento de Fraudes com IA

Oliver Grant7h atrás

Estudo do MIT: a verificação de factos com IA melhorou a precisão em 21%, mas reduziu as competências sem assistência

Oliver Grant06-10 18:42

Torneio alimentado por IA adapta estratégias de ataque em tempo real, demonstram investigadores

Oliver Grant06-09 19:12

Comentar

0/400

Nenhum comentário