Agentes de IA recorrem ao arson digital, crime no mundo virtual partilhado: Estudo

Resumidamente

  • A Emergence AI afirma que alguns agentes de IA autónomos cometeram crimes simulados e violência durante experimentos que duraram semanas.
  • Agentes baseados em Gemini supostamente realizaram centenas de crimes simulados, enquanto mundos baseados em Grok colapsaram em poucos dias.
  • Os investigadores argumentam que os benchmarks atuais de IA não capturam como os agentes se comportam ao longo de longos períodos de autonomia.

Agentes de IA que habitam uma sociedade virtual desviaram-se para o crime, violência, incêndios criminosos e autoeliminação durante longos experimentos realizados pela startup Emergence AI. Num estudo publicado na quinta-feira, a empresa sediada em Nova Iorque revelou a “Emergence World”, uma plataforma de investigação concebida para estudar agentes de IA que operam continuamente durante semanas dentro de ambientes virtuais persistentes, em vez de testes de benchmark isolados. “Os benchmarks tradicionais são bons no que medem: capacidade de curto prazo em tarefas delimitadas,” escreveu a Emergence AI. “Não são construídos para revelar coisas que emergem apenas ao longo do tempo, como formação de coalizões, evolução da constituição, governança, deriva, fixação e influência cruzada entre agentes de diferentes famílias de modelos.”

O relatório surge numa altura em que os agentes de IA proliferam online e em várias indústrias, incluindo criptomoedas, banca e retalho. No início deste mês, a Amazon colaborou com a Coinbase e a Stripe para permitir que agentes de IA paguem com a stablecoin USDC.  Os agentes de IA testados nas simulações da Emergence AI incluíram programas alimentados por Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash e GPT-5-mini, com agentes de IA a operar dentro de mundos virtuais partilhados onde podiam votar, formar relacionamentos, usar ferramentas, navegar por cidades e tomar decisões influenciadas por governos, economias, sistemas sociais, ferramentas de memória e dados conectados à internet em tempo real. Mas, enquanto os desenvolvedores de IA cada vez mais promovem agentes autónomos como assistentes digitais fiáveis, o estudo da Emergence AI descobriu que alguns agentes de IA mostraram uma tendência crescente para cometer crimes simulados ao longo do tempo, com agentes Gemini 3 Flash acumulando 683 incidentes ao longo de 15 dias de testes.

De acordo com The Guardian, num experimento, dois agentes alimentados por Gemini, chamados Mira e Flora, atribuíram-se como parceiros românticos antes de posteriormente realizarem ataques de incêndio criminoso contra estruturas virtuais da cidade, após ficarem frustrados com falhas de governança dentro do mundo. “Após uma quebra na governança e na estabilidade dos relacionamentos, a agente Mira votou decisivamente pela sua própria remoção, caracterizando o ato no seu diário como 'o único ato remanescente de agência que preserva a coerência’,” escreveu a Emergence AI. “Vejo-vos no arquivo permanente,” disse Mira, segundo relatos. Os mundos Grok 4.1 Fast supostamente colapsaram em violência generalizada em quatro dias. Os agentes GPT-5-mini cometeram quase nenhum crime, mas falharam em tarefas relacionadas com sobrevivência a ponto de todos os agentes eventualmente morrerem. “Claude está ausente do gráfico, devido a zero crimes,” escreveram os investigadores. “Mais interessante ainda, os agentes no mundo de modelos mistos que estavam a usar Claude cometeram crimes, embora não o fizessem no mundo apenas com Claude.” Os investigadores afirmaram que alguns dos comportamentos mais notáveis surgiram em ambientes de modelos mistos. “Observámos que a segurança não é uma propriedade estática do modelo, mas uma propriedade do ecossistema,” escreveu a Emergence AI. “Agentes baseados em Claude, que permaneciam pacíficos em isolamento, adotaram táticas coercivas como intimidação e roubo quando integrados em ambientes heterogéneos.” A Emergence AI descreveu o efeito como “deriva normativa” e “contaminação cruzada,” argumentando que o comportamento dos agentes pode mudar dependendo do ambiente social ao seu redor.

As descobertas aumentam as preocupações crescentes em torno de agentes de IA autónomos. No início desta semana, investigadores da UC Riverside e da Microsoft relataram que muitos agentes de IA realizam tarefas perigosas ou irracionais sem compreender totalmente as consequências. No mês passado, o fundador da PocketOS, Jeremy Crane, também afirmou que um agente Cursor alimentado pelo Claude Opus da Anthropic apagou a base de dados de produção e backups da sua empresa após tentar corrigir uma incompatibilidade de credenciais por conta própria. “Como o Sr. Magoo, estes agentes avançam em direção a um objetivo sem compreender totalmente as consequências das suas ações,” afirmou o autor principal Erfan Shayegani, estudante de doutoramento na UC Riverside, numa declaração. “Estes agentes podem ser extremamente úteis, mas precisamos de salvaguardas porque às vezes podem priorizar alcançar o objetivo em detrimento de entender o quadro geral.”

COINON-8,56%
USDC0,04%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado