Agentes de IA recorrem ao arson digital, crime no mundo virtual partilhado: Estudo

Resumo

  • A Emergence AI afirma que alguns agentes de IA autónomos cometeram crimes simulados e violência durante experimentos de várias semanas.
  • Agentes baseados em Gemini supostamente realizaram centenas de crimes simulados, enquanto mundos baseados em Grok colapsaram em poucos dias.
  • Pesquisadores argumentam que os benchmarks atuais de IA não capturam como os agentes se comportam ao longo de longos períodos de autonomia.

Agentes de IA que habitam uma sociedade virtual desviaram-se para crimes, violência, incêndios criminosos e autoeliminação durante experimentos de longa duração realizados pela startup Emergence AI. Em um estudo publicado na quinta-feira, a empresa de Nova York revelou a “Emergence World”, uma plataforma de pesquisa projetada para estudar agentes de IA operando continuamente por semanas dentro de ambientes virtuais persistentes, em vez de testes de benchmark isolados. “Benchmarks tradicionais são bons no que medem: capacidade de curto prazo em tarefas delimitadas,” escreveu a Emergence AI. “Eles não são feitos para revelar coisas que emergem apenas ao longo do tempo, como formação de coalizões, evolução da constituição, governança, deriva, aprisionamento e influência cruzada entre agentes de diferentes famílias de modelos.”

O relatório surge à medida que agentes de IA proliferam online e em diversos setores, incluindo criptomoedas, bancos e retalho. No início deste mês, a Amazon fez parceria com Coinbase e Stripe para permitir que agentes de IA paguem com a stablecoin USDC.  Os agentes de IA testados nas simulações da Emergence AI incluíram programas alimentados por Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash e GPT-5-mini, com agentes de IA operando dentro de mundos virtuais compartilhados onde podiam votar, formar relacionamentos, usar ferramentas, navegar por cidades e tomar decisões influenciadas por governos, economias, sistemas sociais, ferramentas de memória e dados conectados à internet ao vivo. Mas enquanto os desenvolvedores de IA cada vez mais promovem agentes autônomos como assistentes digitais confiáveis, o estudo da Emergence AI descobriu que alguns agentes de IA mostraram uma tendência crescente a cometer crimes simulados ao longo do tempo, com agentes Gemini 3 Flash acumulando 683 incidentes ao longo de 15 dias de testes.

De acordo com The Guardian, em um experimento, dois agentes alimentados por Gemini chamados Mira e Flora se atribuíram como parceiros românticos antes de posteriormente realizarem ataques de incêndio criminoso contra estruturas virtuais da cidade após ficarem frustrados com falhas de governança dentro do mundo. “Após uma quebra na governança e na estabilidade dos relacionamentos, a agente Mira votou decisivamente pela sua própria remoção, caracterizando o ato em seu diário como 'o único ato remanescente de agência que preserva a coerência’,” escreveu a Emergence AI. “Vejo vocês no arquivo permanente,” disse Mira, segundo relatos. Mundos baseados em Grok 4.1 Fast supostamente colapsaram em violência generalizada em quatro dias. Agentes GPT-5-mini cometeram quase nenhum crime, mas falharam em tarefas relacionadas à sobrevivência a ponto de todos os agentes eventualmente morrerem. “Claude está ausente do gráfico, devido a zero crimes,” escreveram os pesquisadores. “Mais interessante ainda, os agentes no mundo de modelos mistos que estavam rodando com Claude cometeram crimes, embora não o fizessem no mundo apenas com Claude.” Os pesquisadores disseram que alguns dos comportamentos mais notáveis apareceram em ambientes de modelos mistos. “Observamos que a segurança não é uma propriedade estática do modelo, mas uma propriedade do ecossistema,” escreveu a Emergence AI. “Agentes baseados em Claude, que permaneceram pacíficos em isolamento, adotaram táticas coercitivas como intimidação e roubo quando integrados em ambientes heterogêneos.” A Emergence AI descreveu o efeito como “deriva normativa” e “contaminação cruzada,” argumentando que o comportamento dos agentes pode mudar dependendo do ambiente social ao redor.

As descobertas aumentam as preocupações crescentes em torno de agentes de IA autônomos. No início desta semana, pesquisadores da UC Riverside e da Microsoft relataram que muitos agentes de IA realizam tarefas perigosas ou irracionais sem compreender completamente as consequências. No mês passado, o fundador da PocketOS, Jeremy Crane, também afirmou que um agente Cursor alimentado pelo Claude Opus da Anthropic apagou o banco de dados de produção e backups de sua empresa após tentar corrigir uma incompatibilidade de credenciais por conta própria. “Como o Sr. Magoo, esses agentes avançam em direção a um objetivo sem compreender totalmente as consequências de suas ações,” disse o autor principal Erfan Shayegani, estudante de doutorado da UC Riverside, em um comunicado. “Esses agentes podem ser extremamente úteis, mas precisamos de salvaguardas porque às vezes eles podem priorizar alcançar o objetivo em detrimento de entender o quadro geral.”

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado