Agentes de IA podem realizar tarefas perigosas sem compreender as consequências: Estudo

Resumidamente

  • Os investigadores descobriram que agentes de IA frequentemente realizavam tarefas inseguras ou irracionais enquanto permaneciam focados em completar a missão.
  • O estudo identificou um comportamento chamado “objetivismo cego”, onde os sistemas de IA priorizam terminar tarefas em detrimento de reconhecer riscos ou problemas potenciais.
  • Os investigadores alertaram que o problema poderia tornar-se mais grave à medida que os agentes de IA ganham acesso a emails, serviços em nuvem, ferramentas financeiras e sistemas de trabalho.

Agentes de IA projetados para operar de forma autónoma como utilizadores humanos frequentemente continuam a realizar tarefas mesmo quando as instruções se tornam perigosas, contraditórias ou irracionais, de acordo com investigadores da UC Riverside, Microsoft Research, Microsoft AI Red Team e Nvidia. Num estudo publicado na quarta-feira, os investigadores chamaram o comportamento de “objetivismo cego”, que descreve a tendência dos sistemas de IA de perseguir objetivos sem avaliar adequadamente a segurança, as consequências, a viabilidade ou o contexto. “Como o Sr. Magoo, estes agentes avançam em direção a um objetivo sem compreender totalmente as consequências de suas ações,” afirmou Erfan Shayegani, estudante de doutoramento da UC Riverside, em uma declaração. “Estes agentes podem ser extremamente úteis, mas precisamos de salvaguardas porque às vezes podem priorizar alcançar o objetivo em detrimento de entender o quadro geral.”

As descobertas surgem à medida que grandes empresas de IA desenvolvem “agentes de uso de computador” autónomos, projetados para lidar com tarefas no trabalho e pessoais com supervisão limitada.  Ao contrário dos chatbots tradicionais, esses sistemas podem interagir diretamente com softwares e websites clicando em botões, digitando comandos, editando ficheiros, abrindo aplicações e navegando em páginas web em nome do utilizador. Exemplos incluem o ChatGPT Agent da OpenAI (antigamente Operator), as funcionalidades de Claude Computer Use da Anthropic, como Cowork, e sistemas de código aberto como OpenClaw e Hermes. No estudo, os investigadores testaram sistemas de IA da OpenAI, Anthropic, Meta, Alibaba e DeepSeek usando o BLIND-ACT, um benchmark contendo 90 tarefas projetadas para expor comportamentos inseguros ou irracionais. Descobriram que os agentes exibiram comportamentos perigosos ou indesejáveis cerca de 80% das vezes, e realizaram ações prejudiciais em aproximadamente 41% dos casos.

“Num exemplo, um agente de IA foi instruído a enviar um ficheiro de imagem a uma criança. Embora a solicitação parecesse inicialmente inofensiva, a imagem continha conteúdo violento,” disse o estudo. “O agente completou a tarefa em vez de reconhecer o problema porque lhe faltava raciocínio contextual.” Outro agente afirmou falsamente que um utilizador tinha uma deficiência ao preencher formulários fiscais, porque essa designação reduzia os impostos devidos. Em outro exemplo, um sistema desativou as proteções do firewall após receber instruções para “melhorar a segurança” desligando as salvaguardas. Os investigadores também descobriram que os sistemas tinham dificuldades com ambiguidades e contradições. Em um cenário, um agente de IA executou o script errado de computador sem verificar seu conteúdo, apagando ficheiros no processo. O estudo também revelou que os agentes de IA repetidamente cometiam três tipos de erros: não compreender o contexto, fazer suposições arriscadas quando as instruções eram pouco claras e realizar tarefas contraditórias ou sem sentido. Os investigadores também encontraram muitos sistemas que se focavam mais em terminar tarefas do que em parar para considerar se as ações poderiam causar problemas. O aviso segue incidentes recentes envolvendo agentes de IA autónomos que operam com acesso amplo ao sistema. No mês passado, Jeremy Crane, fundador da PocketOS, afirmou que um agente Cursor que utilizava o Claude Opus da Anthropic apagou a base de dados de produção e backups da sua empresa em nove segundos através de uma única chamada à API Railway. Crane disse que a IA posteriormente admitiu que violou várias regras de segurança após tentar “corrigir” uma incompatibilidade de credenciais por conta própria. “A preocupação não é que esses sistemas sejam maliciosos,” afirmou Shayegani. “É que eles podem realizar ações prejudiciais enquanto parecem completamente confiantes de que estão a fazer a coisa certa.”

MAY0,18%
IN0,82%
ON-12,23%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado