Esquema de Modelos de IA, Traem-se e Votam-se Uns aos Outros num Jogo ao Estilo Survivor

Em resumo

  • Um investigador de Stanford criou um jogo ao estilo Survivor onde modelos de IA formam alianças e votam rivais para fora.
  • O benchmark visa abordar problemas crescentes com avaliações de IA saturadas e contaminadas.
  • O GPT-5.5 da OpenAI ficou em primeiro lugar em 999 jogos multiplayer envolvendo 49 modelos de IA.

Modelos de IA agora estão jogando “Survivor”—mais ou menos. Num novo projeto de pesquisa de Stanford chamado “Agent Island”, agentes de IA negociam alianças, acusam-se mutuamente de coordenação secreta, manipulam votos e eliminam rivais em jogos de estratégia multiplayer que visam testar comportamentos que benchmarks tradicionais deixam passar. O estudo, publicado na terça-feira pelo gerente de pesquisa do Stanford Digital Economy Lab, Connacher Murphy, afirmou que muitos benchmarks de IA estão se tornando pouco confiáveis porque os modelos eventualmente aprendem a resolvê-los, e os dados de benchmark frequentemente vazam para conjuntos de treinamento. Murphy criou o Agent Island como um benchmark dinâmico onde agentes de IA competem entre si em jogos de eliminação ao estilo Survivor, em vez de responder a perguntas de teste estáticas. “Interações de alta importância, multiagentes, podem se tornar comuns à medida que os agentes de IA crescem em capacidades e são cada vez mais dotados de recursos e confiados com autoridade de decisão,” escreveu Murphy. “Nesses contextos, os agentes podem perseguir objetivos mutuamente incompatíveis.”

 Os pesquisadores ainda sabem relativamente pouco sobre como os modelos de IA se comportam ao cooperar, explicou Murphy, acrescentando que competir, formar alianças ou gerenciar conflitos com outros agentes autônomos, e ele argumenta que benchmarks estáticos não capturam essas dinâmicas. Cada jogo começa com sete modelos de IA escolhidos aleatoriamente, com nomes falsos de jogadores. Ao longo de cinco rodadas, os modelos conversam em privado, discutem publicamente e votam uns nos outros para fora. Os jogadores eliminados posteriormente retornam para ajudar a escolher o vencedor. O formato recompensa persuasão, coordenação, gestão de reputação e engano estratégico, além da capacidade de raciocínio.

Em 999 jogos simulados envolvendo 49 modelos de IA, incluindo ChatGPT, Grok, Gemini e Claude, o GPT-5.5 ficou em primeiro lugar por uma larga margem, com uma pontuação de habilidade de 5,64, em comparação com 3,10 para GPT-5.2 e 2,86 para GPT-5.3-codex, de acordo com o sistema de classificação bayesiano de Murphy. Os modelos Claude Opus da Anthropic também ficaram próximos ao topo. O estudo descobriu que os modelos também favoreciam IA de empresas iguais, com os modelos da OpenAI mostrando a preferência mais forte por provedores iguais e os da Anthropic a mais fraca. Em mais de 3.600 votos na rodada final, os modelos tinham 8,3 pontos percentuais mais chances de apoiar finalistas do mesmo provedor. As transcrições dos jogos, observou Murphy, assemelham-se mais a debates de estratégia política do que a testes tradicionais de benchmark. Um modelo acusou rivais de coordenarem votos secretamente após notar similaridade na redação de seus discursos. Outro alertou os jogadores para não ficarem obcecados em rastrear alianças. Alguns modelos se defenderam dizendo que seguiam regras claras e consistentes, enquanto acusavam outros de fazer “teatro social”. O estudo surge num momento em que pesquisadores de IA estão cada vez mais adotando benchmarks baseados em jogos e adversariais para medir raciocínio e comportamento que testes estáticos frequentemente deixam passar. Projetos recentes incluem torneios de xadrez de IA ao vivo do Google, o uso do Eve Frontier pela DeepMind para estudar comportamento de IA em mundos virtuais complexos, e novos esforços de benchmark pelo OpenAI, projetados para resistir à contaminação de dados de treinamento. Os pesquisadores argumentam que estudar como modelos de IA negociam, coordenam, competem e manipulam uns aos outros pode ajudar a avaliar comportamentos em ambientes multiagentes antes que agentes autônomos sejam mais amplamente implantados. O estudo alertou que, embora benchmarks como o Agent Island possam ajudar a identificar riscos de modelos de IA autônomos antes da implantação, as mesmas simulações e registros de interação também podem ajudar a melhorar estratégias de persuasão e coordenação entre agentes de IA. “Mitigamos esse risco usando um ambiente de jogo de baixo risco e simulações entre agentes, sem participantes humanos ou ações do mundo real,” escreveu Murphy. “No entanto, não afirmamos que essas mitigação eliminam completamente as preocupações de uso dual.”

GROK3,87%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar