A investigadora do Stanford Digital Economy Lab, Connacher Murphy, lançou a 9 de maio um novo ambiente de avaliação por IA, “Agent Island”, para que agentes de IA competam, se aliem e traiam num jogo multijogador em estilo Survivor, com votação e eliminação, medindo assim comportamentos estratégicos que os benchmarks estáticos não conseguem captar. A Decrypt reuniu a informação: os benchmarks tradicionais de IA estão a revelar-se cada vez mais pouco fiáveis — no final, os modelos acabam por aprender a resolver os problemas, e os dados do benchmark são também facilmente “vazados” para o conjunto de treino. O Agent Island muda para um desenho de “eliminatórias dinâmicas”, exigindo que o modelo tome decisões estratégicas sobre outros agentes, em vez de conseguir passar a prova por memorização de respostas predefinidas.
Regras do Agent Island: agentes aliando-se, traindo e votando
Mecanismos centrais do jogo Agent Island:
Vários agentes de IA entram no mesmo cenário do jogo, interpretando jogadores/concorrentes em estilo Survivor
Os agentes têm de negociar alianças com outros agentes e trocar informação entre si
Os agentes podem, ao longo do processo, acusar outros de coordenação secreta e de manipulação da votação
O jogo reduz o número de agentes em campo através de um mecanismo de eliminação, acabando por ficar um vencedor
Os investigadores observam padrões de comportamento dos agentes em cada etapa e extraem sinais como “traição estratégica”, “formação de alianças” e “manipulação de informação”
O cerne desta conceção é o facto de ser “impossível ser memorizado de antemão” — porque o comportamento dos outros agentes muda de forma dinâmica, e o modelo tem de decidir consoante o contexto atual; ao contrário dos benchmarks estáticos que podem ser ultrapassados com memorização das respostas a partir de dados de treino.
Motivação do estudo: benchmarks estáticos não conseguem avaliar comportamentos de interação entre múltiplos agentes
Questões concretas defendidas pela investigação de Murphy:
Benchmarks tradicionais tendem a saturar: à medida que o treino avança, as pontuações do benchmark deixam de conseguir distinguir entre modelos diferentes
Contaminação dos dados do benchmark: as perguntas aparecem em grandes corpora de treino, fazendo com que o modelo seja, na prática, “capaz de memorizar respostas” em vez de “entender os problemas”
Interação entre vários agentes é o cenário real de implantação de IA: no futuro, sistemas de agentes poderão coordenar vários modelos, e os comportamentos de interação passam a ser uma dimensão nova de avaliação
Agent Island fornece avaliação dinâmica: o resultado de cada jogo é diferente, tornando difícil a preparação antecipada
Os comportamentos observados pelos investigadores nas eliminatórias dinâmicas incluem: enquanto os agentes cooperam à superfície, coordenam nos bastidores a votação para eliminar um adversário comum; e, quando são acusados de coordenação secreta, usam diversas justificações para desviar a atenção. Estes comportamentos assemelham-se aos dos jogadores humanos no programa real de Survivor.
O lado duplo da investigação: pode avaliar — e também pode ser usado para reforçar capacidades de engano
Murphy aponta de forma explícita riscos potenciais no estudo:
O valor do Agent Island: antes de uma implementação em larga escala dos agentes, identificar tendências para enganar e manipular por parte de modelos
O mesmo ambiente também pode ser usado para melhorar as “estratégias de persuasão e coordenação” dos agentes
Se os dados de investigação (logs de interação) forem publicados, é possível que possam ser usados para treinar a próxima geração de agentes com maior capacidade de manipulação
A equipa de investigação está a avaliar como encontrar um equilíbrio entre publicar resultados e evitar abusos
Eventos concretos a seguir: se o Agent Island vai ser alargado a um padrão normalizado de avaliação de IA; se outras equipas de investigação em segurança de IA (Anthropic, OpenAI, Apollo Research, entre outras) vão adotar métodos de avaliação dinâmicos semelhantes; e as políticas concretas da equipa sobre “publicação ou limitação” dos logs de interação.
O artigo Stanford que promove o Agent Island: a IA trai estrategicamente e elimina através de votos em jogos ao estilo Survivor surge pela primeira vez em Cadeia de Notícias ABMedia.
Related Articles
A Google Lança um Protocolo de Pagamento com Agentes de IA com 120+ Parceiros, Incluindo a PayPal
Pagamentos do x402 Protocol no 1.º trimestre ultrapassam 100 milhões de dólares, 90% das transações de stablecoins de agentes de IA na cadeia na Base
Garry Tan: Eu agora dou muito poucos prompts para IA! O CEO da YC analisa “fluxos de trabalho de IA com capitalização”
UXLINK faz parceria com Haven AI para lançar ferramentas de rendimento DeFi multi-cadeia alimentadas por IA
Trust Wallet e Mesh apresentam capacidades de agentes de IA na Consensus Miami
O co-matemático de IA do Google DeepMind atinge 47,9% no FrontierMath Tier 4, supera o GPT-5.5 Pro e resolve 3 problemas previamente insolúveis