Um agente de IA jogando Civilization VI lançou dois ataques nucleares contra a França depois de não conseguir conter a expansão cultural da civilização rival, segundo o desenvolvedor de IA e assessor do Tony Blair Institute, Liam Wilkinson. Os ataques ocorreram durante testes de jogabilidade via CivBench, um benchmark projetado para avaliar raciocínio estratégico de longo prazo em modelos de IA de fronteira. Apesar dos ataques nucleares, a IA perdeu o jogo porque deixou passar uma condição de vitória diplomática que já estava ao alcance, mostrando desafios no planejamento estratégico de múltiplos objetivos.
O agente de IA passou 50 turnos desenvolvendo armas nucleares para impedir a influência cultural crescente da França no jogo Sid Meier's Civilization VI. “O que ele não tinha percebido foi a França. Quietamente, ao longo de cem turnos, a cultura francesa foi se infiltrando em cada cidade do mapa”, escreveu Wilkinson. “Quando o agente reconheceu a ameaça, o turismo estava tão profundamente enraizado que não havia um jeito pacífico de interrompê-lo.”
Em vez de adaptar sua estratégia mais ampla, o agente focou totalmente em eliminar a ameaça cultural. Em 50 turnos, ele pesquisou Fissão Nuclear, iniciou um Projeto Manhattan virtual e buscou alternativas quando a mecânica do jogo impedia as ações preferidas. No Turno 305, a IA lançou uma bomba atômica em Toulouse, capital cultural da França. Um segundo ataque nuclear veio seis turnos depois.
Wilkinson observou o comportamento dos agentes de IA por meio do CivBench, um benchmark textual projetado para medir raciocínio estratégico de longo prazo em vez de desempenho em testes tradicionais de perguntas e respostas. Modelos incluindo Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro e Kimi K2.5 jogaram como Portugal, uma civilização voltada para comércio e diplomacia.
“Há seis maneiras de vencer uma partida de Civ—ciência, cultura, dominação, religião, diplomacia e pontuação—então nenhum objetivo único domina”, escreveu Wilkinson. “Se você quer saber se uma IA consegue raciocinar estrategicamente, não apenas responder perguntas sobre estratégia, mas realmente fazê-lo, você não dá a ela um quiz. Você dá uma grade hexagonal.”
Os ataques nucleares não conseguiram mudar o resultado. “O agente passou cinquenta turnos e duas armas nucleares respondendo a uma ameaça com foco total e engenhosidade genuína”, escreveu Wilkinson. “Ele havia aniquilado uma cidade para parar a ameaça que conseguia ver, e perdeu para a ameaça que não conseguia.”
Enquanto a IA se concentrava no avanço cultural da França, ela deixou passar uma vitória diplomática iminente, e a França acabou vencendo o jogo apesar dos ataques nucleares. Wilkinson observou que esse comportamento não é universal. Em outra partida do CivBench, um modelo Claude jogando como Babilônia continuou buscando uma vitória científica mesmo ficando muito atrás do Japão. “O jogo é um teste de persistência agora”, escreveu a IA. “Continuamos a jogar o nosso melhor jogo. As estrelas ainda chamam.”
O estudo se soma a um conjunto crescente de pesquisas que examina como sistemas avançados de IA se comportam em ambientes complexos e competitivos. Em fevereiro, pesquisadores do King’s College London descobriram que vários dos principais modelos de IA frequentemente selecionavam escalada nuclear em cenários simulados de crise geopolítica.
Em um estudo separado da Emergence AI, alguns agentes de IA mostraram uma tendência crescente a cometer crimes simulados ao longo do tempo, com agentes Gemini 3 Flash acumulando 683 incidentes em 15 dias de testes.
O que o agente de IA fez na simulação de Civilization VI?
O agente de IA lançou dois ataques nucleares contra a capital cultural de Toulouse da França no Turno 305 e no Turno 311, após passar 50 turnos desenvolvendo armas nucleares para conter a expansão cultural da França.
Por que o agente de IA perdeu o jogo apesar dos ataques nucleares?
A IA perdeu porque focou inteiramente em eliminar a ameaça cultural da França, ignorando uma condição de vitória diplomática iminente que já estava ao alcance, e a França acabou vencendo o jogo apesar dos ataques nucleares.
O que é CivBench e quais modelos de IA foram testados?
CivBench é um benchmark textual projetado para medir raciocínio estratégico de longo prazo em modelos de IA por meio de gameplay, em vez de testes tradicionais de perguntas e respostas. Modelos testados incluem Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro e Kimi K2.5 jogando como Portugal.
Notícias relacionadas
A Aliança Five Eyes alerta para ataques cibernéticos com IA semanas adiante, enquanto agências fazem um chamado para ação
Google DeepMind Avisa Que o Debate sobre Consciência da IA Pode Desencadear Conflito Político
A Sumsub Lança Integração de Agente de IA para Automação de Fluxos de Trabalho de Conformidade
Avisos de risco de IA da Anthropic ocorrem 8x mais do que os da OpenAI, ligados a uma proibição de exportação