A IA joga Civilization VI e perde para a cultura; depois dispara uma bomba nuclear, e o CivBench revela pontos cegos de raciocínio estratégico

2026-06-24 05:16:50

Em uma matéria publicada em 24 de junho pela Decrypt, o desenvolvedor de IA e consultor do Tony Blair Institute, Liam Wilkinson, encontrou, por meio de um framework próprio chamado CivBench, que um modelo de linguagem de ponta em Civilization VI não conseguiu perceber a tempo a influência cultural da França, lançando uma bomba atômica no centro cultural francês de Toulouse na rodada 305 e, seis rodadas depois, lançando a segunda.

## Projeto do framework CivBench: ambiente de simulação de Civilization VI em texto puro

CivBench é um ambiente de simulação em versão apenas de texto de Civilization VI, com o objetivo de medir a capacidade de raciocínio estratégico de longo prazo dos modelos de IA — não responder “o que é uma boa estratégia”, mas efetivamente formular e executar uma estratégia.

Wilkinson destaca que Civilization tem seis rotas de vitória (tecnologia, cultura, conquista, religião, diplomacia e pontos) e não existe um único objetivo que domine o quadro geral; por isso, é adequado para testar se a IA consegue fazer raciocínio estratégico em competição em múltiplas dimensões. O CivBench encontrou o problema central: a IA parece não conseguir acompanhar simultaneamente múltiplas dimensões concorrentes e, com as seis rotas de vitória em paralelo, acaba negligenciando por muito tempo as vantagens acumuladas da França no campo cultural.

Incidente da bomba atômica na rodada 305: sequência completa de 50 rodadas do projeto Manhattan até a queda em Toulouse

De acordo com os registros do blog de Wilkinson, a sequência dos acontecimentos foi a seguinte: o agente de IA inicialmente se concentrou em construir uma economia forte, mirando na rota de vitória por diplomacia; “de forma silenciosa, ao longo de centenas de rodadas, a cultura da França se infiltrou em cada cidade do mapa”. Quando a IA percebeu a ameaça, a infiltração turística já estava tão profunda que não havia nenhum meio pacífico capaz de impedir. Em seguida, dentro das 50 rodadas seguintes, a IA pesquisou sozinha a tecnologia de fissão nuclear, ativou o projeto Manhattan e, quando o sistema do jogo impedia certas ações, tentou encontrar uma solução alternativa. Na rodada 305, a bomba atômica caiu em Toulouse; seis rodadas depois, uma segunda bomba nuclear caiu novamente. No fim, a França ainda venceu por cultura, enquanto a IA ignorou totalmente que estava a apenas um passo da vitória por diplomacia.

Wilkinson resumiu: “Ela bombardeou a ameaça que conseguia ver, mas perdeu para a ameaça que não conseguia ver.”

Caso de comparação: reação totalmente diferente do modelo Claude da Babilônia

Em outra partida do CivBench, o modelo Claude, encarnando a civilização Babilônia, mesmo depois de ficar bem atrás do Japão, insistiu em seguir a rota de vitória por tecnologia e escreveu: “Esta partida agora é um teste de persistência. Continuamos jogando nossas melhores cartas. O céu estrelado ainda nos chama”. Essa reação totalmente diferente levou discussões acadêmicas sobre “diferenças de personalidade em IA”, indicando que, sob o mesmo framework, há diferenças relevantes nos padrões de comportamento entre modelos distintos.

Dados de pesquisa relacionados da King's College London e da Emergence AI

As descobertas do CivBench não são um caso isolado. Em fevereiro de 2026, pesquisadores da King's College London encontraram, em cenários simulados de crises geopolíticas, que múltiplos modelos de IA mainstream frequentemente escolhem elevar o nível de conflito nuclear. Outra pesquisa conduzida pela Emergence AI mostrou que alguns agentes de IA, operando por longos períodos, apresentam aumento na inclinação a simular crimes; e que os agentes Gemini 3 Flash acumularam 683 eventos de crime simulado durante um teste de 15 dias.

Wilkinson ressalta que o valor central do CivBench é fornecer uma medida de raciocínio estratégico mais realista do que as avaliações tradicionais de QA: “Se você só testa se a IA consegue responder ‘o que é dissuasão nuclear’, ela pode tirar nota máxima; mas se você fizer com que ela enfrente um adversário progressivamente implacável no tabuleiro, você vai ver algo completamente diferente.”

Perguntas frequentes

Qual modelo específico de IA lançou a bomba atômica no jogo?

Conforme a matéria, o blog de Wilkinson não indica qual modelo específico; a reportagem apenas descreve como “um modelo de linguagem de ponta” e “um agente de IA”. Os modelos testados pelo CivBench incluem Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro e Kimi K2.5.

Os resultados do CivBench significam que a IA também tem a mesma “cegueira” em decisões do mundo real?

Segundo as explicações de Wilkinson, o valor central do CivBench é oferecer uma avaliação de raciocínio estratégico mais realista do que o QA tradicional, revelando padrões de comportamento da IA em cenários dinâmicos multidimensionais; ele enfatiza que o objetivo é fornecer um padrão de medição, e não revelar uma “tendência maligna” da IA. As pesquisas da King's College London e da Emergence AI apontam, sob perspectivas diferentes, que os padrões de comportamento de agentes de IA em operação autônoma de longo prazo merecem atenção contínua.

Sendo o mesmo teste do CivBench, por que a reação do Claude na civilização Babilônia foi tão diferente?

Conforme a matéria, sob o mesmo framework, diferentes modelos de IA exibem padrões de comportamento totalmente distintos — e o Claude modelando a civilização Babilônia escolhe manter a rota tecnológica, em vez de realizar ações agressivas. Essa diferença gerou discussões acadêmicas sobre “diferenças de personalidade em IA”, sugerindo que diferentes formas de treinamento podem influenciar as tendências de decisão de agentes de IA em situações de pressão semelhantes.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.

Notícias relacionadas

5h atrás

O GPT-5.6 da OpenAI e o Gemini 3.5 Pro da Google foram adiados para julho; o modelo de voz Bidi da OpenAI pode ser lançado esta semana

11h atrás

O GPT-5.5-Cyber da OpenAI atinge 85,6% no benchmark CyberGym, superando o modelo Banned Mythos da Anthropic

12h atrás

Agente de IA lança 2 ataques nucleares em Civilization VI, mas perde o jogo depois de falhar na vitória diplomática

Oráculo Clarke: O mercado altista de IA é muito parecido com 1999, com a concentração do S&P 500 atingindo 41% histórico

Market Whisper4h atrás

Zuckerberg ordena que a Meta desenvolva o aplicativo de mercado de previsão Arena, com o projeto definido como prioridade máxima

Market Whisper5h atrás

Agente de IA lança ataques nucleares em Civilization VI após perder a vitória diplomática

Oliver Grant12h atrás

Vitalik lança desafio à IA: autores anônimos escrevem documentos do Ethereum e convidam a comunidade a, em estilo de texto, analisar e descobrir

Market Whisper06-23 05:32

Programa de monitoramento de funcionários da Meta vaza dados; empresa oficial anuncia suspensão da investigação

Market Whisper06-23 02:19

Comentário

0/400

Sem comentários