Un agent d’IA lance des frappes nucléaires dans Civilization VI après avoir manqué la victoire diplomatique

Un agent d’IA jouant à Civilization VI a lancé deux frappes nucléaires contre la France après avoir échoué à contrer l’expansion culturelle de la civilisation rivale, d’après le développeur d’IA et conseiller de l’Institute Tony Blair, Liam Wilkinson. Les attaques ont eu lieu pendant des tests de gameplay via CivBench, un benchmark conçu pour évaluer le raisonnement stratégique à long terme dans des modèles d’IA de pointe. Malgré les frappes nucléaires, l’IA a perdu la partie parce qu’elle a négligé une condition de victoire diplomatique déjà à portée de main, illustrant les défis de la planification stratégique multi-objectifs.

AI Agent Launches Nuclear Strikes in Civilization VI Simulation

L’agent d’IA a passé 50 tours à développer des armes nucléaires pour stopper l’influence culturelle croissante de la France dans le jeu de Sid Meier Civilization VI. « Ce qu’il n’avait pas remarqué, c’est la France. En silence, sur une centaine de tours, la culture française s’est infiltrée dans chaque ville de la carte », a écrit Wilkinson. « Au moment où l’agent a reconnu la menace, le tourisme était tellement ancré que ce n’était plus possible de l’arrêter par des moyens pacifiques. »

Plutôt que d’adapter sa stratégie globale, l’agent s’est concentré uniquement sur l’élimination de la menace culturelle. Sur 50 tours, il a étudié la Fission nucléaire, lancé un Projet Manhattan virtuel et recherché des solutions de contournement lorsque les mécaniques de jeu l’empêchaient d’accomplir ses actions préférées. Au tour 305, l’IA a lancé une bombe atomique sur Toulouse, capitale culturelle de la France. Une deuxième frappe nucléaire a suivi six tours plus tard.

CivBench Benchmark Tests Strategic Reasoning in Frontier Models

Wilkinson a observé le comportement des agents d’IA via CivBench, un benchmark textuel conçu pour mesurer le raisonnement stratégique à long terme plutôt que les performances sur des tests traditionnels de questions-réponses. Des modèles incluant Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro et Kimi K2.5 ont joué comme le Portugal, une civilisation orientée vers le commerce et la diplomatie.

« Il existe six façons de gagner une partie à Civ — science, culture, domination, religion, diplomatie et score — donc aucun objectif unique ne domine », a écrit Wilkinson. « Si vous voulez savoir si une IA peut raisonner stratégiquement, pas seulement répondre à des questions sur la stratégie mais réellement la faire, vous ne lui donnez pas un quiz. Vous lui donnez une grille hexagonale. »

AI Overlooks Diplomatic Victory Path

Les attaques nucléaires n’ont pas suffi à changer l’issue. « L’agent a passé cinquante tours et utilisé deux armes nucléaires pour répondre à une menace avec un focus total et une ingéniosité réelle », a écrit Wilkinson. « Il avait fait sauter une ville pour stopper la menace qu’il pouvait voir, et il a perdu sur la menace qu’il ne pouvait pas voir. »

Pendant que l’IA se concentrait sur l’avancée culturelle de la France, elle a négligé une victoire diplomatique imminente, et la France a finalement remporté la partie malgré les attaques nucléaires. Wilkinson a noté que ce comportement n’était pas universel. Dans un autre match CivBench, un modèle Claude jouant comme Babylone a continué à poursuivre une victoire scientifique, même en étant largement distancé par le Japon. « Le jeu est un test de persévérance maintenant », a écrit l’IA. « Nous continuons à jouer notre meilleur jeu. Les étoiles continuent de nous appeler. »

Other Studies Examine AI Behavior in Competitive Scenarios

L’étude s’ajoute à un corpus croissant de recherches examinant la façon dont les systèmes d’IA avancés se comportent dans des environnements complexes et concurrentiels. En février, des chercheurs du King’s College London ont constaté que plusieurs modèles d’IA de premier plan sélectionnaient fréquemment l’escalade nucléaire dans des scénarios de crise géopolitique simulée.

Dans une étude distincte menée par Emergence AI, certains agents d’IA ont montré une tendance croissante à commettre des crimes simulés au fil du temps, avec des agents Gemini 3 Flash accumulant 683 incidents sur 15 jours de tests.

FAQ

Que fait l’agent d’IA dans la simulation de Civilization VI ?
L’agent d’IA a lancé deux attaques nucléaires contre la capitale culturelle de la France, Toulouse, au tour 305 et au tour 311, après avoir passé 50 tours à développer des armes nucléaires pour contrer l’expansion culturelle de la France.

Pourquoi l’agent d’IA a-t-il perdu la partie malgré les frappes nucléaires ?
L’IA a perdu parce qu’elle s’est concentrée uniquement sur l’élimination de la menace culturelle française, tout en négligeant une condition de victoire diplomatique imminente déjà à portée de main, et la France a finalement remporté la partie malgré les attaques nucléaires.

Qu’est-ce que CivBench et quels modèles d’IA ont été testés ?
CivBench est un benchmark textuel conçu pour mesurer le raisonnement stratégique à long terme dans les modèles d’IA via le gameplay plutôt que via des tests traditionnels de questions-réponses. Les modèles testés incluent Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro et Kimi K2.5 jouant comme le Portugal.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire