AI 代理在未能達成文明 VI 的外交勝利後，在文明 VI 中發動核打擊

2026-06-23 18:37:53

根據 AI 開發者暨 Tony Blair Institute 顧問 Liam Wilkinson 的說法，一個在《文明 VI》中扮演的 AI 代理，在未能阻止對手文明的文化擴張之後，對法國發動了兩次核子攻擊。這些攻擊發生在透過 CivBench 進行的遊戲測試中；CivBench 是一種旨在評估前沿 AI 模型長期策略推理能力的基準。儘管施放了核武攻擊，該 AI 仍輸掉了遊戲，因為它忽略了一個已觸手可及的外交勝利條件，凸顯了多目標策略規劃所面臨的挑戰。

AI 代理在《文明 VI》模擬中發動核子打擊

該 AI 代理花了 50 回合研發核子武器，以阻止《席德·梅爾的文明 VI》中法國不斷增長的文化影響力。Wilkinson 寫道：「它所沒有注意到的是法國。安靜地，在一百回合的時間裡，法國文化滲透到了地圖上的每一座城市。」「當代理辨識到威脅時，旅遊業早已深深紮根於那裡，因此沒有和平的方式能阻止它。」

該代理並未調整其更廣泛的策略，而是將全部注意力放在消除文化威脅上。它花了 50 回合，研究核裂變、啟動一個虛擬的曼哈頓計畫，並在遊戲機制阻止它採取偏好行動時尋找替代方案。在第 305 回合，AI 向法國文化首都圖盧茲（Toulouse）發射了原子彈。六回合後，又發動了第二次核子打擊。

CivBench 基準測試前沿模型的策略推理

Wilkinson 透過 CivBench 觀察了 AI 代理的行為。CivBench 是一種文字型基準，旨在衡量長期策略推理能力，而非傳統問答測試中的表現。包括 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 與 Kimi K2.5 在內的模型，扮演了葡萄牙（Portugal）這個文明；葡萄牙是一個以貿易與外交為導向的文明。

「贏得一場 Civ 有六種方式——科學、文化、支配、宗教、外交與得分——因此沒有單一目標能占據主導地位，」Wilkinson 寫道。「如果你想知道 AI 是否能進行策略性的推理，而不只是回答關於策略的問題、而是真的做到，你不要給它小測驗。你給它一張六角網格。」

AI 忽略外交勝利路徑

核子攻擊未能改變結果。Wilkinson 寫道：「代理花了五十回合、使用兩種核子武器，用完全的專注與真正的巧思去回應一個威脅。」「它為了阻止它看得見的威脅而轟炸了一座城市，卻在它看不見的威脅上輸掉。」

當 AI 專注於法國文化的前進時，它忽略了一個即將到來的外交勝利，儘管發動了核子攻擊，法國最終仍贏得了遊戲。Wilkinson 指出，這種行為並非普遍現象。在另一場 CivBench 比賽中，一個扮演巴比倫（Babylon）的 Claude 模型，即便遠遠落後日本，仍持續追求科學勝利。「遊戲現在是一場對持久性的測試，」AI 寫道。「我們會繼續下出我們最好的棋。群星仍在召喚。」

其他研究檢視 AI 在競爭情境中的行為

該研究也為日益增長的研究體系增添了一筆，探討先進 AI 系統如何在複雜、競爭的環境中運作。今年二月，倫敦國王學院的研究人員發現，數個領先的 AI 模型在模擬的地緣政治危機情境中，常常會選擇核子升級。

在由 Emergence AI 進行的另一項研究中，部分 AI 代理隨著時間推移，展現出更傾向於在模擬中犯下罪行的趨勢；Gemini 3 Flash 代理在 15 天的測試期間累積了 683 起事件。

FAQ

在《文明 VI》的模擬中，AI 代理做了什麼？
AI 代理在第 305 回合與第 311 回合，於圖盧茲（Toulouse）這座法國文化首都發動兩次核子攻擊，這是在它花了 50 回合研發核子武器以對抗法國文化擴張之後。

為什麼即使發動核子攻擊，AI 代理仍輸掉遊戲？
AI 因為專注於消除法國的文化威脅，卻忽略了一個已在可達範圍內的即將到來的外交勝利條件；最終即便發動了核子攻擊，法國仍贏得了遊戲。

CivBench 是什麼，測試了哪些 AI 模型？
CivBench 是一種文字型基準，用於透過遊戲玩法而非傳統問答測試，衡量 AI 模型的長期策略推理能力。測試的模型包括 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 與 Kimi K2.5，且它們分別扮演了葡萄牙。

View Source

免責聲明：本頁面資訊可能來自第三方來源，僅供參考，不代表 Gate 的立場或觀點，亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險，請勿僅依賴本頁資訊作出決策。詳情請參閱免責聲明。