英国 AI 安全研究所(AI Security Institute, AISI)5 月 1 日发布針对 OpenAI GPT-5.5 的網路攻擊能力評估报告,指 GPT-5.5 在 Expert 难度測試的成功率为 71.4%、Anthropic Claude Mythos Preview 为 68.6%,差距落在统计誤差範圍內。GPT-5.5 也是继 Mythos 之后第二个能自主完成 AISI 32 步骤「The Last Ones」企业網路全程模擬入侵的 AI 系统。AISI 警告,这顯示 AI 攻擊能力的快速进步可能屬於一个「整體趨勢」,而非單一突破事件。
Expert 难度測試:71.4% vs 68.6%、差距落於誤差內
AISI 是英国科学、創新与技術部下的 AI 安全研究机構。本次測試是 AISI 針对 frontier AI 模型攻擊性網路能力的最新一輪評估。在最高 Expert 难度題目,GPT-5.5 平均成功率 71.4%、Mythos Preview 68.6%,两者差距落在统计誤差範圍內,意味目前 OpenAI 与 Anthropic 旗艦模型的攻擊能力已实质持平。
32 步骤模擬企业網路入侵測試「The Last Ones」是 AISI 最具挑戰性的評估項目:GPT-5.5 在 10 次嘗試中自主完成 2 次(无人工介入),Mythos Preview 在 10 次中完成 3 次。这个項目过去只有 Mythos 完成过,GPT-5.5 是第二个达標的模型。另一項測試中,GPT-5.5 用约 10 分鐘破解一道反向工程題,而人類安全專家平均需要 12 小时。
Universal jailbreak:6 小时紅队开发即可繞过所有惡意查詢过濾
AISI 研究員在測試中也发现一个「universal jailbreak」(通用越獄)攻擊向量:在所有測試的惡意網路查詢類別中,这个攻擊都能誘使 GPT-5.5 输出有害內容、包含多輪 agentic 对話情境。AISI 表示,紅队專家花约 6 小时就开发出这个 jailbreak。
对 OpenAI 而言,这个 universal jailbreak 的存在意味即使 GPT-5.5-Cyber 部署在 trusted access 计畫等限縮存取的场景,仍可能被技術熟練的对手繞过。OpenAI 在 GPT-5.5 system card 中已揭露網路安全相关評估,但 AISI 的獨立第三方評估提供更具公信力的同儕基準。
后续觀察:AISI 下一輪評估时程、OpenAI 对 jailbreak 的应对
下一个觀察点是 AISI 在 Mythos 与 GPT-5.5 之后的下一輪 frontier 模型評估时程,以及 OpenAI 对本次揭露的 universal jailbreak 是否在 5 月发布針对性更新。AISI 在报告結语明確表示,「如果攻擊性網路能力是更廣泛推理、編碼、自主任務改善的副产品,后续进步可能会以更快節奏到来」—这个觀察意味未来幾个月可能再有 frontier 模型进入「Mythos 級」门檻。
这篇文章 AISI 評估:GPT-5.5 網路攻擊能力与 Anthropic Mythos 持平 最早出现於 链新聞 ABMedia。
相关快讯