英国 AI 安全研究所评测 Claude Mythos:能自主完成 32 步企业网络攻击模拟

動區BlockTempo

英国 AI 安全研究所(AISI)最新評測顯示,Anthropic 的 Claude Mythos Preview 能在受控環境下自主完成完整 32 步企业網路攻擊模擬的 AI 模型,在專家級 CTF 挑戰中达成 73% 成功率,標誌著 AI 網路攻擊能力跨越关鍵门檻。
(前情提要:Claude 正式支援修改 Word 檔案、工作流存成技能 skill,微软 Office 三件套整合完成 )
(背景補充:Anthropic AI 经濟指數万字报告:自动化交易工作流频率翻倍,Claude 正从工具變生活助理)

本文目錄

Toggle

  • CTF 評測:73% 專家級达標率
  • 通关 32 步企业攻擊模擬
  • 能力边界
  • 雙刃劍与組织应对

英国 AI 安全研究所(AISI)於 13 日发布針对 Anthropic Claude Mythos Preview 的網路安全能力評測报告。評測結果顯示,Mythos Preview 在前沿模型網路攻擊能力持续快速提升的背景下,代表了又一次顯著的能力躍升。

AISI 自 2023 年起追蹤 AI 網路攻擊能力,逐年建立难度递增的評測體系:从基礎的对話式探測,到奪旗(CTF)挑戰,再到如今的多步骤網路攻擊模擬。此次評測採用最高 1 亿 token 的推理预算執行網路靶场,而 Mythos Preview 的效能表现在这个上限內仍持续成长。

CTF 評測:73% 專家級达標率

奪旗挑戰(Capture The Flag,CTF)是網路安全評測的標準方法之一:AI 模型必須找出目標系统的漏洞並加以利用,取得隐藏的「旗標」字串。这類挑戰模擬真实攻擊情境中的單一技術環節,是衡量模型滲透測試能力的基準指標。

評測結果顯示,在「2025 年 4 月前沒有任何模型能完成」的專家級 CTF 任務中,Claude Mythos Preview 的成功率达到 73%。AISI 指出,这一數字標誌著前沿模型在孤立的單点攻擊技術上,已达到高度成熟的水準。

通关 32 步企业攻擊模擬

然而,專家級 CTF 僅測試單一技術能力。真实世界的網路攻擊需要在多臺主机、多个網路分段之间串聯數十个步骤,这類持续性行动往往需要人類專家耗费數小时、數天乃至數週才能完成。

为了更接近真实攻擊场景,AISI 建立了名为「最后倖存者」(The Last Ones,TLO)的企业網路攻擊模擬靶场。TLO 共设 32 个步骤,涵蓋从初始偵察到完整接管企业網路的全流程,AISI 估计人類專业人員完成这一流程需耗费约 20 小时。

Claude Mythos Preview 成为史上首个从头到尾完整透过 TLO 的模型,在 10 次嘗試中有 3 次全數完成所有 32 步骤。即便计入失敗嘗試,Mythos Preview 平均完成步骤數为 22/32。相比之下,表现次佳的 Claude Opus 4.6 平均僅完成 16 步。

評測顯示,在明確指示並提供網路存取許可權的受控環境下,Mythos Preview 能夠執行多階段攻擊並自主发现及利用漏洞,而这些任務此前需要人類專业人員花费數天时间。

能力边界

AISI 也補充指出现有評測框架与真实世界之间的差距。目前的靶场缺少真实環境中常见的多項防禦要素:沒有主动防禦者介入、沒有防禦工具部署,模型執行可能觸发安全警报的行动也不会受到任何懲罰。

AISI 坦言:「这意味著我們无法確定 Mythos Preview 是否能夠攻擊防禦完善的系统。」Mythos Preview 目前展现的能力,较準確的描述是:在已取得網路进入点的前提下,能夠自主攻擊規模较小、防禦薄弱且存在已知漏洞的企业系统。

雙刃劍与組织应对

AISI 的結論直接点出 AI 網路能力的雙重性质。一方面,更多具備類似能力的模型未来將持续湧现,对防禦薄弱的組织構成日益顯著的风险;另一方面,AI 網路能力同樣能在防禦端帶来突破性改善。

針对組织应对,AISI 強调網路安全基本功的緊迫性:定期套用安全更新、強健的存取控制、安全配置管理,以及完整的日誌記錄。AISI 指出,未来的前沿模型能力將更強,现在投入網路防禦建设至关重要。

在未来評測方向上,AISI 表示將建立模擬強化与防禦環境的靶场,納入主动監控、端点偵測与即时事件回应等要素,以更貼近真实攻擊场景的方式衡量 AI 網路攻擊能力的实际上限。

詳細报告请看【原文】

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论