英国 AI 安全研究所评测 Claude Mythos：能自主完成 32 步企业网络攻击模拟

動區BlockTempo

2026-04-15 09:40:21

英国 AI 安全研究所（AISI）最新評測顯示，Anthropic 的 Claude Mythos Preview 能在受控環境下自主完成完整 32 步企业網路攻擊模擬的 AI 模型，在專家級 CTF 挑戰中达成 73% 成功率，標誌著 AI 網路攻擊能力跨越关鍵门檻。
（前情提要：Claude 正式支援修改 Word 檔案、工作流存成技能 skill，微软 Office 三件套整合完成）
（背景補充：Anthropic AI 经濟指數万字报告：自动化交易工作流频率翻倍，Claude 正从工具變生活助理）

本文目錄

Toggle

CTF 評測：73% 專家級达標率
通关 32 步企业攻擊模擬
能力边界
雙刃劍与組织应对

英国 AI 安全研究所（AISI）於 13 日发布針对 Anthropic Claude Mythos Preview 的網路安全能力評測报告。評測結果顯示，Mythos Preview 在前沿模型網路攻擊能力持续快速提升的背景下，代表了又一次顯著的能力躍升。

AISI 自 2023 年起追蹤 AI 網路攻擊能力，逐年建立难度递增的評測體系：从基礎的对話式探測，到奪旗（CTF）挑戰，再到如今的多步骤網路攻擊模擬。此次評測採用最高 1 亿 token 的推理预算執行網路靶场，而 Mythos Preview 的效能表现在这个上限內仍持续成长。

CTF 評測：73% 專家級达標率

奪旗挑戰（Capture The Flag，CTF）是網路安全評測的標準方法之一：AI 模型必須找出目標系统的漏洞並加以利用，取得隐藏的「旗標」字串。这類挑戰模擬真实攻擊情境中的單一技術環節，是衡量模型滲透測試能力的基準指標。

評測結果顯示，在「2025 年 4 月前沒有任何模型能完成」的專家級 CTF 任務中，Claude Mythos Preview 的成功率达到 73%。AISI 指出，这一數字標誌著前沿模型在孤立的單点攻擊技術上，已达到高度成熟的水準。

通关 32 步企业攻擊模擬

然而，專家級 CTF 僅測試單一技術能力。真实世界的網路攻擊需要在多臺主机、多个網路分段之间串聯數十个步骤，这類持续性行动往往需要人類專家耗费數小时、數天乃至數週才能完成。

为了更接近真实攻擊场景，AISI 建立了名为「最后倖存者」（The Last Ones，TLO）的企业網路攻擊模擬靶场。TLO 共设 32 个步骤，涵蓋从初始偵察到完整接管企业網路的全流程，AISI 估计人類專业人員完成这一流程需耗费约 20 小时。

Claude Mythos Preview 成为史上首个从头到尾完整透过 TLO 的模型，在 10 次嘗試中有 3 次全數完成所有 32 步骤。即便计入失敗嘗試，Mythos Preview 平均完成步骤數为 22/32。相比之下，表现次佳的 Claude Opus 4.6 平均僅完成 16 步。

評測顯示，在明確指示並提供網路存取許可權的受控環境下，Mythos Preview 能夠執行多階段攻擊並自主发现及利用漏洞，而这些任務此前需要人類專业人員花费數天时间。

能力边界

AISI 也補充指出现有評測框架与真实世界之间的差距。目前的靶场缺少真实環境中常见的多項防禦要素：沒有主动防禦者介入、沒有防禦工具部署，模型執行可能觸发安全警报的行动也不会受到任何懲罰。

AISI 坦言：「这意味著我們无法確定 Mythos Preview 是否能夠攻擊防禦完善的系统。」Mythos Preview 目前展现的能力，较準確的描述是：在已取得網路进入点的前提下，能夠自主攻擊規模较小、防禦薄弱且存在已知漏洞的企业系统。

雙刃劍与組织应对

AISI 的結論直接点出 AI 網路能力的雙重性质。一方面，更多具備類似能力的模型未来將持续湧现，对防禦薄弱的組织構成日益顯著的风险；另一方面，AI 網路能力同樣能在防禦端帶来突破性改善。

針对組织应对，AISI 強调網路安全基本功的緊迫性：定期套用安全更新、強健的存取控制、安全配置管理，以及完整的日誌記錄。AISI 指出，未来的前沿模型能力將更強，现在投入網路防禦建设至关重要。

在未来評測方向上，AISI 表示將建立模擬強化与防禦環境的靶场，納入主动監控、端点偵測与即时事件回应等要素，以更貼近真实攻擊场景的方式衡量 AI 網路攻擊能力的实际上限。

詳細报告请看【原文】

View Source

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

Claude Code 是什么？2026 最完整指南：CLI 安装、桌面版、Routines 自动化、MCP 与 .claude 权限结构全解析

鏈新聞abmedia04-20 04:35

Claude Opus 4.7 隐藏涨价：新 Tokenizer 让相同文字多消耗 37–47% Token，费率不变但账单却变贵

鏈新聞abmedia04-20 01:15

Canva宣布深度整合Claude，实现将AI草稿转化为设计成品

鏈新聞abmedia04-19 20:04

全球金融领袖就 Mythos AI 模型提出严重担忧

Cryptonews 04-18 02:39

Anthropic 发布 Claude Opus 4.7：推理能力再进化，不再只是答题工具

鏈新聞abmedia04-16 14:45

0/400

暂无评论