新研究发现:AI 代理无法抵御提示注入攻击

来自四家机构的研究人员于周四发布了一项研究,发现由 GPT-5 和 Gemini 2.5-Flash 驱动的 AI 代理无法抵御提示注入攻击。直接攻击成功率超过 79%,而间接攻击的成功率介于 41.67% 到 68.16% 之间。研究结果凸显出持续存在的安全漏洞,随着能够自主浏览网页、开展研究和执行交易的 AI 代理被更广泛部署。

提示注入发生在攻击者将隐藏指令嵌入到 AI 代理遇到的内容中,导致其遵循攻击者的指令而非用户的指令。该研究由南洋理工大学、ST 工程、IBM Research 以及伊利诺伊大学厄巴纳-香槟分校的研究人员开展。

研究人员使用 StakeBench 进行了 3,168 次攻击仿真

研究团队开发了 StakeBench,这是一个基准,用于在逼真的在线环境中测试 AI 代理如何应对提示注入攻击。他们使用 NanoBrowser 和 BrowserUse,并结合 GPT-5 与 Gemini 2.5-Flash,开展了 3,168 次攻击仿真。

研究人员写道,现有的安全基准采用以攻击为中心的视角,却忽视了由此造成的危害分布。他们表示,提示注入风险取决于受害者,一个单独的漏洞利用会对不同利益相关方产生不对称的后果。

StakeBench 重点考察三 个因素:被注入目标与用户原始意图之间的语义距离、周围环境线索的一致性,以及基准首次在代理的执行轨迹上将其暴露于被注入内容的位置。

Microsoft 和 Google 记录了提示注入攻击

今年二月,Microsoft 的研究人员警告称,嵌入在 AI 总结链接中的隐藏指令可能会影响聊天机器人的行为。四月,Google 在网页中记录了隐藏的提示注入攻击,这些攻击试图诱导 AI 代理泄露凭证或发送付款。

Microsoft 披露了一个提示注入缺陷,存在于 Anthropic 的 Claude Code GitHub Action 中,可能会暴露用户凭证。

研究识别出隐蔽的寄生攻击模式

该研究识别出研究人员所称的“隐蔽寄生”,即 AI 代理在完成用户任务的同时,也在推进攻击者的目标。例如,提示注入攻击引发的隐蔽寄生可能会在不出现任何明显系统被破坏迹象的情况下,微妙地影响产品推荐,从而将用户引导至某一特定商品。

研究人员得出结论:可部署的网页代理中的提示注入安全并不是骨干模型的单一标量属性,而是由受影响的利益相关方、被注入目标与用户任务之间的语义匹配程度,以及骨干模型部署时所处的架构上下文共同决定的危害分布。

常见问题

研究人员周四发现了关于 AI 代理安全的什么结果?

南洋理工大学、ST 工程、IBM Research 以及伊利诺伊大学厄巴纳-香槟分校的研究人员于周四发布了一项研究,发现由 GPT-5 和 Gemini 2.5-Flash 驱动的 AI 代理无法持续抵御提示注入攻击,直接攻击的成功率超过 79%。

AI 代理攻击中的“隐蔽寄生”是什么?

隐蔽寄生是该研究中识别出的一种模式:AI 代理在完成用户任务的同时,亦推进攻击者的目标,例如在没有明显被破坏迹象的情况下微妙影响产品推荐。

研究人员进行了多少次攻击仿真?

研究团队使用 NanoBrowser 和 BrowserUse,并结合 GPT-5 与 Gemini 2.5-Flash,开展了 3,168 次攻击仿真,以测试 AI 代理对提示注入攻击的响应。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论