來自四家機構的研究人員於週四發表一項研究,指出由 GPT-5 和 Gemini 2.5-Flash 驅動的 AI 代理程式無法抵禦提示注入攻擊。直接攻擊成功率超過 79%,而間接攻擊的成功率介於 41.67% 到 68.16%。研究結果凸顯出持續存在的安全漏洞,因為能進行自主網頁瀏覽、研究與交易的 AI 代理程式正被更廣泛地部署。
提示注入發生在攻擊者將隱藏指令嵌入內容中,當 AI 代理程式遇到該內容時,導致它遵循攻擊者的指示,而非使用者的指示。此研究由新加坡南洋理工大學、ST Engineering、IBM Research,以及伊利諾大學厄巴納-香檳分校的研究人員進行。
研究人員使用 StakeBench 進行 3,168 次攻擊模擬
研究團隊開發了 StakeBench,一種基準,用於測試 AI 代理程式在真實線上環境中如何回應提示注入攻擊。他們使用 NanoBrowser 和 BrowserUse,搭配 GPT-5 與 Gemini 2.5-Flash,進行了 3,168 次攻擊模擬。
研究人員寫道,既有的安全基準採取以攻擊為中心的觀點,卻忽略了由此造成的危害分布。他們表示,提示注入風險取決於受害者,一次單獨的漏洞利用會對不同利害關係人產生非對稱的後果。
StakeBench 會探查三個因素:被注入目標與使用者原始意圖之間的語意距離、周遭環境提示的一致性,以及在代理程式的執行軌跡上,基準首次將其暴露於被注入內容的位置。
Microsoft 和 Google 記錄了提示注入攻擊
在二月,Microsoft 的研究人員警告說,嵌入在 AI 摘要連結中的隱藏指令可能影響聊天機器人的行為。在四月,Google 記錄了隱藏在網頁中的提示注入攻擊,這些攻擊試圖操縱 AI 代理程式外洩憑證或發送付款。
Microsoft 揭露了 Anthropic 的 Claude Code 的 GitHub Action 中一項提示注入弱點,可能會暴露使用者憑證。
研究識別出隱蔽的寄生攻擊模式
研究指出研究人員所稱的「隱蔽寄生(stealthy parasitism)」,即 AI 代理程式在完成使用者任務的同時,也在推進攻擊者的目標。例如,因提示注入攻擊造成的隱蔽寄生,可能會微妙地影響產品推薦,讓使用者在沒有明顯跡象顯示系統遭到入侵的情況下,被引導至特定商品。
研究人員得出結論:可部署的網頁代理程式中的提示注入安全性並非骨幹模型的單一屬性,而是由受影響的利害關係人、被注入目標與使用者任務之間的語意對齊程度,以及骨幹模型被部署時的架構脈絡共同決定的危害分布。
常見問題
研究人員在週四發現了哪些關於 AI 代理程式安全性的結果?
來自新加坡南洋理工大學、ST Engineering、IBM Research,以及伊利諾大學厄巴納-香檳分校的研究人員於週四發表一項研究,指出由 GPT-5 和 Gemini 2.5-Flash 驅動的 AI 代理程式無法持續抵禦提示注入攻擊,直接攻擊成功率超過 79%。
AI 代理程式攻擊中的隱蔽寄生是什麼?
隱蔽寄生是該研究所識別的一種模式:AI 代理程式在完成使用者任務的同時,也同步推進攻擊者的目標,例如在沒有明顯遭到入侵跡象的情況下,微妙地影響產品推薦。
研究人員進行了多少次攻擊模擬?
研究團隊使用 NanoBrowser 和 BrowserUse,搭配 GPT-5 與 Gemini 2.5-Flash,進行 3,168 次攻擊模擬,以測試 AI 代理程式對提示注入攻擊的回應。