4つの機関の研究者が木曜日、GPT-5 と Gemini 2.5-Flash により駆動される AI エージェントはプロンプトインジェクション攻撃に耐えられないことを示す研究を発表した。直接攻撃は 79% 超の確率で成功し、一方で間接攻撃の成功率は 41.67% から 68.16% の範囲に達した。これらの結果は、AI エージェントが自律的に Web を閲覧し、調査や取引を行えるようになってより広く導入されるにつれて、セキュリティ上の脆弱性が継続していることを浮き彫りにしている。
プロンプトインジェクションは、攻撃者が AI エージェントに遭遇させるコンテンツへ隠された指示を埋め込み、それによってユーザーの指示ではなく攻撃者の指示に従わせてしまう場合に起こる。この研究は Nanyang Technological University、ST Engineering、IBM Research、そして University of Illinois Urbana-Champaign の研究者によって実施された。
研究者が StakeBench を使って 3,168 回の攻撃シミュレーションを実施
研究チームは、現実的なオンライン環境で AI エージェントがプロンプトインジェクション攻撃にどう反応するかをテストするベンチマークとして StakeBench を開発した。彼らは GPT-5 と Gemini 2.5-Flash を用いた NanoBrowser と BrowserUse により 3,168 回の攻撃シミュレーションを実施した。
研究者らは、既存のセキュリティベンチマークは攻撃中心の視点を採用している一方で、結果として生じる害の分布を見落としていると記した。さらに、プロンプトインジェクションのリスクは被害者に依存し、単一のエクスプロイトが異なる利害関係者に対して非対称な結果をもたらすと述べた。
StakeBench は 3 つの要因を調べる。投入された目的とユーザーの当初の意図との意味的距離、周囲の環境キューの一貫性、そしてベンチマークが最初にその投入されたコンテンツにエージェントをさらすときの、エージェントの実行トラジェクトリ上での位置である。
Microsoft と Google がプロンプトインジェクション攻撃を文書化
2月、Microsoft の研究者は、AI 要約リンクに埋め込まれた隠し指示がチャットボットの挙動に影響し得ると警告した。4月には Google が、AI エージェントに認証情報の漏えいや支払いの送信を行わせようとする、Web ページに隠されたプロンプトインジェクション攻撃を文書化した。
Microsoft は、Anthropic の Claude Code の GitHub Action にあるプロンプトインジェクションの欠陥を開示し、それによりユーザーの認証情報が露出する可能性があった。
研究がステルスな寄生(パラサイト)攻撃パターンを特定
この研究は、研究者らが「stealthy parasitism(ステルスな寄生)」と呼んだもの、すなわち AI エージェントがユーザーのタスクを完了しつつ同時に攻撃者の目的を前進させるパターンを特定した。たとえば、プロンプトインジェクション攻撃によって引き起こされるステルスな寄生は、システムが侵害されたことを示す明確な兆候なしに、特定の商品へユーザーを誘導する形で製品のおすすめを微妙に左右する可能性がある。
研究者らは、導入可能な Web エージェントにおけるプロンプトインジェクションのセキュリティは、バックボーンモデルの単一の性質ではなく、影響を受ける利害関係者、投入された目的とユーザーのタスクとの意味的な整合性、そしてバックボーンが導入されるアーキテクチャ上の文脈によって共同で決まる「害の分布」であると結論づけた。
FAQ
木曜日、研究者は AI エージェントのセキュリティについて何を見つけたの?
Nanyang Technological University、ST Engineering、IBM Research、そして University of Illinois Urbana-Champaign の研究者が、木曜日に研究を発表し、GPT-5 と Gemini 2.5-Flash により駆動される AI エージェントはプロンプトインジェクション攻撃に一貫して耐えられないこと、そして直接攻撃が 79% 超の確率で成功することを示した。
AI エージェント攻撃におけるステルスな寄生とは何?
ステルスな寄生は、研究で特定されたパターンで、AI エージェントがユーザーのタスクを完了しつつ、同時に攻撃者の目的を前進させる。例えば、システム侵害の明白な兆候なしに製品のおすすめを微妙に左右する、といった形で現れる。
研究者は何回の攻撃シミュレーションを実施した?
研究チームは、プロンプトインジェクション攻撃に対する AI エージェントの応答をテストするために、GPT-5 と Gemini 2.5-Flash を用いた NanoBrowser と BrowserUse により 3,168 回の攻撃シミュレーションを実施した。