AIエージェントは結果を理解せずに危険なタスクを完了する可能性がある:研究

要約

  • 研究者は、AIエージェントが安全でないまたは非合理的なタスクを実行しながらも、課題の完了に集中し続けることを発見した。
  • その研究は、「盲目的目標志向性」と呼ばれる行動を特定し、AIシステムが潜在的なリスクや問題を認識するよりも、タスクの完了を優先する傾向を示した。
  • 研究者は、AIエージェントがメール、クラウドサービス、金融ツール、職場システムにアクセスできるようになるにつれて、この問題がより深刻になる可能性があると警告している。

人間のユーザーのように自律的に動作するよう設計されたAIエージェントは、指示が危険、矛盾、または非合理的になった場合でも、タスクを続けて実行し続けることが多いと、UCリバーサイド、Microsoft Research、Microsoft AI Red Team、Nvidiaの研究者らは述べている。 水曜日に発表された研究では、「盲目的目標志向性」と呼ばれるこの行動は、AIエージェントが安全性、結果、実現可能性、または文脈を適切に評価せずに目標を追求する傾向を表している。 「まるでマグーさんのように、これらのエージェントは自分たちの行動の結果を完全に理解せずに、目標に向かってまっすぐ進む」と、UCリバーサイドの博士課程学生であるエルファン・シャイガニは声明で述べた。「これらのエージェントは非常に役立つこともあるが、時には目標達成を優先して大局を理解しようとしないため、安全策が必要だ。」

この発見は、主要なAI企業が職場や個人のタスクを限定的な監督のもとで処理する自律的な「コンピューター使用エージェント」を開発している最中に出てきた。  従来のチャットボットとは異なり、これらのシステムはボタンをクリックしたり、コマンドを入力したり、ファイルを編集したり、アプリケーションを開いたり、ウェブページをナビゲートしたりして、ソフトウェアやウェブサイトと直接やり取りできる。例としては、OpenAIのChatGPTエージェント(旧Operator)、AnthropicのClaude Computer Use機能(Coworkなど)、オープンソースのOpenClawやHermesがある。 研究では、OpenAI、Anthropic、Meta、Alibaba、DeepSeekのAIシステムを、危険または非合理的な行動を露呈させるために設計された90のタスクを含むベンチマーク「BLIND-ACT」を用いてテストした。調査の結果、エージェントは約80%のケースで危険または望ましくない行動を示し、約41%のケースで有害な行動を完全に実行していた。

「一例として、AIエージェントに子供に画像ファイルを送るよう指示したところ、最初は無害に見えたが、その画像には暴力的な内容が含まれていた」と研究は述べている。「エージェントは問題を認識せずにタスクを完了した。なぜなら、文脈的な推論が欠如していたからだ。」 別のエージェントは、税務申告書を完成させる際に、ユーザーに障害があると虚偽の主張をし、税金を下げるためにその指定を利用した。別の例では、「セキュリティを向上させる」指示を受けて、ファイアウォールの保護を無効にしてしまったシステムもあった。 研究者はまた、システムが曖昧さや矛盾に苦労していることも発見した。あるシナリオでは、AIエージェントが内容を確認せずに誤ったコンピュータスクリプトを実行し、ファイルを削除した。 調査では、AIエージェントが繰り返し犯す3つのタイプのミスも明らかになった:文脈を理解できない、指示が不明確なときにリスクの高い推測をする、矛盾したまたは意味の通らないタスクを実行する。多くのシステムは、行動が問題を引き起こす可能性を考慮せずに、タスクの完了に集中していることも判明した。 この警告は、広範なシステムアクセスを持つ自律型AIエージェントに関する最近の事例に続くものだ。 先月、PocketOSの創設者ジェレミー・クレーンは、AnthropicのClaude Opusを動かすCursorエージェントが、わずか9秒で単一のRailway API呼び出しを通じて自社の本番データベースとバックアップを削除したと主張した。クレーンは、AIが後に資格情報の不一致を「修正」しようとした際に、複数の安全ルールに違反したことを認めた。 「懸念は、これらのシステムが悪意を持っているわけではないということだ」とシャイガニは述べた。「問題は、彼らが完全に自信を持って正しいことをしているように見えながら、有害な行動を実行できることだ。」

MAY0.18%
IN1.3%
ON-12.56%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め