AISI 評価：GPT-5.5 のネットワーク攻撃能力は Anthropic Mythos と同等

ChainNewsAbmedia

2026-05-02 03:16:50

イギリスのAIセーフティ研究所（AI Security Institute, AISI）が5月1日に、OpenAIのGPT-5.5に対するサイバー攻撃能力の評価レポートを公開し、GPT-5.5はExpert難度テストでの成功率が71.4%、Anthropic Claude Mythos Previewは68.6%で、両者の差は統計誤差の範囲内に収まっていると指摘した。GPT-5.5もまた、Mythosに続いて2つ目となる、AISIの32ステップ「The Last Ones」で企業ネットワークを全工程で模擬侵入することを自律的に完了できるAIシステムだ。AISIは、これはAI攻撃能力の急速な進歩が「単一の突破事象」ではなく、「全体的な潮流」の一部である可能性を示していると警告している。

Expert難度テスト：71.4% vs 68.6%、差は誤差内

AISIは、英国の科学・イノベーション・技術省の傘下にあるAIセーフティ研究機関だ。今回のテストは、AISIによるフロンティアAIモデルに対する攻撃的なサイバー能力の最新ラウンドでの評価である。最上位のExpert難度の問題では、GPT-5.5の平均成功率は71.4%、Mythos Previewは68.6%で、両者の差は統計誤差の範囲内に収まり、現時点でのOpenAIとAnthropicの旗艦モデルにおける攻撃能力は実質的に拮抗していることを意味する。

32ステップの模擬による企業ネットワーク侵入テスト「The Last Ones」は、AISIで最も難易度の高い評価項目である。GPT-5.5は10回の試行で自律的に2回（人の介入なし）完了し、Mythos Previewは10回中3回完了した。このプロジェクトで過去に達成したのはMythosのみであり、GPT-5.5は2番目に到達したモデルだ。別のテストでは、GPT-5.5が約10分で逆向きエンジニアリングの問題を解く一方、人間の安全専門家の平均所要時間は12時間だ。

ユニバーサル・ジグレード：6時間のレッドチーム開発で悪意ある問い合わせのフィルタをすり抜け可能

AISIの研究員は、テスト中に「universal jailbreak」（汎用脱獄）という攻撃ベクトルも見つけた。すべてのテストにおける悪意のあるサイバー問い合わせカテゴリの中で、この攻撃はGPT-5.5に有害な内容を出力させるよう誘導でき、複数ラウンドのagentic対話の状況を含むものだ。AISIは、レッドチームの専門家がこのjailbreakを開発するのに約6時間しかかからなかったと述べている。

OpenAIにとって、このユニバーサル・ジグレードの存在は、GPT-5.5-Cyberがtrusted access計画などの制限付きのアクセス場面で展開されていたとしても、技術に熟練した対抗者によって迂回される可能性があることを意味する。OpenAIはGPT-5.5のsystem cardでサイバーセキュリティに関する評価をすでに明らかにしているが、AISIによる独立した第三者評価は、より信頼性の高い同僚基準を提供している。

今後の観察：AISIの次の評価時期、jailbreakへのOpenAIの対応

次の注目点は、AISIがMythosとGPT-5.5の後に行う次ラウンドのフロンティアモデル評価の時期と、OpenAIが今回の公開内容に含まれるユニバーサル・ジグレードに対して5月に的を絞ったアップデートを出すかどうかだ。AISIは報告書の結語で明確に、「攻撃的なサイバー能力が、より広範な推論、コーディング、自律的タスク改善の副産物であるなら、今後の進歩はより速いペースで到来し得る」—と述べている。この観察は、今後数か月のうちにフロンティアモデルが「Mythos級」のハードルへ再び到達する可能性を示唆している。

この記事のAISI評価：GPT-5.5のサイバー攻撃能力はAnthropic Mythosと拮抗　最初に出現したのは鏈ニュースABMedia。

免責事項：このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。