Anthropicは4月29日、公式な研究発表でBioMysteryBench—AIのバイオインフォマティクス解析能力を対象とした新しい評価基準—を公開し、実在する研究シナリオにおけるオープンエンド型の問題で構成されていると述べた。最も注目すべきデータは、人間の専門家グループが試しても解けなかった問題のうち、AnthropicのフラッグシップモデルMythosが29.6%、Opus 4.7が27.0%を解けた点だ。
評価設計:解ける問題と、専門家でも解けない問題の二本立て
BioMysteryBenchは2種類の問題で構成される。第一のタイプは「解ける問題」—バイオインフォマティクスの研究者が設計し、標準解答との照合が可能な解析タスク。第二のタイプは「専門家でも解けない問題」—人間の専門家グループが試みても、信頼できる解答を見つけられなかった問題で、モデルが現在の分野知識の境界を越えられるかを試すためのものだ。
解ける問題のパートでは、Anthropicの各世代モデルが明確な能力の勾配を示す。Claude Haiku 4.5は36.8%を解き、Claude Sonnet 4.6は71.8%、最新のフラッグシップであるClaude Mythosは82.6%まで到達した。この勾配は、Anthropicが対外的に主張するモデル能力の差—Haikuは軽量型、Sonnetは主力型、Mythosは最上位の研究型—と概ね一致している。
本当に話題性があるのは、専門家でも解けない問題のほうだ。この種の問題は、バイオインフォマティクス領域の専門家グループによる評価の後、「解けない、または合意が得られない」としてラベル付けされたもの。Mythosはそのうち29.6%、Opus 4.7は27.0%を解けた。この結果は「モデルが人間より強い」という単一の証明ではない。より正確に言えば、専門家が経路や時間、資源の制約で扱えなかった問題に対して、AIが検証可能な解法の道筋を提示できる、ということであり、必ずしも最終解答そのものではないものの、「人間が試してこなかった観点」を持ち合わせている点が特徴だ。
Claude for Life Sciencesと並行して推進
BioMysteryBenchは、Anthropicが2025年下半期から推進している「Claude for Life Sciences」計画と同じ方向性を持つ。後者は創薬、ゲノム学、臨床試験の設計などの具体的な応用シーンを狙っている。一方、前者は評価手法によって、生命科学分野におけるAIの「研究レベルの能力」の進展を定量化するものだ。両者が組み合わさって示すシグナルは、Anthropicが生物医学をClaudeの長期的な応用の主要戦場の一つとして位置づけていること、そしてDeepMindのAlphaFoldとは異なる入口からの競争になっている点だ。
Mythosが約30%の専門家でも解けない問題を解けるという数値が、独立した第三者の検証で再現できるなら、AIモデルが研究の場で具体的に持つ価値を示す早期の実証となるだろう。今後の観察ポイントには、BioMysteryBenchが他の研究機関で標準的な評価として採用されるかどうか、人間の専門家による検証手順はどのように行われるのか、そしてMythosが実際の研究計画でテスト結果を再現できるかどうかが含まれる。
この記事『BioMysteryBench:Mythosが専門家でも解けない問題を29.6%解く』は、最初にチェーンニュースのABMediaで掲載された。
Related News
Anthropic が総額 9,000 億ドル相当の評価額で資金調達の交渉を進め、取締役会は最速で 5 月に判断
オックスフォードのインターネット研究所:親切なトレーニングによりAIの誤り率が7.43パーセントポイント上昇
Anthropic が新たな資金調達を検討し、評価額が OpenAI を上回って評価額最高の AI スタートアップに
a16z クリプト 研究レポート:AI エージェント DeFi 脆弱性悪用率が 70% に到達
米メディア:ホワイトハウスの行政命令案により、Anthropic Mythos モデルが政府に導入されることが許可される