BioMysteryBench:Mythos 解専門家無解題 29.6%

ChainNewsAbmedia

Anthropicは4月29日、公式な研究発表でBioMysteryBench—AIのバイオインフォマティクス解析能力を対象とした新しい評価基準—を公開し、実在する研究シナリオにおけるオープンエンド型の問題で構成されていると述べた。最も注目すべきデータは、人間の専門家グループが試しても解けなかった問題のうち、AnthropicのフラッグシップモデルMythosが29.6%、Opus 4.7が27.0%を解けた点だ。

評価設計:解ける問題と、専門家でも解けない問題の二本立て

BioMysteryBenchは2種類の問題で構成される。第一のタイプは「解ける問題」—バイオインフォマティクスの研究者が設計し、標準解答との照合が可能な解析タスク。第二のタイプは「専門家でも解けない問題」—人間の専門家グループが試みても、信頼できる解答を見つけられなかった問題で、モデルが現在の分野知識の境界を越えられるかを試すためのものだ。

解ける問題のパートでは、Anthropicの各世代モデルが明確な能力の勾配を示す。Claude Haiku 4.5は36.8%を解き、Claude Sonnet 4.6は71.8%、最新のフラッグシップであるClaude Mythosは82.6%まで到達した。この勾配は、Anthropicが対外的に主張するモデル能力の差—Haikuは軽量型、Sonnetは主力型、Mythosは最上位の研究型—と概ね一致している。

本当に話題性があるのは、専門家でも解けない問題のほうだ。この種の問題は、バイオインフォマティクス領域の専門家グループによる評価の後、「解けない、または合意が得られない」としてラベル付けされたもの。Mythosはそのうち29.6%、Opus 4.7は27.0%を解けた。この結果は「モデルが人間より強い」という単一の証明ではない。より正確に言えば、専門家が経路や時間、資源の制約で扱えなかった問題に対して、AIが検証可能な解法の道筋を提示できる、ということであり、必ずしも最終解答そのものではないものの、「人間が試してこなかった観点」を持ち合わせている点が特徴だ。

Claude for Life Sciencesと並行して推進

BioMysteryBenchは、Anthropicが2025年下半期から推進している「Claude for Life Sciences」計画と同じ方向性を持つ。後者は創薬、ゲノム学、臨床試験の設計などの具体的な応用シーンを狙っている。一方、前者は評価手法によって、生命科学分野におけるAIの「研究レベルの能力」の進展を定量化するものだ。両者が組み合わさって示すシグナルは、Anthropicが生物医学をClaudeの長期的な応用の主要戦場の一つとして位置づけていること、そしてDeepMindのAlphaFoldとは異なる入口からの競争になっている点だ。

Mythosが約30%の専門家でも解けない問題を解けるという数値が、独立した第三者の検証で再現できるなら、AIモデルが研究の場で具体的に持つ価値を示す早期の実証となるだろう。今後の観察ポイントには、BioMysteryBenchが他の研究機関で標準的な評価として採用されるかどうか、人間の専門家による検証手順はどのように行われるのか、そしてMythosが実際の研究計画でテスト結果を再現できるかどうかが含まれる。

この記事『BioMysteryBench:Mythosが専門家でも解けない問題を29.6%解く』は、最初にチェーンニュースのABMediaで掲載された。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし