Anthropicのシステムカード開示によると、Mythos 5モデルは、16時間の生物防衛レッドチーム演習において、総合型の微生物学者が専門家を上回ることを可能にし、3つの専門チームすべてを科学的な質と実現可能性の面で上回ったのは、総合型チームが3チーム中2チームでした。専門家は、この作業はAI支援なしでは通常40〜95営業日かかると見積もっており、平均は72.5日でした。
しかし、AnthropicはMythos 5が自律的な研究能力に依然として制限があると指摘しました。このモデルは、自由な発想が弱く、独自のアプローチを提案するよりも既存の文献を再結合する傾向があり、欠陥を特定した後でも誤った枠組みを追い続ける可能性がありました。CUSP科学予測ベンチマークもこれらの知見を裏付けており、GPT-5.4はメカニズム同定タスクで81.9%の精度を達成した一方で、科学的進歩が実際に成功するかどうかの二値分類では45.3%〜51.9%にとどまり、ランダム推測に近い水準でした。