根據 Anthropic 的系統卡披露,Mythos 5 模型讓通才型微生物學家在一場 16 小時的生物防禦紅隊演練中表現優於專家型人士:在科學品質與可行性方面,有 2 個之 3 個通才團隊的表現超越了全部 3 個專家團隊。專家估計,在沒有 AI 協助的情況下,完成此任務通常需要 40 至 95 個工作日,平均為 72.5 天。
不過,Anthropic 指出,Mythos 5 在自主研究能力上仍受限。該模型在開放式發想方面表現薄弱,傾向於將既有文獻進行重組,而非提出新的方法;即使在辨識出缺陷之後,仍可能持續追求有問題的框架。CUSP 科學預測基準也佐證了這些發現:GPT-5.4 在機制辨識任務上達到 81.9% 的準確率,但在二元分類「科學進展是否會實際成功」上僅有 45.3% 至 51.9% 的準確率,接近隨機猜測的水準。