Google DeepMind 發布 AI 合數學家(AI co-mathematician),一款多代理數學研究助理,在 FrontierMath 第 4 層級基準測試中達到 47.9% 的準確率,超越 GPT-5.5 Pro 先前在 5 月 9 日創下的 39.6% 記錄。該系統解出 48 題中的 23 題,包括 3 題是所有先前模型都無法解答的。系統基於 Gemini 3.1 Pro,採用分層架構:由專案協調員代理(project coordinator agent)分派任務給負責文獻檢索、編碼與推理的子代理(sub-agents),並由多個審查員代理(reviewer agents)在提交前驗證證明。
Epoch AI 進行了盲測,使 DeepMind 團隊無法看到題目;每道題目允許進行 48 小時的運算。在真實世界的應用中,數學家 Marc Lackenby 使用該系統解決了來自 Kourovka Notebook 的一個未解推測,展現其實際研究價值。目前該系統正以內測形式提供給少數數學家使用。
Related News