人工分析發布程式碼代理基準測試;智譜 GLM-5.1 在開源模型中名列第一

人工分析(Artificial Analysis)今天發布一份新的「程式代理(Coding Agent)指標」,用以評估當 AI 模型與代理框架結合時在多項關鍵基準測試上的表現,包括 SWE-Bench-Pro-Hard-AA、Terminal-Bench v2 與 SWE-Atlas-QnA。在此次評估中,智譜 GLM-5.1 在開源模型中排名第一,展現出在真實世界的程式代理場景中的領先效能。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
回覆
0/400
暫無回覆