據動察 Beating，Qwen3.7-Max正式發布。35小時、跨1158次工具調用的全自主內核優化任務，平頭哥 M890 Triton算子實現10倍提升。五階段優化包括 Split-K 緩存分區、用預分配變量替代 cudaMalloc、用 tensor 元數據去除前綴查詢同步、在單線程塊內並行處理4個 query token 以共享加載。實測10倍加速，超越 GLM5.1、Kimi K2.6，DeepSeek V4 Pro僅3.3倍且後期無工具調用而結束。訓練解耦任務/框架/驗證器，跨框架強化學習，MCP-Mark、SpreadSheetBench上泛化性強，接近 Claude-4.6-Opus-Max。

区块律动

2026-05-20 03:36:50

摘要生成中

據動察 Beating 監測，阿里通義千問正式發布新一代智能體旗艦基底 Qwen3.7-Max。官方公布的實戰數據顯示，在完全沒有芯片架構文檔與性能分析數據的情況下，新模型在一項長達 35 小時、跨越 1158 次工具調用的全自主內核優化任務中，將國產平頭哥真武 M890 處理器的 Triton 算子性能強行提升了 10.0 倍。

在優化過程中，模型歷經了五個核心演進階段。它首先通過 Split-K 分區將前綴 KV-cache 沿 token 維度劃分以填滿 36 個 SM 核心；隨後將主機與設備間同步的 cudaMalloc 替換為預分配的 PyTorch 變量，並通過使用 tensor 元數據完全抹去了查詢前綴長度時的同步 cudaMemcpy 動作，徹底移除了主機與設備間的通信開銷；在最後階段，模型重構算子以在單個線程塊中同時處理全部 4 個 query token，共享加載以分攤訪存開銷，完成了關鍵的架構級特化重構。

算子優化實測顯示，Qwen3.7-Max 取得 10.0x 幾何平均加速比，顯著超越 GLM 5.1（7.3x）與 Kimi K2.6（5.0x）。而 DeepSeek V4 Pro 僅為 3.3x 且在後半程因連續五輪未發出任何工具調用而提前主動結束任務。

為了在多變環境裡掌握通用的解題策略，Qwen3.7-Max 在訓練中將任務、運行框架與驗證器進行了解耦，並通過跨框架強化學習訓練避免了針對特定基準的捷徑過擬合。在通用的智能體基準 MCP-Mark（60.8 分）與 SpreadSheetBench（87.0 分）上，Qwen3.7-Max 展現了極強的泛化性，綜合性能表現已緊逼 Claude-4.6-Opus-Max。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

熱門話題
查看更多
#
TradFi交易分享挑戰
18.01萬熱度
#
30年期美債殖利率突破5%
35.64萬熱度
#
Polymarket每日熱點
99.96萬熱度
#
RWA總市值突破650億美元
875.55萬熱度
#
Gate廣場披薩節
167.43萬熱度

Qwen3.7-Max正式發布：35小時自主寫代碼1158次，在國產芯片上煉出10倍加速算子

熱門話題

TradFi交易分享挑戰

30年期美債殖利率突破5%

Polymarket每日熱點

RWA總市值突破650億美元

Gate廣場披薩節

已置頂