📢 Gate 廣場 TradFi 交易分享挑戰上線!
晒单瓜分 $30,000 獎池,新人首帖 100% 中獎!
📌 參與方式:
帶 #TradFi交易分享挑战 發帖,滿足以下任一即可:
🔹 帶今日指定 TradFi 幣種標籤發帖交流。
🔹 完成單筆大於 $10U 的 TradFi CFD 交易並掛載交易卡片。
🏷️ 今日指定標籤:USDJPY、AUDUSD、US30、TSLA、JPN225
🎁 寵粉福利:
1️⃣ 卡片分享獎: 抽 50 人,每人送 $100 仓位體驗券!
2️⃣ 發帖榜單獎: 衝排行榜,贏 WCTC 限定 T 恤!
3️⃣ 新粉見面禮: 新人首次發帖,100% 領 $10 體驗券!
詳情:https://www.gate.com/announcements/article/51221
Qwen3.7-Max正式發布:35小時自主寫代碼1158次,在國產芯片上煉出10倍加速算子
在優化過程中,模型歷經了五個核心演進階段。它首先通過 Split-K 分區將前綴 KV-cache 沿 token 維度劃分以填滿 36 個 SM 核心;隨後將主機與設備間同步的 cudaMalloc 替換為預分配的 PyTorch 變量,並通過使用 tensor 元數據完全抹去了查詢前綴長度時的同步 cudaMemcpy 動作,徹底移除了主機與設備間的通信開銷;在最後階段,模型重構算子以在單個線程塊中同時處理全部 4 個 query token,共享加載以分攤訪存開銷,完成了關鍵的架構級特化重構。
算子優化實測顯示,Qwen3.7-Max 取得 10.0x 幾何平均加速比,顯著超越 GLM 5.1(7.3x)與 Kimi K2.6(5.0x)。而 DeepSeek V4 Pro 僅為 3.3x 且在後半程因連續五輪未發出任何工具調用而提前主動結束任務。
為了在多變環境裡掌握通用的解題策略,Qwen3.7-Max 在訓練中將任務、運行框架與驗證器進行了解耦,並通過跨框架強化學習訓練避免了針對特定基準的捷徑過擬合。在通用的智能體基準 MCP-Mark(60.8 分)與 SpreadSheetBench(87.0 分)上,Qwen3.7-Max 展現了極強的泛化性,綜合性能表現已緊逼 Claude-4.6-Opus-Max。