馬斯克稱讚:令人印象深刻!中國 AI 模型 Kimi 的秘密武器是什麼?

鏈新聞abmedia

中國 AI 新創 Moonshot AI 旗下模型 Kimi 近日發布一篇技術報告,提出名為「Attention Residuals」的新架構,試圖改寫 Transformer 長期沿用的殘差設計。報告發布後不久,Elon Musk 也在社群上表示「Impressive work from Kimi (Kimi 的作品令人印象深刻)」,讓這項技術迅速受到關注。

中國 AI 模型 Kimi 將 attention 延伸到模型之間

這次 Kimi 的重點,其實是在處理 Transformer 裡一個很核心、但很少被重新思考的機制:Residual Connection。自 ResNet 以來,大多數模型都是把每一層的輸出「直接加回去」,而且權重都一樣。這樣做簡單又穩定,但當模型變得很深時,問題也開始出現:前面累積的資訊會越來越多,新的訊號反而很難發揮作用,甚至會被淹沒,讓模型訓練變得更困難。

Kimi 的做法,是把 attention 機制從原本用在「token 之間」,延伸到「模型層與層之間」。在 Attention Residuals 中,每一層不再平均接收所有過去層的資訊,而是透過 attention 去「選擇」哪些層比較重要。也就是說,模型不再只是一直累加,而是會根據當下的輸入,主動挑選有用的資訊來用。

Kimi 成功在不增加推論延遲下,提升 1.25 倍效率

但如果每一層都去看所有歷史層,成本會太高。因此 Kimi 又提出一個折衷做法,叫做 Block Attention Residuals:先把模型切成幾個區塊,區塊內維持原本的加總方式,但在區塊之間才用 attention 做選擇。這樣既能保留「選擇資訊」的能力,又能大幅降低記憶體和運算負擔,實際上可以直接套用在現有模型上。

從結果來看,Kimi 在一個大型模型上,幾乎沒有增加推論延遲(不到 2%),卻換來約 1.25 倍的效率提升,並且在多個測試指標上都有進步。這代表這種改法不只是理論漂亮,也具備實際落地的價值。過去 attention 解決的是「字與字之間的關係」,而 Kimi 進一步讓模型開始思考「不同層之間該用哪些資訊」。

簡單來說,模型不只是讀資料,還開始學會怎麼回頭找自己過去算過的內容。

這篇文章 馬斯克稱讚:令人印象深刻!中國 AI 模型 Kimi 的秘密武器是什麼? 最早出現於 鏈新聞 ABMedia。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论