📢 早安!Gate 廣場|4/5 熱議:#假期持币指南
🌿 踏青還是盯盤?#假期持币指南 帶你過個“放鬆感”長假!
春光正好,你是選擇在山間深呼吸,還是在 K 線裡找時機?在這個清明假期,曬出你的持幣態度,做個精神飽滿的交易員!
🎁 分享生活/交易感悟,抽 5 位幸運兒瓜分 $1,000 仓位體驗券!
💬 茶餘飯後聊聊:
1️⃣ 假期心態: 你是“關掉通知、徹底失聯”派,還是“每 30 分鐘必刷行情”派?
2️⃣ 懶人秘籍: 假期不想盯盤?分享你的“掛機”策略(定投/網格/理財)。
3️⃣ 四月展望: 假期過後,你最看好哪個幣種“春暖花開”?
分享你的假期姿態 👉 https://www.gate.com/post
📅 4/4 15:00 - 4/6 18:00 (UTC+8)
MIT 攜手英偉達開發 TLT 技術,推理 AI 大模型訓練效率最高提速 210%
IT之家 2 月 28 日消息,MIT News 於 2 月 26 日發布博文,報稱麻省理工學院(MIT)聯合英偉達等機構,發布「馴服長尾」(TLT)技術,可以大幅提升推理大語言模型(LLM)的訓練效率。
IT之家援引博文介紹,推理大模型擅長透過拆解步驟來解決複雜問題,但在強化學習(RL)的訓練過程中,算力與能耗的消耗極為巨大。
研究團隊發現,生成多個備選答案的「推演」(rollout)階段占據了高達 85% 的訓練時間。由於不同處理器生成回覆的長度不一,完成較快的處理器只能被迫閒置,等待其他處理器完成長文本任務,從而形成了嚴重的效率瓶頸。
MIT 研究人員為解決該痛點,聯合英偉達、蘇黎世聯邦理工學院等機構,提出了一種名為「馴服長尾(TLT)」的自適應解決方案。
該方案的核心在於創新性地運用「投機解碼」技術,即訓練一個較小的「草稿模型」(drafter)來快速預測大模型的未來輸出,隨後由大模型批量驗證這些猜測。這樣一來,大模型無需逐個順序生成輸出,從而大幅加快了處理進程。
在傳統的投機解碼中,草稿模型通常只訓練一次並保持靜態。然而在強化學習中,主模型需要更新數千次,靜態草稿模型會迅速失效。
因此,TLT 系統引入了「自適應草稿訓練器」。一旦部分處理器完成短查詢進入閒置狀態,系統會立即調度它們即時訓練草稿模型。
同時,「自適應推演引擎」會根據工作負載特徵自動調整解碼策略,確保草稿模型始終與目標大模型保持高度同步,且不增加額外算力開銷。
基於真實世界資料集的測試表明,TLT 技術在保持模型準確率完全無損的情況下,將多個推理大語言模型的訓練速度提升了 70% 到 210%。
不僅如此,訓練得到的輕量級草稿模型還可以作為免費的副產品,直接用於後期的高效部署。研究團隊未來計劃將該技術融入更多訓練與推理框架中,進一步降低 AI 開發成本並提升能源利用率。