Nous Research 開源 Lighthouse Attention,並在 B200 上以 17 倍速度提升,支援 512K 上下文

根據 Beating,Nous Research 已將 Lighthouse Attention 開源。這是一種長上下文訓練機制,可在單一 B200 GPU 上,將 512K 長度文字處理速度提升 17 倍,並在 98K 長度時提供 1.4–1.7 倍的端到端訓練加速。該技術採用粗到細的方法:先在不同層級掃描壓縮摘要以辨識核心片段,接著將篩選後的文本交由 FlashAttention 進行處理。在針對一個於 500 億 tokens 訓練的 51.2萬參數模型進行測試時,此方法不僅縮短了訓練時間,還達到或超越了全注意力式訓練的基準效能。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
回覆
0/400
暫無回覆