Hugging Face轉推turboquant-gpu工具,宣稱提供5.02倍KV緩存壓縮

robot
摘要生成中

ME 新聞訊息,4 月 6 日(UTC+8),Hugging Face 日前轉推了 anirudhbv_ce 發布的消息,宣布推出 turboquant-gpu 工具。該工具宣稱能為任意 GPU(包含 RTX、H100、A100、B200)提供高達 5.02 倍的 KV 快取壓縮。根據文中介紹,其特點包括:與 Hugging Face Transformers 程式庫相容;提供極簡 API,宣稱只需 3 行程式碼即可實現壓縮與生成;採用 3-bit Lloyd-Max 融合 KV 壓縮技術,並宣稱達到 0.98 的餘弦相似度。文中觀點認為,其效能表現優於 MXFP4(3.76 倍壓縮)以及另一個未命名的方案。(來源:InFoQ)

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言