研究人員將 AlphaGo 的 MCTS 演算法應用於影像生成,使生成長度比 Sora 高出 18%

根據 Beating,來自滑鐵盧大學與布朗大學的研究人員在一篇提交至 ICLR 2026 的論文中提出「Planning at Inference」(推理時規劃),這是一種新的測試階段擴展框架。該框架首次將 AlphaGo 的蒙地卡羅樹搜尋(MCTS)演算法應用於長篇影片生成,並針對傳統序列式生成方法中的語意漂移與錯誤累積問題加以解決。

在使用 Nvidia 的開源 Cosmos-Predict2 模型的實驗中,「Planning at Inference」生成的連貫影片超過 20 秒。該系統在物件持久性、時間一致性與文字-影片對齊方面,表現優於 Greedy Search 與 Beam Search 等基準方法。與業界領先的封閉來源模型相比,使用此方法生成的影片比 Sora 長 18%,比 Kling 長 47%,且視覺保真度相近。作為即插即用的推理最佳化方法,該框架不需要對底層模型進行重新訓練。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆