研究人员将 AlphaGo 的 MCTS 算法应用于视频生成,长度比 Sora 高出 18%

据 Beating,来自滑铁卢大学和布朗大学的研究人员在提交给 ICLR 2026 的论文中提出了推理时规划(Planning at Inference),这是一种新的测试时扩展框架。该框架首次将 AlphaGo 的蒙特卡洛树搜索(MCTS)算法应用于长视频生成,解决了传统顺序生成方法中的语义漂移和误差累积问题。

在使用 Nvidia 的开源 Cosmos-Predict2 模型的实验中,推理时规划生成的连贯视频超过 20 秒。该系统在目标持续性、时间一致性和文本-视频对齐方面,优于 Greedy Search 和 Beam Search 等基线方法。与业界领先的闭源模型相比,此方法生成的视频时长比 Sora 长 18%,比 Kling 长 47%,且视觉保真度相当。作为即插即用的推理优化框架,该框架无需对底层模型进行再训练。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论