根據 Beating,來自滑鐵盧大學與布朗大學的研究人員在一篇提交至 ICLR 2026 的論文中提出「Planning at Inference」(推理時規劃),這是一種新的測試階段擴展框架。該框架首次將 AlphaGo 的蒙地卡羅樹搜尋(MCTS)演算法應用於長篇影片生成,並針對傳統序列式生成方法中的語意漂移與錯誤累積問題加以解決。
在使用 Nvidia 的開源 Cosmos-Predict2 模型的實驗中,「Planning at Inference」生成的連貫影片超過 20 秒。該系統在物件持久性、時間一致性與文字-影片對齊方面,表現優於 Greedy Search 與 Beam Search 等基準方法。與業界領先的封閉來源模型相比,使用此方法生成的影片比 Sora 長 18%,比 Kling 長 47%,且視覺保真度相近。作為即插即用的推理最佳化方法,該框架不需要對底層模型進行重新訓練。