研究者たちはAlphaGoのMCTSアルゴリズムを動画生成に適用し、長さでSoraを18%上回った

Beatingによると、ウォータールー大学とブラウン大学の研究者が、ICLR 2026に投稿された論文で、推論時スケーリングの新しい枠組み「Planning at Inference(推論時に計画する)」を提案した。この枠組みは、AlphaGoのモンテカルロ木探索(MCTS)アルゴリズムを長尺の動画生成に初めて適用し、従来の逐次生成手法における意味のドリフトや誤差の蓄積の問題に対処する。

NvidiaのオープンソースCosmos-Predict2モデルを用いた実験では、「Planning at Inference」は20秒を超える首尾一貫した動画を生成した。このシステムは、Greedy SearchやBeam Searchのようなベースライン手法よりも、物体の持続性、時間的一貫性、テキストと動画の整合性で優れていた。業界トップクラスのクローズドソースモデルと比べると、この手法で生成された動画はSoraより18%長く、Klingより47%長かった一方、視覚的な忠実度は同等だった。この「プラグアンドプレイ」の推論最適化として、枠組みは基盤となるモデルの再学習を必要としない。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし