Para Peneliti Menerapkan Algoritma MCTS AlphaGo untuk Pembuatan Video, Melampaui Sora sebesar 18% dalam Durasi

Menurut Beating, peneliti dari University of Waterloo dan Brown University memperkenalkan Planning at Inference, sebuah kerangka penskalaan pada waktu inferensi baru dalam makalah yang diajukan ke ICLR 2026. Kerangka ini menerapkan algoritma Monte Carlo Tree Search (MCTS) milik AlphaGo untuk pertama kalinya pada generasi video berdurasi panjang, mengatasi masalah semantic drift dan akumulasi kesalahan pada metode generasi berurutan tradisional.

Dalam eksperimen menggunakan model Cosmos-Predict2 open-source dari Nvidia, Planning at Inference menghasilkan video yang koheren dengan durasi lebih dari 20 detik. Sistem ini mengungguli metode baseline seperti Greedy Search dan Beam Search dalam ketahanan objek, konsistensi temporal, dan keselarasan teks-video. Dibandingkan dengan model tertutup yang memimpin industri, video yang dihasilkan dengan metode ini berdurasi 18% lebih panjang daripada Sora dan 47% lebih panjang daripada Kling, dengan kualitas visual yang sebanding. Sebagai optimisasi inferensi plug-and-play, kerangka ini tidak memerlukan pelatihan ulang pada model yang mendasarinya.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar