Tilde Research Menemukan Muon Optimizer Mematikan 25% Neuron; Alternatif Aurora Mencapai Kenaikan Efisiensi Data 100x

Menurut Tilde Research, pengoptimal Muon yang diadopsi oleh model AI terkemuka termasuk DeepSeek V4 dan Kimi K2.5 memiliki cacat tersembunyi: ia menyebabkan lebih dari 25% neuron pada lapisan MLP mati secara permanen selama pelatihan awal. Tim merancang Aurora, pengoptimal alternatif, dan memublikasikannya secara open-source. Model berparameter 1,1 miliar yang dilatih hanya dengan 100 miliar token menyamai kinerja Qwen3-1,7 miliar yang dilatih dengan 36 triliun token pada tolok ukur pemahaman bahasa seperti HellaSwag dan Winogrande, yang menunjukkan peningkatan efisiensi data sekitar 100x. Aurora menambahkan overhead komputasi 6% dibanding Muon dan dapat menjadi pengganti langsung.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar