Yifan Zhang Mengungkap Spesifikasi Teknis Lengkap DeepSeek V4: 1,6T Parameter, 384 Pakar dengan 6 Aktivasi

Berita Gate, 22 April — Mahasiswa PhD Princeton, Yifan Zhang, mengungkapkan spesifikasi teknis lengkap untuk DeepSeek V4 di X, setelah pratinjau pada 19 April. V4 memiliki 1,6 triliun parameter total dan varian ringan, V4-Lite, dengan 285 miliar parameter.

Model menggunakan mekanisme perhatian DSA2, yang menggabungkan DSA (DeepSeek Sparse Attention) sebelumnya dari DeepSeek pada V3.2 dan NSA (Native Sparse Attention) dengan embedding kepala berdimensi 512, dipasangkan dengan Sparse Multi-Query Attention (MQA) dan Sliding Window Attention (SWA). Lapisan MoE (Mixture of Experts) berisi 384 pakar dengan 6 yang diaktifkan per sekali forward pass, menggunakan Fused MoE Mega-Kernel. Koneksi residual menggunakan arsitektur Hyper-Connections.

Detail pelatihan yang diungkap untuk pertama kalinya mencakup penggunaan optimizer Muon (applying Newton-Schulz orthogonalization to momentum updates), jendela konteks pra-pelatihan 32K token, serta GRPO (Group Relative Policy Optimization) dengan koreksi divergensi KL selama reinforcement learning. Jendela konteks akhir diperluas hingga 1 juta token. Model hanya teks.

Zhang tidak bekerja untuk DeepSeek, dan perusahaan belum secara resmi memberikan komentar atas informasi yang diungkapkan.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar