Perpustakaan operator GPU sumber terbuka DeepSeek DeepGEMM memperbarui versi besar, menambahkan Mega MoE yang menggabungkan lima langkah perhitungan MoE menjadi satu kernel

robot
Pembuatan abstrak sedang berlangsung

Berita ME News, 16 April (UTC+8), menurut pemantauan Beating dari Dongcha, DeepSeek hari ini merilis pembaruan terbesar sejak peluncuran DeepGEMM open source. Perpustakaan operator GPU ini yang dirilis selama “Minggu Open Source” tahun lalu pada bulan Februari, awalnya hanya untuk perkalian matriks FP8, kini diperluas menjadi perpustakaan operator lengkap yang mencakup bagian penting inferensi model besar, mendukung berbagai presisi matriks seperti FP8, FP4, BF16, serta operator khusus seperti MoE dan penilaian perhatian. Penambahan utama adalah Mega MoE. Arsitektur MoE (ahli campuran) adalah dasar dari model seperti DeepSeek V3, yang selama inferensi memerlukan lima langkah berturut-turut: distribusi EP, transformasi linier lapisan pertama, aktivasi SwiGLU, transformasi linier lapisan kedua, dan penggabungan EP. Pendekatan tradisional melibatkan pemanggilan lima kernel terpisah secara berurutan, di mana setiap panggilan harus menunggu langkah sebelumnya selesai dan data dipindahkan di memori GPU. Mega MoE menggabungkan kelima langkah ini menjadi satu kernel, memungkinkan komunikasi NVLink dan perhitungan Tensor Core berjalan bersamaan, mengurangi waktu tunggu dan pemindahan data di tengah proses. Saat ini hanya mendukung kombinasi presisi FP8×FP4, membutuhkan PyTorch 2.9 atau versi lebih baru, tim menyatakan masih dalam proses optimisasi, dan data perbandingan performa akan diumumkan nanti. Penambahan lain termasuk: perkalian matriks presisi campuran FP8×FP4, operator penilaian perhatian FP4 yang mendukung MTP lebih besar (Indexer), PDL (programmatic dependency launch, sebuah optimisasi penjadwalan GPU yang mengurangi latensi startup kernel), kecepatan JIT yang lebih cepat, dan berbagai optimisasi untuk operasi matriks MoE. Pembaruan ini juga menyesuaikan dengan tata letak data MoE dari DeepEPv2. Dalam penjelasan PR disebutkan secara khusus: “Rilis ini hanya terkait pengembangan DeepGEMM dan tidak terkait dengan rilis model internal.” (Sumber: BlockBeats)

DEEPSEEK-1,91%
MEGA0,07%
KERNEL1,69%
ME1,43%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan