16 April, DeepGEMM merilis pembaruan terbesar dalam sejarah, memperluas menjadi perpustakaan operator lengkap untuk inferensi model besar, mendukung operasi matriks FP8/FP4/BF16 serta operator khusus seperti MoE dan perhatian. Inti dari pembaruan ini adalah Mega MoE, yang menggabungkan lima langkah inferensi menjadi satu kernel, memanfaatkan NVLink dan Tensor Core secara paralel, secara signifikan mengurangi waktu tunggu dan pemindahan data; saat ini hanya mendukung FP8×FP4, membutuhkan PyTorch 2.9+, data kinerja akan diumumkan kemudian. Pembaruan ini juga memperkenalkan perkalian matriks FP8×FP4, penilaian perhatian FP4, PDL dan JIT yang lebih cepat serta optimasi lainnya, dan menyesuaikan dengan tata letak data DeepEPv2 MoE.

MeNews

2026-05-14 18:50:03

Pembuatan abstrak sedang berlangsung

Berita ME News, 16 April (UTC+8), menurut pemantauan Beating dari Dongcha, DeepSeek hari ini merilis pembaruan terbesar sejak peluncuran DeepGEMM open source. Perpustakaan operator GPU ini yang dirilis selama “Minggu Open Source” tahun lalu pada bulan Februari, awalnya hanya untuk perkalian matriks FP8, kini diperluas menjadi perpustakaan operator lengkap yang mencakup bagian penting inferensi model besar, mendukung berbagai presisi matriks seperti FP8, FP4, BF16, serta operator khusus seperti MoE dan penilaian perhatian. Penambahan utama adalah Mega MoE. Arsitektur MoE (ahli campuran) adalah dasar dari model seperti DeepSeek V3, yang selama inferensi memerlukan lima langkah berturut-turut: distribusi EP, transformasi linier lapisan pertama, aktivasi SwiGLU, transformasi linier lapisan kedua, dan penggabungan EP. Pendekatan tradisional melibatkan pemanggilan lima kernel terpisah secara berurutan, di mana setiap panggilan harus menunggu langkah sebelumnya selesai dan data dipindahkan di memori GPU. Mega MoE menggabungkan kelima langkah ini menjadi satu kernel, memungkinkan komunikasi NVLink dan perhitungan Tensor Core berjalan bersamaan, mengurangi waktu tunggu dan pemindahan data di tengah proses. Saat ini hanya mendukung kombinasi presisi FP8×FP4, membutuhkan PyTorch 2.9 atau versi lebih baru, tim menyatakan masih dalam proses optimisasi, dan data perbandingan performa akan diumumkan nanti. Penambahan lain termasuk: perkalian matriks presisi campuran FP8×FP4, operator penilaian perhatian FP4 yang mendukung MTP lebih besar (Indexer), PDL (programmatic dependency launch, sebuah optimisasi penjadwalan GPU yang mengurangi latensi startup kernel), kecepatan JIT yang lebih cepat, dan berbagai optimisasi untuk operasi matriks MoE. Pembaruan ini juga menyesuaikan dengan tata letak data MoE dari DeepEPv2. Dalam penjelasan PR disebutkan secara khusus: “Rilis ini hanya terkait pengembangan DeepGEMM dan tidak terkait dengan rilis model internal.” (Sumber: BlockBeats)

DEEPSEEK-1,91%

MEGA0,07%

KERNEL1,69%

ME1,43%

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GateSquareMayTradingShare
1.66M Popularitas
#
IsraelStrikesIranBTCPlunges
46.68K Popularitas
#
#DailyPolymarketHotspot
933.09K Popularitas
#
JaneStreetReducesBitcoinETFHoldings
105.1K Popularitas
#
TrumpVisitsChina
53.39K Popularitas

Disematkan

peta situs

Perpustakaan operator GPU sumber terbuka DeepSeek DeepGEMM memperbarui versi besar, menambahkan Mega MoE yang menggabungkan lima langkah perhitungan MoE menjadi satu kernel

Topik Trending

GateSquareMayTradingShare

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

JaneStreetReducesBitcoinETFHoldings

TrumpVisitsChina

Disematkan