
Google DeepMind pada 10 Juni secara resmi merilis dan membuka sumber DiffusionGemma, sebagai anggota baru dari keluarga Gemma 4 open-source. DiffusionGemma menggunakan arsitektur generasi teks berbasis difusi, dengan perpaduan desain Mixture of Experts (MoE). Pada seluruh pengujian benchmark publik yang telah dipublikasikan, skor DiffusionGemma semuanya lebih rendah daripada Gemma 4 standar.
Data Uji Kecepatan Resmi dan Spesifikasi Perangkat Keras
Berdasarkan angka konfirmasi yang diumumkan oleh Google secara resmi:
Uji Kecepatan (Resmi Google, bukan verifikasi pihak ketiga)
Nvidia RTX 5090 (kelas konsumen):sekitar 700 token/detik
Nvidia H100 (kelas pusat data):menembus 1.000 token/detik
Rasio pengganda versi uji mandiri:sekitar 4 kali lipat dibanding model Gemma regresi otomatis dengan ukuran yang sama
Arsitektur dan Parameter
Jumlah parameter total:26 miliar (26B)
Jumlah parameter aktif saat inferensi:3,8 miliar (3.8B)
Kebutuhan VRAM:dapat dijalankan pada kartu grafis kelas atas dengan VRAM 18GB (terutama untuk versi yang dikuantisasi)
Pemrosesan paralel maksimum:hingga 256 token diproses sekaligus dalam satu waktu
Lisensi:Apache 2.0
Mekanisme Generasi: Perbedaan Inti antara Difusi dan Autoregresif
Model autoregresif standar menghasilkan token secara berurutan per kata, dengan setiap token bergantung pada hasil perhitungan token sebelumnya; bottleneck-nya ada pada bandwidth memori—setiap kali menghasilkan satu token, perlu membaca bobot model dari memori.
Alur DiffusionGemma berbeda: terlebih dahulu menyusun placeholder token di seluruh area keluaran, lalu melakukan beberapa putaran de-noising; setiap putaran membuat semua posisi token diperbarui secara bersamaan untuk saling mengoreksi, sampai seluruh konten konvergen menjadi output akhir. Pendekatan komputasi paralel yang padat daya ini memindahkan bottleneck dari bandwidth memori ke kemampuan komputasi GPU, sehingga memanfaatkan kemampuan paralel GPU modern secara lebih maksimal.
Google, dalam dokumen resminya, memberi contoh bahwa DiffusionGemma unggul secara struktural pada tugas logika nonlinier tipe pemecahan Sudoku, karena jawaban yang benar pada tugas seperti ini sering kali melibatkan hubungan dependensi antar posisi yang kompleks, sementara cara generasi linear autoregresif secara alami terbatas.
Hasil Benchmark: Semua Skor Pengujian yang Dipublikasikan Lebih Rendah dari Gemma 4
Google dalam materi rilisnya mengonfirmasi bahwa pada seluruh pengujian benchmark publik yang telah dipublikasikan, skor DiffusionGemma semuanya lebih rendah daripada Gemma 4 standar. Artinya, peningkatan kecepatan 4 kali lipat diiringi penurunan kualitas secara sistematis saat menghasilkan. Artikel BlockTempo menyebutkan bahwa pertukaran ini memiliki makna yang berbeda untuk berbagai skenario aplikasi: untuk skenario yang sensitif terhadap latensi atau yang memerlukan output dalam jumlah besar, keunggulan kecepatan itu nyata; untuk tugas yang menuntut kualitas lebih tinggi, Gemma 4 standar saat ini masih lebih dapat diandalkan.
Skenario penggunaan yang dicantumkan Google untuk DiffusionGemma meliputi: pengeditan inline (in-line editing), generasi sekuens molekul, diagram matematika, serta tugas nonlinier yang melibatkan relasi dependensi logika yang kompleks.
Pertanyaan yang Sering Diajukan
Apa perbedaan mendasar mekanisme generasi antara DiffusionGemma dan model bahasa autoregresif standar?
Model autoregresif standar menghasilkan secara linear per token, dengan setiap token bergantung pada hasil token sebelumnya. DiffusionGemma terlebih dahulu mengisi seluruh area keluaran dengan placeholder token, melakukan beberapa putaran de-noising, dan pada setiap putaran semua posisi diperbarui secara bersamaan; akhirnya output seluruh naskah final hanya sekali, sehingga logika generasinya lebih mirip cara Stable Diffusion menghasilkan gambar.
DiffusionGemma dapat dijalankan secara lokal pada perangkat keras apa?
Menurut penjelasan Google, DiffusionGemma dapat dijalankan pada kartu grafis kelas atas dengan VRAM 18GB, terutama untuk versi yang dikuantisasi. Hasil uji resmi Google menunjukkan bahwa Nvidia RTX 5090 kelas konsumen dapat mencapai sekitar 700 token per detik, namun angka di atas adalah penilaian mandiri Google, bukan verifikasi independen pihak ketiga.
Apakah angka kecepatan DiffusionGemma sudah diverifikasi pihak ketiga?
Belum. BlockTempo dengan jelas menegaskan bahwa semua angka uji kecepatan berasal dari pengujian resmi Google, bukan verifikasi independen pihak ketiga; pada skenario berbeda dan panjang generasi berbeda, rasio peningkatan aktual mungkin berbeda dari angka resmi.