Selama bertahun-tahun, model bahasa besar bekerja seperti pengetik yang sangat cepat: satu kata sekaligus, dari kiri ke kanan, tanpa melihat ke belakang. DiffusionGemma membuang seluruh rencana itu. Model terbuka ini menggunakan teknik difusi untuk menghasilkan blok teks penuh secara bersamaan, mencapai kecepatan generasi hingga empat kali lebih cepat daripada model autoregresif tradisional.
Bagaimana DiffusionGemma sebenarnya bekerja
Model bahasa tradisional menghasilkan teks secara berurutan. Setiap token (sekitar satu kata atau fragmen kata) dihasilkan satu per satu, dengan setiap token baru bergantung pada semua yang telah datang sebelumnya.
DiffusionGemma meminjam dari keluarga teknik yang sama yang merevolusi generasi gambar. Model difusi bekerja dengan memulai dari kebisingan dan secara bertahap menyempurnakannya menjadi output yang koheren. Diterapkan pada teks, ini berarti model dapat bekerja pada beberapa bagian respons secara bersamaan, bukan menunggu setiap kata selesai sebelum melanjutkan ke kata berikutnya.
Dalam evaluasi, DiffusionGemma mencapai kecepatan pengambilan sampel sekitar 1.479 token per detik. Peningkatan kecepatan 4x ini bukanlah batas teoretis. Ini adalah tolok ukur yang terukur.
Karena model difusi menyempurnakan output secara iteratif daripada mengikat setiap token secara permanen, DiffusionGemma dapat menyesuaikan dan memperbaiki kesalahan selama proses generasi itu sendiri. Model tradisional tidak memiliki kemewahan itu. Sekali sebuah kata dihasilkan, ia menjadi tetap, dan setiap kesalahan di tahap selanjutnya akan berdampak berantai ke depan.
Sudut perangkat keras dan koneksi Google DeepMind
DiffusionGemma terinspirasi dari Gemini Diffusion dari Google DeepMind, yang mempelopori pendekatan berbasis difusi untuk generasi teks yang efisien.
DiffusionGemma dioptimalkan secara khusus untuk platform NVIDIA, termasuk sistem RTX PRO dan DGX, sehingga pengembang dapat menjalankan model secara lokal dengan kinerja yang dipercepat daripada mengandalkan exclusively API cloud.
Evaluasi benchmark menunjukkan bahwa DiffusionGemma berkinerja sebanding dengan model yang lebih besar sambil tetap mempertahankan keunggulan kecepatannya. Sebagai perbandingan, Gemini Diffusion mendapat skor 30,9% dibandingkan 28,5% dari Gemini 2.0 Flash-Lite pada benchmark yang dievaluasi.
Apa artinya ini bagi lanskap AI dan para investor
Untuk bisnis yang bergantung pada generasi teks cepat, implikasinya jelas. Pipeline penciptaan konten, otomatisasi layanan pelanggan, alat generasi kode, dan aplikasi apa pun di mana latensi penting dapat mendapat manfaat dari peningkatan kecepatan 4x. Inferensi yang lebih cepat juga berarti biaya komputasi per permintaan lebih rendah, yang secara langsung memengaruhi ekonomi penerapan AI dalam skala besar.
Risiko utama adalah adopsi. Sebuah model dapat berkinerja baik dalam evaluasi terkendali dan tetap kesulitan menghadapi permintaan dunia nyata yang kacau dan tidak terduga. Fakta bahwa model ini terbuka dan dioptimalkan untuk perangkat keras NVIDIA yang tersedia luas setidaknya menghilangkan dua hambatan umum untuk mencobanya.
