DiffusionGemma Mencapai Penciptaan Teks 4x Lebih Cepat Menggunakan Teknik Diffusion

Selama bertahun-tahun, model bahasa besar berfungsi seperti pengetik yang sangat pantas: satu perkataan pada satu masa, dari kiri ke kanan, tanpa menoleh semula. DiffusionGemma membuang seluruh panduan itu. Model terbuka ini menggunakan teknik difusi untuk menghasilkan blok teks penuh secara serentak, mencapai kelajuan penghasilan sehingga empat kali lebih pantas berbanding model autoregresif tradisional.

Bagaimana DiffusionGemma sebenarnya berfungsi

Model bahasa tradisional menghasilkan teks secara berurutan. Setiap token (kurang lebih satu perkataan atau sebahagian perkataan) dihasilkan satu demi satu, dengan setiap token baru bergantung kepada semua yang telah datang sebelumnya.

DiffusionGemma meminjam dari keluarga teknik yang sama yang merevolusi penghasilan imej. Model penyebaran berfungsi dengan memulakan dengan gangguan dan memperbaikinya secara berulang menjadi output yang koheren. Diterapkan pada teks, ini bermaksud model boleh bekerja pada beberapa bahagian respons pada masa yang sama, bukan menunggu setiap perkataan selesai sebelum bergerak ke yang seterusnya.

Dalam penilaian, DiffusionGemma mencapai kelajuan pengambilan sekitar 1,479 token per saat. Peningkatan kelajuan 4x bukanlah had teori. Ia adalah tolok ukur yang diukur.

Kerana model penyebaran menyempurnakan output secara berulang-ulang daripada mengikat setiap token secara tetap, DiffusionGemma boleh menyesuaikan dan memperbaiki ralat semasa proses penghasilan itu sendiri. Model tradisional tidak mempunyai kemudahan itu. Sekali perkataan dihasilkan, ia menjadi tetap, dan sebarang ralat seterusnya akan merambat ke hadapan.

Sudut peranti keras dan hubungan dengan Google DeepMind

DiffusionGemma mengambil inspirasi daripada Gemini Diffusion milik Google DeepMind, yang menjadi perintis pendekatan berdasarkan diffusion untuk penghasilan teks yang cekap.

DiffusionGemma dioptimaskan khusus untuk platform NVIDIA, termasuk sistem RTX PRO dan DGX, bermakna pembangun boleh menjalankan model secara tempatan dengan prestasi dipercepatkan tanpa bergantung sepenuhnya pada API awan.

Penilaian benchmark menunjukkan bahawa DiffusionGemma berprestasi sebanding dengan model yang lebih besar sambil mengekalkan kelebihan kelajuanannya. Sebagai rujukan, Gemini Diffusion mendapat skor 30.9% berbanding 28.5% untuk Gemini 2.0 Flash-Lite pada benchmark yang dinilai.

Apa yang bermaksud ini terhadap landskap AI dan pelabur

Untuk perniagaan yang bergantung kepada penghasilan teks pantas, implikasinya jelas. Saluran penciptaan kandungan, automasi perkhidmatan pelanggan, alat penghasilan kod, dan sebarang aplikasi di mana latensi penting boleh mendapat manfaat daripada peningkatan kelajuan 4x. Inferens yang lebih pantas juga bermaksud kos pengiraan yang lebih rendah setiap permintaan, yang secara langsung memberi kesan kepada ekonomi pelaksanaan AI dalam skala besar.

Risiko utama ialah pengambilan. Satu model boleh berprestasi baik dalam penilaian terkawal dan tetap mengalami kesukaran dengan permintaan dunia nyata yang kacau dan tidak dapat diramalkan. Fakta bahawa ia terbuka dan dioptimakan untuk peranti NVIDIA yang mudah didapati sekurang-kurangnya menghilangkan dua halangan biasa untuk mengetahui.