Google Melancarkan Inferens AI Tempatan 3x Lebih Cepat Tanpa Peranti Baru

Laman web dunia mata wang kripto melaporkan:

Menghidupkan model kecerdasan buatan di komputer sendiri memang baik—tetapi tidak selalu begitu.

Menjanjikan perlindungan privasi, tiada yuran langganan, dan data tidak akan keluar dari peranti anda. Tetapi bagi kebanyakan orang, kenyataannya ialah, di antara ayat-ayat, kursor berkelip selama lima saat.

Penghalang ini mempunyai nama: kelajuan inferens. Ia tidak berkaitan dengan tahap kecerdasan model, tetapi merupakan masalah peranti keras. Model AI piawai menghasilkan satu unit perkataan (dikenali sebagai "token") pada satu masa, dan peranti keras mesti menghantar miliaran parameter dari memori ke unit pengiraan untuk menghasilkan setiap token. Reka bentuk ini sendiri sangat perlahan. Di atas peranti pengguna, ia benar-benar tidak tertahankan.

Kebanyakan orang menggunakan jalan keluar dengan menjalankan model yang lebih kecil dan kurang cekap, atau versi yang sangat dikompresi, dikenali sebagai model terkuantisasi. Kedua-dua penyelesaian ini tidak sempurna, kerana kedua-duanya mengorbankan sedikit kualiti untuk mendapatkan kelajuan. Walaupun kedua-duanya boleh dijalankan, ia bukanlah model yang benar-benar anda inginkan.

Sekarang Google mengusulkan cadangan yang berbeza. Syarikat tersebut baru sahaja menerbitkan draf Multi-Token Prediction (MTP) untuk teknologi model terbuka Gemma 4 Family—teknologi ini mampu meningkatkan kelajuan sehingga tiga kali ganda tanpa kesan langsung terhadap kualiti model atau kemampuan inferens.

Kaedah ini dikenali sebagai speculative decoding, dan konsepnya telah wujud selama bertahun-tahun. Para penyelidik Google telah menerbitkan kertas kerja perintis pada tahun 2022. Baru sekarang, idea ini perlahan-lahan diterima secara umum kerana ia memerlukan arsitektur yang sesuai untuk dijalankan dalam skala besar.

Secara ringkas, cara kerjanya adalah seperti ini: alih-alih membiarkan model besar yang berkuasa menyelesaikan semua tugas sendiri, ia digabungkan dengan model "penghujah" kecil. Model penghujah ini cepat dan berkos rendah—ia boleh meramal beberapa token sekaligus dalam masa yang lebih singkat daripada masa yang diperlukan oleh model utama untuk menghasilkan satu token. Kemudian, model besar hanya perlu satu laluan untuk memeriksa semua ramalan ini. Jika ramalan itu betul, maka keseluruhan urutan boleh diperoleh dengan hanya sekali laluan maju.

Menurut Google "Jika model sasaran bersetuju dengan draf tersebut, ia akan menerima keseluruhan urutan dalam satu perjalanan maju — bahkan menghasilkan tanda tambahan sendiri semasa proses tersebut."

Tiada kerugian: Model besar—seperti versi padat 31 miliar Gemma 4—masih akan mengesahkan setiap token, dengan kualiti output yang sama sepenuhnya. Anda hanya memanfaatkan keupayaan pengiraan yang menganggur semasa bahagian yang perlahan berjalan.

Google menyatakan bahawa model lakaran berkongsi cache kunci-nilai (KV cache) dengan model sasaran, iaitu struktur memori yang menyimpan konteks yang telah diproses, jadi mereka tidak membuang masa mengira semula maklumat yang telah diketahui oleh model besar. Untuk model tepi kecil yang direka khas untuk peranti telefon dan Raspberry Pi, pasukan tersebut bahkan membina teknik pengelompokan yang cekap untuk memperpendekkan masa penghasilan lebih lanjut.

Ini bukan satu-satunya percubaan dalam bidang kecerdasan buatan untuk menghasilkan teks secara selari. Model bahasa berdasarkan penyebaran—seperti Mercury daripada Inception Labs—menggunakan pendekatan yang berbeza: mereka tidak meramal satu token pada satu masa, tetapi bermula daripada kebisingan dan mengoptimumkan keseluruhan output secara berulang. Secara teori, ia pantas, tetapi model bahasa penyebaran sukar menandingi kualiti model Transformer tradisional, oleh itu ia lebih banyak dianggap sebagai objek penyelidikan daripada alat praktikal.

Speculative decoding berbeza kerana ia sama sekali tidak mengubah model asas. Ia merupakan pengoptimuman perkhidmatan, bukan penggantian arsitektur. Versi Gemma 4 yang anda jalankan sebelum ini akan menjadi lebih pantas.

Kesan sebenar memang ketara. Menurut ujian bersepadu Google sendiri, setelah mengaktifkan draf MTP pada cip Gemma 4 26B yang dilengkapi dengan GPU desktop Nvidia RTX Pro 6000, jumlah token yang diproses per saat hampir ganda. Di atas cip Apple Silicon, saiz batch 4 hingga 8 permintaan boleh memberikan peningkatan kelajuan sebanyak kira-kira 2.2 kali. Walaupun tidak semua senario mencapai had 3 kali, ini tetap merupakan perbezaan ketara antara “boleh digunakan” dan “cukup laju untuk digunakan secara praktikal”.

Konteks di sini sangat penting. Apabila model China DeepSeek mengejutkan pasaran pada Januari 2025. — menyebabkan kapitalisasi pasaran NVIDIA hilang sebanyak US$600 bilion dalam sehari — pelajaran utamanya ialah: peningkatan kecekapan lebih berkesan daripada sekadar meningkatkan kapasiti pengiraan. Cara beroperasi yang lebih pintar lebih unggul daripada sekadar meningkatkan perbelanjaan peranti keras. Alat peta MTP Google merupakan langkah seterusnya ke arah ini, walaupun sasarannya jelas ialah pengguna pengguna.

Seluruh industri kecerdasan buatan kini seperti segitiga yang terdiri daripada tiga bahagian: inferens, latihan, dan ingatan. Sebarang terobosan dalam mana-mana bidang akan memberi kesan dorongan atau guncangan terhadap keseluruhan ekosistem. Kaedah latihan DeepSeek (menggunakan peralatan rendah untuk membina model yang kuat) adalah satu contoh, manakala Google’s …TurboQuant (bagaimana mengurangkan ingatan AI tanpa mengurangkan kualiti) adalah satu lagi kertas kerja. Kedua-dua kertas kerja ini menyebabkan kejatuhan pasaran, kerana setiap syarikat berusaha mencari cara untuk menghadapinya.

Google menyatakan bahawa alat penggambaran ini boleh "meningkatkan kelajuan respons: mengurangkan secara ketara latensi untuk chat hampir masa nyata, aplikasi suara imersif, dan alur kerja agen" — tugas-tugas ini memerlukan latensi rendah untuk berfungsi dengan betul.

Aplikasi yang jelas dan pantas: pembantu kod tempatan yang tidak menangguhkan; antaramuka suara yang memberi respons sebelum anda lupa apa yang anda tanyakan; aliran kerja pintar yang menyelesaikan langkah-langkah tanpa perlu menunggu tiga saat. Semua ini boleh dilakukan pada peranti yang sudah anda miliki.

MTP draft kini telah dilancarkan拥抱脸 Ia kompatibel dengan lesen Apache 2.0, Kaggle, dan Ollama. Ia sedia digunakan, menyokong vLLM, MLX, SGLang, dan Hugging Face Transformers.