Google Research Memperkenalkan TurboQuant: Kuantisasi 3-bit tanpa kehilangan ketepatan, mempercepat inferensi hingga 8x

iconKuCoinFlash
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Google Research telah melancarkan TurboQuant, kaedah kuantisasi 3-bit yang mengurangkan penggunaan memori KV cache sebanyak 6 kali tanpa kehilangan ketepatan. Di atas GPU NVIDIA H100, pengiraan perhatian 4-bit berjalan sehingga 8 kali lebih pantas berbanding model 32-bit. Diuji pada Gemma dan Mistral menggunakan LongBench, Needle In A Haystack, dan ZeroSCROLLS, kaedah ini memberikan hasil teratas. Dibangunkan oleh Amir Zandieh dan Vahab Mirrokni bersama KAIST dan NYU, kertas kerja ini akan diterbitkan di ICLR 2026. Data pada rantai menunjukkan minat yang semakin meningkat terhadap altcoin yang perlu diawasi, kerana peningkatan kecekapan mendorong pengambilan.

Menurut pemantauan 1M AI News, Google Research mengumumkan algoritma kompresi kuantisasi TurboQuant, yang mampu mengompresi cache KV model bahasa besar hingga 3 bit, mengurangi penggunaan memori sebanyak sekurang-kurangnya 6 kali, tanpa diperlukan pelatihan atau penyesuaian halus, tanpa kehilangan ketepatan model. Dalam modus 4 bit, kecepatan pengiraan perhatian pada GPU NVIDIA H100 meningkat sehingga 8 kali ganda berbanding garis dasar 32 bit yang tidak dikuantisasi.

Pasukan penyelidik menguji TurboQuant pada piawaian konteks panjang seperti LongBench, Needle In A Haystack, dan ZeroSCROLLS menggunakan model Gemma dan Mistral, di mana TurboQuant mencapai prestasi terbaik dalam semua ujian. Algoritma ini terdiri daripada dua algoritma anak: PolarQuant menghilangkan beban memori kaedah kuantisasi tradisional melalui transformasi koordinat kutub, manakala QJL hanya menggunakan 1 bit untuk membetulkan ralat sisa.

Penyelidikan ini dipimpin oleh Amir Zandieh dari Google Research dan Vahab Mirrokni, Naib Presiden dan Google Fellow, bekerjasama dengan KAIST Korea dan Universiti New York, dan akan diterbitkan di ICLR 2026. Google menyatakan salah satu aplikasi utama teknologi ini ialah menyelesaikan bottleneck cache KV pada model seperti Gemini.

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.