Ipinakilala ng Google Research ang TurboQuant: 3-bit quantization na walang pagkawala ng akurasyon, nagpapabilis ng inference hanggang 8x

KuCoinFlash

Oras ng Release: 03/25/2026, 02:36:10

I-share

Summary

Ipinakilala ng Google Research ang TurboQuant, isang 3-bit quantization method na nagbabawas ng 6x sa paggamit ng KV cache memory nang walang pagkawala sa akurasyon. Sa NVIDIA H100 GPUs, ang 4-bit attention computations ay tumatakbo nang hanggang 8x mas mabilis kaysa sa 32-bit models. Sinubok sa Gemma at Mistral gamit ang LongBench, Needle In A Haystack, at ZeroSCROLLS, ang paraan ay nagbigay ng pinakamataas na resulta. Ipinagawa ni Amir Zandieh at Vahab Mirrokni kasama ang KAIST at NYU, ang papel ay lalabas sa ICLR 2026. Ang on-chain data ay nagpapakita ng paglalago sa interes sa mga altcoin na dapat bisitahin dahil sa pagtaas ng efficiency na nagdudulot ng pagtanggap.

Ayon sa pagmamasid ng 1M AI News, ang Google Research ay naglabas ng quantized compression algorithm na TurboQuant, na nakakapag-compress ng KV cache ng malalaking language model hanggang sa 3 bit, na nagbabawas ng paggamit sa memoryo ng hindi bababa sa 6 beses, nang walang kinakailangang pag-train o fine-tuning, at nang hindi nawawala ang accuracy ng model. Sa 4 bit mode, ang pagkalkula ng attention sa NVIDIA H100 GPU ay mas mabilis ng hanggang 8 beses kumpara sa 32 bit na unquantized baseline.

Ang research team ay nag-verify sa mga long-context benchmark tulad ng LongBench, Needle In A Haystack, at ZeroSCROLLS gamit ang mga model na Gemma at Mistral, at ang TurboQuant ay nakamit ang pinakamahusay na performans sa lahat ng pagsubok. Ang algorithm ay binubuo ng dalawang sub-algorithm: ang PolarQuant ay nag-aalis ng memory overhead ng tradisyonal na quantization method gamit ang polar coordinate transformation, habang ang QJL ay gumagamit lamang ng 1 bit upang ayusin ang residual error.

Ang pag-aaral na ito ay pinangunahan ni Amir Zandieh ng Google Research at si Vahab Mirrokni, Vice President at Google Fellow, sa pamamagitan ng pakikipagtulungan sa KAIST ng Korea at New York University, at ito ay ipapakita sa ICLR 2026. Sinasabi ng Google na isa sa pangunahing aplikasyon ng teknolohiyang ito ay ang paglutas sa bottleneck ng KV cache ng mga modelo tulad ng Gemini.

Source:Ipakita ang original

Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.