Ipinakilala ng Google ang 3x mas mabilis na lokal na AI inference nang walang bagong hardware

CoinDesk na nagsasalaysay:

Magandang ideya ang pagsasagawa ng mga modelo ng artificial intelligence sa iyong sariling computer—ngunit hindi laging ganito.

Nagpapahayag ng pagpaprotekta sa privacy, walang bayarin sa subscription, at ang data ay hindi lumalabas sa iyong device. Ngunit para sa karamihan, ang katotohanan ay sa pagitan ng mga pangungusap, ang cursor ay nagmumula ng limang segundo.

May pangalan ang bottleneck na ito: bilis ng pagpapaliwanag. Hindi ito nauugnay sa antas ng talino ng modelo, kundi isang problema sa hardware. Ang karaniwang AI model ay bumubuo ng isang salitang bahagi (tinatawag na “token”) nang isang beses, at kailangan ng hardware na i-transfer ang milyon-milyon na parameter mula sa memorya patungo sa compute unit upang makagawa ng bawat token. Ang disenyo mismo ay mabagal. Sa consumer-grade na hardware, ito ay lubos na hindi matiis.

Ang karaniwang solusyon na ginagamit ng karamihan ay ang pagpapatakbo ng mas maliit at mas mabagal na modelo, o ang pagpapatakbo ng napakadaling bersyon na tinatawag na quantized model. Ang parehong solusyon ay hindi perpekto; sila ay nagtatapos ng ilang kalidad para sa bilis. Bagaman maaaring magtrabaho sila, hindi ito ang modelo na talagang hinahanap mo.

Ngayon ay inilahad ng Google ang iba’t ibang solusyon. Ang kumpanya ay naglunsad ng draft ng Multi-Token Prediction (MTP) para sa kanilang Gemma 4 family open model technology—teknolohiyang nagpapahintulot sa pagtaas ng bilis hanggang 3 beses nang hindi nakakaapekto sa kalidad o kakayahan ng inference ng modelo.

Ang paraan na ito ay tinatawag na speculative decoding, at ang konsepto nito ay umiiral na sa loob ng maraming taon. Noong 2022, ang mga siyentipiko ng Google ay nag-publish ng pangunahing papel. Hanggang sa ngayon, ang ideyang ito ay nagsimulang tanggapin ng pangkalahatang tao dahil kailangan nito ng angkop na arkitektura upang maaaring mag-run sa malaking iskala.

Sa madaling salita, ang prinsipyo nito ay ganito: sa halip na hayaan ang malalaking modelong may malakas na kakayahan na gawin ang lahat nang mag-isa, ikinokombina ito sa isang maliit na “predictor” model. Ang predictor ay mabilis at mura—nakapagpapalaya ito ng maraming token nang sabay-sabay, at mas maikli pa ang oras kaysa sa paggawa ng isang token ng pangunahing model. Pagkatapos, ang malaking model ay kailangan lang mag-isang pass upang suriin ang lahat ng mga ito. Kung tama ang mga pagpapalaya, ang buong sequence ay maaaring makakuha ng gastos lamang ng isang forward pass.

Ayon sa Google“Kung sang-ayon ang target model sa draft, itatanggap nito ang buong sequence sa isang forward pass—kahit na gumagawa ito ng sariling karagdagang mga token sa proseso.”

Walang anumang pagkawala: Ang mga malalaking modelo—tulad ng 31 bilyong denseng bersyon ng Gemma 4—ay patuloy na magpapatotoo sa bawat token, at ang kalidad ng output ay pareho. Tanging nagpapakita ka lang ng paggamit ng mga compute na naka-antay sa mga bahaging mabagal.

Sinabi ng Google na ang sketch-drawing model ay nagbabahagi ng key-value cache (KV cache) kasama ang target model, isang memorya structure na nag-iimbak ng naprocesong konteksto, kaya hindi ito nagwawala ng oras para muli nang kalkulahin ang impormasyon na alam ng malaking model. Para sa mga maliit na edge model na disenyo para sa mga mobile phone at Raspberry Pi devices, nilikha ng team ang isang epektibong clustering technique upang dagdag pa ang pagpapabilis sa pagbuo.

Hindi ito ang tanging pagsubok sa larangan ng artificial intelligence sa pag-parallelize ng text generation. Ang mga language model batay sa diffusion—tulad ng Mercury ng Inception Labs—naggamit ng magkakaibang paraan: hindi sila nagpapredict ng isang token nang isang beses, kundi nagsisimula sa ingay at iteratively pinapabuti ang buong output. Teoretikal na mabilis, ngunit mahirap makapagkumpetensya sa kalidad ng mga tradisyonal na Transformer model ang diffusion language models, kaya mas maraming itinuturing silang isang paksa ng pag-aaral kaysa isang praktikal na kasangkapan.

Ang speculative decoding ay iba dahil hindi ito nagbabago sa piling modelo. Ito ay isang pagpapabuti ng serbisyo, hindi isang pagpapalit ng arkitektura. Ang iyong kasalukuyang ginagamit na bersyon ng Gemma 4 ay magiging mas mabilis.

Ang tunay na epekto ay talagang malakas. Ayon sa sariling benchmark ng Google, ang pagpapagana ng MTP draft sa chip na Gemma 4 26B na may Nvidia RTX Pro 6000 desktop GPU ay nagdulot ng halos dalawang beses na pagtaas sa bilang ng tokens na napaprocess bawat segundo. Sa Apple Silicon chip, ang pag-batch ng 4 hanggang 8 na kahilingan ay nagdudulot ng halos 2.2 beses na pagtaas sa bilis. Bagaman hindi lahat ng sitwasyon ay makakamit ang 3 beses na limitasyon, ito ay patinatag na pagkakaiba sa pagitan ng “kabiguan” at “sapat na mabilis upang gamitin nang praktikal.”

Mahalaga ang konteksto dito. Kapag ang Chinese model DeepSeek ay nag-udyok sa market noong Enero 2025.—nagdulot ng pagbaba ng halaga ng NVIDIA ng $600 bilyon sa loob ng isang araw—ang pangunahing aral ay: mas malaking epekto ang pagpapabuti ng efficiency kaysa sa pagpapalaki lamang ng computing power. Mas mahusay ang mas matalinong paraan ng pagpapatakbo kaysa sa pagdaragdag ng hardware. Ang Google MTP mapping tool ay isang karagdagang hakbang patungo dito, ngunit ang target na market nito ay malinaw na ang mga consumer.

Ang buong industriya ng artificial intelligence ay kasalukuyang parang isang tatsulok na binubuo ng tatlong bahagi: inference, training, at memory. Ang anumang pagbubukas sa anumang larangan ay magdudulot ng pagpapalakas o pagkakaapekto sa buong ecosystem. Isang halimbawa ay ang paraan ng DeepSeek sa pagtatrain (paggamit ng mababang hardware upang makabuo ng malalakas na model), habang ang Google’s …TurboQuant (paano maliit ang memory ng AI nang hindi bababa sa kalidad) ay isa pang papel. Parehong papel ay nagdulot ng pagbagsak ng merkado dahil ang mga kumpanya ay nagpapahaba upang makahanap ng mga solusyon.

Sinabi ng Google na ang kasalukuyang tool sa pagguhit ay maaaring “pataasin ang antas ng pagtugon: malaki ang pagbawas sa latency sa near-real-time chat, immersive voice applications, at agent workflows” — mga gawain na nangangailangan ng mababang latency upang maging epektibo.

Mabilis at malinaw ang mga aplikasyon: isang lokal na code assistant na walang delay; isang voice interface na nakakasagot bago mo maalala kung ano ang tanong mo; isang intelligent workflow na nakakapagtapos ng mga hakbang nang hindi kailangang maghintay ng tatlong segundo. Lahat ng ito ay maaaring gawin sa iyong kasalukuyang hardware.

Ang MTP draft ay nasa online na na拥抱脸 Ito ay compatible sa Apache 2.0 license kasama ang Kaggle at Ollama. Direktang gamitin na, suportado ang vLLM, MLX, SGLang at Hugging Face Transformers.