Tether AI ay nagbubukas ng TurboQuant, binabawasan ang paggamit ng memorya ng LLM KV Cache ng 5x

Tether AI ay naglabas ng TurboQuant bilang open-source software, nagdadala ng isang kasangkapan na nagpapaliit ng memory footprint ng inference ng malalaking language model hanggang limang beses. Ang teknolohiyang ito ay tumutok sa isang partikular na bottleneck na tinatawag na key-value (KV) cache, na sa pangkalahatan ay ang working memory na ginagamit ng mga transformer model upang subaybayan ang konteksto habang nagtatagal ang usapan.

Ano ang tunay na ginagawa ng TurboQuant

Ang algoritmo sa likod ng TurboQuant ay nagmula sa Google Research, na nagpubliko ng mga unang detalye noong Marso 24, 2026. Ang ginawa ng Tether AI ay kinuha ang papel na ito at isinabuhay ito bilang isang solusyon na maaaring i-deploy ng mga developer sa production. Ang release ni Tether ay naglalaman ng buong quantization pipeline, framework adapters, at komprehensibong dokumentasyon.

Ang quantization ay isang teknik na nagpapababa ng precision ng mga numero na ginagamit sa mga komputasyon ng neural network. Sa halip na i-store ang mga halaga bilang 16-bit o 32-bit floating point numbers, i-compress mo sila sa 4-bit o kahit 2-bit na mga representasyon. Tanggapan ng TurboQuant ang prosesong ito para sa KV cache lamang.

Hindi kailangan ang pag-retrain o pag-fine-tune ng model. Maaari ng mag-apply ang mga developer sa TurboQuant sa mga umiiral na model at umiiral na inference frameworks nang hindi magsisimula mula sa simula.

Pamamahayag

Lumabas ang release bilang bahagi ng QVAC SDK version 0.12.0, na naglalaman din ng mga bagong kakayahan tulad ng text-to-video generation at robot control. Ang QVAC ay ang mas malawak na platform ng Tether na nakatuon sa pagpapalakas ng decentralized AI sa mga consumer hardware.

Bakit nagtatayo ng AI infrastructure ang isang kompanya ng stablecoin

Ang Tether ay agresibong umuunlad sa labas ng kanyang stablecoin na USDT, at ang AI ay isa sa kanyang pinakamalaking taya. Ang CEO na si Paolo Ardoino ay nagpahiwatig ng mga pagsisikap ng kumpanya sa AI sa isang tiyak na teorya: dapat tumakbo ang mga mataas na kalidad na language models sa lokal na mga device ng konsyumer tulad ng mga telepono at laptop, at hindi depende sa mga sentralisadong cloud service.

Ang problema sa memorya ay ang pangunahing hadlang sa pananaw na iyon. Ang isang modelo na nangangailangan ng 16 GB ng memorya para sa kanyang KV cache lamang ay hindi makakafit sa karamihan sa mga device ng konsyumer. Ibawas ito sa 3.2 GB at biglang gumagana na ang math.

Pinahalagahan ni Ardoino na dala ng TurboQuant ang mas epektibong lokal na AI mas malapit sa katotohanan sa pamamagitan ng pagharap sa mga limitasyon sa memorya na kinakaharap ng mga transformer model sa consumer hardware.

Ang platform na QVAC ay nagtatayo sa ilang nakaraang teknik ng quantization, kabilang ang PolarQuant at Quantized Johnson-Lindenstrauss. Ang AI team ni Tether ay nagpapagsama ng maraming paraan ng compression, bawat isa ay naglalayong harapin ang iba’t ibang bahagi ng problema sa efficiency, at ang TurboQuant ay ang pinakabagong layer sa stack na iyon.

Ano ang ibig sabihin nito para sa mga investor

Ang open-source na kalikasan ng release ay nangangahulugan na ang anumang developer ay maaaring kunin ang code, i-integrate ito sa kanilang inference pipeline, at agad na makabawi mula sa mga savings sa memorya. Ito ay isang estratehikong hakbang upang palakasin ang ecosystem sa paligid ng QVAC at i-position ang platform ng Tether bilang ang default toolkit para sa mga decentralized AI application.

Ipinaglaban ng Google Research ang nakalalalim na algoritmo. Walang nag-uupuan sa Google mismo, o anumang iba pang may sapat na yaman na laboratorio, mula sa paglalabas ng kanilang sariling produksyon na implementasyon. Ang pagkakasama ng text-to-video at mga tampok ng pagkontrol sa robot sa iisang SDK update ay nagmumungkahi na mabilis ang pagpapalawak ng team.

Suriin kung patotohanan ng mga independiyenteng benchmark ang klaim na 5x compression sa iba’t ibang arkitektura ng modelo at haba ng konteksto, dahil minsan ay bumabagsak ang mga teknik ng quantization sa real-world na paggamit na may mas mahabang usapan o mas kumplikadong mga gawain sa pag-iisip.