- Binabawasan ng TurboQuant ng Tether ang paggamit ng memorya ng AI ng hanggang 5x, na tumutulong sa mga device na mag-handle ng mas mahabang mga gawain nang lokal.
- Ang QVAC 0.12.0 ay nagpapahintulot sa mga developer na patakbuhin ang mas malalaking AI workload sa mga laptop at phone na may mas kaunting presyon sa memorya.
- Ang TurboQuant ay tumutugon sa memory bottleneck ng AI, nagpapahintulot sa mas mahabang pag-uusap, mas malalaking file, at mas malalaking proyekto sa code.
Idinagdag ng Tether ang isang bagong tool para sa pag-optimize ng memorya sa QVAC SDK 0.12.0, isang hakbang na maaaring tumulong sa mga laptop, smartphone, at iba pang mga device na harapin ang mas malalaking workload lokal. Ipinahayag ni CEO Paolo Ardoino ang pag-update sa X, na ang bersyon na ito ay naglalaman ng TurboQuant, isang teknolohiya na nagbabawas ng mga pangangailangan sa memorya ng AI hanggang limang beses habang nananatili ang halos parehong kalidad ng output.
Ang update ay nakatuon sa isang pangunahing limitasyon para sa mga malalaking modelo ng wika: memorya. Habang lumalalim ang mga usapan at gawain, tumataas nang malaki ang pangangailangan sa memorya. Binabawasan ng TurboQuant ang bigat na ito, pinapayagan ang mga device na magtrabaho kasama ang mas malalaking dokumento, mas mahabang usapan, at higit pang impormasyon nang sabay-sabay.
Ang paglabas ay nagdaragdag din ng text-to-video generation, mga tampok ng robot control, suporta para sa coding assistant, mga pagpapabuti sa voice processing, at mas mabilis na mga kasangkapan para sa image classification.
Ang TurboQuant ay nagtutarget sa memory bottleneck ng AI
Nasa sentro ng QVAC SDK 0.12.0 release ang TurboQuant. Ang teknolohiyang ito ay kumokompres sa KV cache, isang uri ng working memory na ginagamit ng AI models upang masubaybayan ang mga usapan, dokumento, at iba pang impormasyon habang isinasagawa ang isang sesyon.
Dumarami ang pangangailangan sa memorya habang binabago ng mga gumagamit ang higit pang impormasyon sa isang model. Sabi ni Tether, ang isang 4-bilyong-parameter na model na nagpaproseso ng humigit-kumulang 262,000 na token ay maaaring magkakaroon ng humigit-kumulang 8 GB ng memorya para lamang sa cache. Ang pagpapatakbo ng ilang sesyon sa ganitong sukat ay mabilis na makakalabas sa mga limitasyon ng maraming laptop at consumer device.
Ginagawang mas mababa ang presyur ng TurboQuant. Ayon sa Tether, ang teknolohiyang ito ay maaaring bawasan ang mga pangangailangan sa memorya ng KV cache ng hanggang limang beses habang pinapanatili ang halos parehong kalidad ng output. Bilang resulta, ang mga gumagamit ay makakapagtrabaho na may mas mahabang pag-uusap, mas malalaking dokumento, at mas malalaking codebases nang hindi gaanong nakadepende sa remote computing resources.
QVAC ay Lumalawak Labas sa Mga Modelo ng Wika
Ang update ay naglalaman ng higit pa sa mga pagpapabuti sa memorya. Ang QVAC SDK 0.12.0 ay nagdaragdag ng ilang bagong kasangkapan na nakatuon sa pagpapalawak ng mga bagay na maaaring jalurin ng mga developer sa lokal na mga device.
Kasama sa mga karagdagan ang suporta para sa text-to-video generation sa pamamagitan ng Wan2.1 model. Ang platform ay naglalabas din ng vision-language-action feature na nagpapahintulot sa mga developer na bumuo ng mga aplikasyon para sa robotic control.
Dagdag pa ng paglabas ang isang lightweight na tool para sa pagklasipikasyon ng imahe na disenyo para sa mga gawain na hindi nangangailangan ng mas malalaking vision models. Samantala, hinango ng QVAC ang kanyang text-to-speech at transcription systems sa kanyang GGML engine, isang pagbabago na nagpapalawak ng suporta sa mga pangunahing desktop at mobile operating systems.
Nakakuha rin ang mga developer ng mga bagong opsyon para sa mga coding assistant. Ang QVAC ay nag-integrate na kasama ang OpenCode at OpenClaw sa pamamagitan ng isang provider package na nagpapasimple sa pagmamaneho at pag-deploy ng mga model.
Kaugnay: Ang Co-Founder ng Multicoin ay Binabale-wala ang ‘Web3 Is Dead’ Sa Gitna ng Kripto Identity Crisis
Mas malapit sa Edge ang Open-Source AI
Ipapakita ng release ang pagkakasentro ni Tether sa pagpapatakbo ng higit pang computing tasks diretso sa mga device ng mga user kesa sa pagsisiguro lamang sa mga sentralisadong data center. Lalong tumutok ang kumpanya sa software na maaaring magtrabaho sa iba’t ibang personal na device, lokal na network, at decentralized na sistema.
Ipinaliwanag ni Ardoino: “Ipakita ng pananaliksik ng Google na ang AI memory ay maaaring i-compress nang mas epektibo kaysa sa inakala ng karamihan. Ang aming trabaho ay dinala ang pagbubuo na ito sa production software na maaaring gamitin ng mga developer, startups, at mga user.”
Dagdag niya, “Dapat makapag-ask ang mga tao sa isang AI assistant na basahin ang isang mahabang dokumento, tandaan ang isang proyekto, tulungan sa code, o sagutin ang pribadong impormasyon nang hindi pinipilit ang bawat gawain na pumasok sa isang remote na data center.”
Ang paglunsad ay nangyari habang tinatapos ng Tether ang kanyang mga pagsisikap sa labas ng mga kasangkapan para sa pag-optimize ng memorya. Ipinakita ni Ardoino kahapon na ang kumpanya ay nagpapaunlad ng isang open-source na peer-to-peer na search engine at ipinakita ang isang demo ng isang decentralized na sistema para sa paghahanap sa Wikipedia.
Kaugnay: Si Michael Burry ay Tinatawag na ‘Fugazi’ ang $5.4B na Deal ni Nvidia sa GPU
Pahayag ng Pag-iingat: Ang impormasyon na ipinapakita sa artikulong ito ay para sa layuning impormatibo at edukasyonal lamang. Ang artikulo ay hindi nagtataglay ng abiso sa pondo o anumang uri ng abiso. Ang Coin Edition ay hindi responsable sa anumang pagkalugi na naganap bilang resulta ng paggamit ng nilalaman, produkto, o serbisyo na nabanggit. Inirerekomenda sa mga mambabasa na magpakamatyag bago gawin ang anumang aksyon na may kinalaman sa kumpanya.

