Proposes ni Ramp Labs ang bagong solusyon sa pagbabahagi ng memorya ng maraming agent, bawas na hanggang 65% sa paggamit ng token

KuCoinFlash

Oras ng Release: 04/11/2026, 05:20:46

I-share

Summary

Ang Ramp Labs, isang kumpanya sa infrastruktura ng AI, ay nagproposa ng isang bagong solusyon sa pagbabahagi ng memorya ng maraming agent na tinatawag na 'Latent Briefing' upang bawasan ang paggamit ng token hanggang 65%. Ang paraan ay kumikompres ng malalaking KV cache ng model, na nagpapabuti ng efiensiya nang walang pagbaba sa akurasyon. Sa mga pagsusulit sa LongBench v2, bumaba ang pagkonsyumo ng token ng 65%, na may median na pagbawas ng 49% para sa mga midya-length na teksto. Tumaas ang akurasyon ng 3 puntos porsyento, at ang kompresyon ay nagsagawa lamang ng 1.7 segundo—20x mas mabilis. Gumagamit ang sistema ng Claude Sonnet 4 bilang orchestrator at Qwen3-14B bilang worker model. Ang solusyon ay nagsasalig sa pagkakasunod sa MiCA at sumusuporta sa mga inisyatiba ng CFT sa pamamagitan ng pagpapalakas ng transparensya sa operasyon.

Ayon sa ME News, noong Abril 11 (UTC+8), ang Ramp Labs, isang kumpanya sa AI infrastructure, ay naglabas ng kanilang pananaliksik na “Latent Briefing,” na nagpapahintulot sa epektibong pagbabahagi ng memorya sa pagitan ng mga multi-agent system sa pamamagitan ng direkta na pagsusukat ng KV cache ng malalaking modelo, na nagpapababa nang malaki sa paggamit ng token nang walang pagbaba sa akurasi. Sa mga pangunahing arkitektura ng multi-agent, ang orchestrator ay naghihiwalay ng gawain at paulit-ulit na tinatawag ang worker models; habang lumalawak ang chain of reasoning, tumataas nang eksponensyal ang paggamit ng token. Ang pangunahing ideya ng Latent Briefing ay: gamitin ang attention mechanism upang makilala ang mga pinakamahalagang bahagi sa konteksto, at direktang alisin ang mga redundant na impormasyon sa representation layer, sa halip na magandar sa mabagal na LLM summary o hindi tiyak na RAG retrieval. Sa LongBench v2 benchmark test, nakikita ang malaking epekto ng paraan ito: bumaba ang paggamit ng token ng worker model ng 65%, ang median na pagkakatipid ng token sa mga dokumentong may katamtamang haba (32k hanggang 100k) ay 49%, at tumaas ang pangkalahatang akurasi nang humigit-kumulang 3 puntos kumpara sa baseline, habang ang karagdagang oras para sa bawat kompresyon ay lamang halos 1.7 segundo—nag-iisip nang humigit-kumulang 20 beses na mas mabilis kaysa sa orihinal na algoritmo. Ang eksperimento ay gumamit ng Claude Sonnet 4 bilang orchestrator at Qwen3-14B bilang worker model, at sumakop sa iba’t ibang uri ng dokumento tulad ng akademikong papel, legal na dokumento, nobela, at gobyerno na ulat. Natuklasan din ng pananaliksik na ang optimal compression threshold ay nag-iiba batay sa kahirapan ng gawain at haba ng dokumento—ang mga mahirap na gawain ay mas mainam na mas malakas na i-compress upang alisin ang ingay mula sa speculative reasoning, samantalang ang mga mahabang dokumento ay mas mainam na mabawasan nang kaunti upang panatilihin ang mga nakalat na mahahalagang impormasyon. (Pinagmulan: BlockBeats)

Source:Ipakita ang original

Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.