Ramp Labs, Yeni Çok Ajanlı Bellek Paylaşım Çözümünü Öneriyor, Token Kullanımı En Fazla %65 Azalıyor

iconKuCoinFlash
Paylaş
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconÖzet

expand icon
Ramp Labs, bir yapay zeka altyapı firması, token kullanımını %65'e kadar azaltmak için 'Latent Briefing' adlı yeni çok ajanlı bellek paylaşım çözümünü önerdi. Yöntem, doğruluk kaybı olmadan büyük model KV önbelleklerini sıkıştırır. LongBench v2 testlerinde, token tüketimi %65 azaldı ve orta uzunlukta metinler için medyan tasarruf %49 oldu. Doğruluk 3 puan arttı ve sıkıştırma sadece 1,7 saniye sürdü—20 kat daha hızlı. Sistem, orchestrator olarak Claude Sonnet 4 ve worker modeli olarak Qwen3-14B kullanır. Çözüm, MiCA uyumluluğu ile uyumlu olup, operasyonel şeffaflığı artırarak CFT girişimlerini destekler.

ME Haberleri'ne göre, 11 Nisan (UTC+8), AI altyapı şirketi Ramp Labs, "Latent Briefing" adlı bir araştırma çalışması yayınladı. Bu yöntem, büyük modellerin KV önbelleğini doğrudan sıkıştırarak çoklu akıllı sistemler arasında verimli bir bellek paylaşımı sağlıyor ve doğruluk kaybı olmadan Token tüketimini önemli ölçüde azaltıyor. Ana çoklu akıllı mimarilerde, düzenleyici (Orchestrator), görevleri parçalara ayırır ve çalışan (Worker) modelleri tekrar tekrar çağırır; çıkarım zinciri uzadıkça Token kullanımı üstel olarak artar. Latent Briefing'in temel fikri, dikkat mekanizmasıyla bağlamdaki gerçekten kritik kısımları tanımlamak ve yavaş LLM özetlemesi veya kararsız RAG aramasına değil, temsilsel düzeyde gereksiz bilgileri doğrudan atmak üzerine kuruludur. LongBench v2 benchmark testinde bu yöntem etkileyici sonuçlar verdi: Çalışan modelin Token tüketimi %65 azaldı, orta uzunlukta belgelerde (32k ila 100k) Token tasarrufu medyanı %49 oldu, genel doğruluk baz seviyesine göre yaklaşık 3 puan arttı ve her sıkıştırma işlemi sadece yaklaşık 1,7 saniye ek süre gerektirdi — bu da orijinal algoritmaya göre yaklaşık 20 kat hızlanma sağladı. Deneyler, düzenleyici olarak Claude Sonnet 4 ve çalışan model olarak Qwen3-14B kullanılarak akademik makaleler, hukuki belgeler, romanlar ve hükümet raporları gibi çeşitli belge türlerini kapsadı. Araştırmacılar ayrıca, en iyi sıkıştırma eşiğinin görev zorluğu ve belge uzunluğuna bağlı olduğunu buldu — zor görevler için agresif sıkıştırma spekülatif çıkarım gürültüsünü süzmek için uygunken, uzun belgeler için hafif sıkıştırma dağılmış kritik bilgileri korumak için daha uygundur. (Kaynak: BlockBeats)

Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir. Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.