Ramp Labs, Yeni Çok Ajanlı Bellek Paylaşım Çözümünü Öneriyor, Token Kullanımı En Fazla %65 Azalıyor

ME Haberleri'ne göre, 11 Nisan (UTC+8), AI altyapı şirketi Ramp Labs, "Latent Briefing" adlı bir araştırma çalışması yayınladı. Bu yöntem, büyük modellerin KV önbelleğini doğrudan sıkıştırarak çoklu akıllı sistemler arasında verimli bir bellek paylaşımı sağlıyor ve doğruluk kaybı olmadan Token tüketimini önemli ölçüde azaltıyor. Ana çoklu akıllı mimarilerde, düzenleyici (Orchestrator), görevleri parçalara ayırır ve çalışan (Worker) modelleri tekrar tekrar çağırır; çıkarım zinciri uzadıkça Token kullanımı üstel olarak artar. Latent Briefing'in temel fikri, dikkat mekanizmasıyla bağlamdaki gerçekten kritik kısımları tanımlamak ve yavaş LLM özetlemesi veya kararsız RAG aramasına değil, temsilsel düzeyde gereksiz bilgileri doğrudan atmak üzerine kuruludur. LongBench v2 benchmark testinde bu yöntem etkileyici sonuçlar verdi: Çalışan modelin Token tüketimi %65 azaldı, orta uzunlukta belgelerde (32k ila 100k) Token tasarrufu medyanı %49 oldu, genel doğruluk baz seviyesine göre yaklaşık 3 puan arttı ve her sıkıştırma işlemi sadece yaklaşık 1,7 saniye ek süre gerektirdi — bu da orijinal algoritmaya göre yaklaşık 20 kat hızlanma sağladı. Deneyler, düzenleyici olarak Claude Sonnet 4 ve çalışan model olarak Qwen3-14B kullanılarak akademik makaleler, hukuki belgeler, romanlar ve hükümet raporları gibi çeşitli belge türlerini kapsadı. Araştırmacılar ayrıca, en iyi sıkıştırma eşiğinin görev zorluğu ve belge uzunluğuna bağlı olduğunu buldu — zor görevler için agresif sıkıştırma spekülatif çıkarım gürültüsünü süzmek için uygunken, uzun belgeler için hafif sıkıştırma dağılmış kritik bilgileri korumak için daha uygundur. (Kaynak: BlockBeats)