Ramp Labs mencadangkan penyelesaian perkongsian memori pelbagai agen, penggunaan token berkurang sehingga 65%

iconKuCoinFlash
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Ramp Labs, sebuah syarikat infrastruktur AI, telah mencadangkan penyelesaian baharu perkongsian memori pelbagai agen bernama 'Latent Briefing' untuk mengurangkan penggunaan token sehingga 65%. Kaedah ini memampatkan cache KV model besar, meningkatkan kecekapan tanpa kehilangan ketepatan. Dalam ujian LongBench v2, penggunaan token turun sebanyak 65%, dengan penjimatan median 49% untuk teks panjang sederhana. Ketepatan meningkat sebanyak 3 peratus, dan pemampatan mengambil masa hanya 1.7 saat—20 kali lebih pantas. Sistem ini menggunakan Claude Sonnet 4 sebagai pengatur dan Qwen3-14B sebagai model pekerja. Penyelesaian ini selari dengan kepatuhan MiCA dan menyokong inisiatif CFT dengan meningkatkan transparansi operasi.

Berita ME, 11 April (UTC+8), syarikat infrastruktur AI, Ramp Labs, telah menerbitkan kajian berjudul "Latent Briefing", yang mencapai perkongsian memori yang cekap antara sistem pelbagai agen dengan mampatkan cache KV model besar secara langsung, mengurangkan penggunaan token secara besar-besaran tanpa mengorbankan ketepatan. Dalam arsitektur pelbagai agen utama, penyusun (Orchestrator) memecahkan tugas dan memanggil model pekerja (Worker) berulang kali; semakin panjang rantai inferens, penggunaan token meningkat secara eksponen. Idea utama Latent Briefing ialah menggunakan mekanisme perhatian untuk mengenal pasti bahagian penting dalam konteks, lalu membuang maklumat berlebihan secara langsung di peringkat representasi, bukannya bergantung pada ringkasan LLM yang perlahan atau pencarian RAG yang tidak stabil. Dalam ujian piawai LongBench v2, kaedah ini menunjukkan prestasi yang cemerlang: penggunaan token oleh model pekerja berkurang sebanyak 65%, median penghematan token untuk dokumen panjang sederhana (32k hingga 100k) mencapai 49%, ketepatan keseluruhan meningkat sekitar 3 peratus berbanding garis dasar, sementara masa tambahan setiap kompresi hanya sekitar 1.7 saat—lebih pantas sebanyak 20 kali berbanding algoritma asal. Eksperimen ini menggunakan Claude Sonnet 4 sebagai penyusun dan Qwen3-14B sebagai model pekerja, mencakup pelbagai skenario dokumen seperti kertas akademik, dokumen undang-undang, novel, dan laporan kerajaan. Kajian juga mendapati bahawa ambang kompresi optimum berbeza mengikut kesukaran tugas dan panjang dokumen—tugas sukar sesuai dengan kompresi agresif untuk menyaring gangguan inferens spekulatif, manakala dokumen panjang lebih sesuai dengan kompresi ringan untuk mengekalkan maklumat penting yang tersebar. (Sumber: BlockBeats)

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.