Ramp Labs đề xuất giải pháp chia sẻ bộ nhớ đa tác nhân, giảm việc sử dụng token lên đến 65%

KuCoinFlash

Thời gian phát hành: 05:20:46 11/04/2026

Chia sẻ

Tóm tắt

Ramp Labs, một công ty cơ sở hạ tầng AI, đã đề xuất một giải pháp chia sẻ bộ nhớ đa tác nhân mới có tên 'Latent Briefing' nhằm giảm việc sử dụng token lên đến 65%. Phương pháp này nén các bộ nhớ KV của mô hình lớn, cải thiện hiệu suất mà không làm giảm độ chính xác. Trong các bài kiểm tra LongBench v2, lượng token tiêu thụ giảm 65%, với mức tiết kiệm trung vị 49% cho các văn bản độ dài trung bình. Độ chính xác tăng 3 điểm phần trăm và thời gian nén chỉ mất 1,7 giây—nhanh hơn 20 lần. Hệ thống sử dụng Claude Sonnet 4 làm bộ điều phối và Qwen3-14B làm mô hình công nhân. Giải pháp này phù hợp với quy định MiCA và hỗ trợ các sáng kiến CFT bằng cách nâng cao tính minh bạch trong hoạt động.

Theo tin tức từ ME News, vào ngày 11 tháng 4 (UTC+8), công ty cơ sở hạ tầng AI Ramp Labs đã công bố nghiên cứu “Latent Briefing”, một phương pháp chia sẻ ký ức hiệu quả giữa các hệ thống đa tác nhân bằng cách nén trực tiếp bộ nhớ KV của mô hình lớn, giúp giảm đáng kể lượng token tiêu thụ mà không làm giảm độ chính xác. Trong các kiến trúc đa tác nhân phổ biến, người điều phối (Orchestrator) chia nhỏ nhiệm vụ và gọi lặp lại các mô hình người thực hiện (Worker); khi chuỗi suy luận kéo dài, lượng token tiêu thụ tăng theo cấp số nhân. Ý tưởng cốt lõi của Latent Briefing là sử dụng cơ chế chú ý để xác định các phần quan trọng thực sự trong ngữ cảnh, sau đó loại bỏ trực tiếp thông tin dư thừa ở lớp biểu diễn, thay vì phụ thuộc vào tóm tắt LLM chậm hoặc truy vấn RAG kém ổn định. Trong bài kiểm tra chuẩn LongBench v2, phương pháp này cho kết quả nổi bật: lượng token tiêu thụ của mô hình Worker giảm 65%, trung vị tiết kiệm token đạt 49% đối với tài liệu độ dài trung bình (32k đến 100k), độ chính xác tổng thể tăng khoảng 3 điểm phần trăm so với mô hình cơ sở, trong khi thời gian bổ sung cho mỗi lần nén chỉ khoảng 1,7 giây—nhanh hơn khoảng 20 lần so với thuật toán gốc. Nghiên cứu sử dụng Claude Sonnet 4 làm người điều phối và Qwen3-14B làm mô hình Worker, áp dụng cho nhiều loại tài liệu như bài báo học thuật, văn bản pháp lý, tiểu thuyết và báo cáo chính phủ. Nghiên cứu cũng phát hiện rằng ngưỡng nén tối ưu thay đổi tùy theo độ khó của nhiệm vụ và độ dài tài liệu—các nhiệm vụ khó phù hợp với nén mạnh để lọc ra tiếng ồn từ suy luận mang tính đánh cược, trong khi tài liệu dài更适合 nhẹ nhàng nén để giữ lại các thông tin quan trọng phân tán. (Nguồn: BlockBeats)

Nguồn:Hiển thị bản gốc

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụng và Tiết lộ rủi ro của chúng tôi.