Tether AI mở nguồn TurboQuant, giảm việc sử dụng bộ nhớ KV Cache của LLM xuống 5 lần

Tether AI vừa phát hành TurboQuant dưới dạng phần mềm mã nguồn mở, cung cấp một công cụ giúp giảm dung lượng bộ nhớ của quá trình suy luận mô hình ngôn ngữ lớn lên đến năm lần. Công nghệ này nhắm vào một điểm nghẽn cụ thể gọi là bộ nhớ đệm key-value (KV), vốn là bộ nhớ làm việc mà các mô hình transformer sử dụng để theo dõi ngữ cảnh trong cuộc hội thoại.

TurboQuant thực sự làm gì

Thuật toán đằng sau TurboQuant xuất phát từ Nghiên cứu của Google, đã công bố các chi tiết ban đầu vào ngày 24 tháng 3 năm 2026. Những gì Tether AI đã làm là lấy bài báo nghiên cứu đó và biến nó thành một sản phẩm mà các nhà phát triển có thể triển khai thực tế. Phiên bản phát hành của Tether bao gồm toàn bộ quy trình lượng tử hóa, các bộ điều hợp khung công tác và tài liệu hướng dẫn đầy đủ.

Lượng tử hóa là một kỹ thuật giảm độ chính xác của các số được sử dụng trong các phép tính mạng nơ-ron. Thay vì lưu trữ giá trị dưới dạng số dấu phẩy động 16-bit hoặc 32-bit, bạn nén chúng xuống thành biểu diễn 4-bit hoặc thậm chí 2-bit. TurboQuant xử lý điều này riêng cho bộ nhớ KV.

Không cần tái huấn luyện hoặc tinh chỉnh mô hình. Các nhà phát triển có thể áp dụng TurboQuant vào các mô hình hiện có và các khung suy luận hiện có mà không cần bắt đầu từ đầu.

Quảng cáo

Bản phát hành này xuất hiện trong phiên bản QVAC SDK 0.12.0, cũng bao gồm các tính năng mới như tạo video từ văn bản và điều khiển robot. QVAC là nền tảng rộng hơn của Tether nhằm hỗ trợ AI phi tập trung trên các thiết bị tiêu dùng.

Tại sao một công ty stablecoin lại đang xây dựng hạ tầng AI

Tether đã tích cực mở rộng vượt ra ngoài stablecoin USDT, và AI là một trong những khoản đầu tư lớn nhất của họ. CEO Paolo Ardoino đã định vị các nỗ lực AI của công ty xung quanh một luận điểm cụ thể: các mô hình ngôn ngữ chất lượng cao nên được chạy cục bộ trên các thiết bị người dùng như điện thoại và laptop, thay vì phụ thuộc vào các dịch vụ đám mây tập trung.

Vấn đề bộ nhớ là rào cản cốt lõi đối với tầm nhìn đó. Một mô hình cần 16 GB bộ nhớ chỉ riêng cho bộ nhớ KV của nó sẽ không thể chạy được trên hầu hết các thiết bị tiêu dùng. Giảm xuống còn 3,2 GB và đột nhiên các phép tính bắt đầu khả thi.

Ardoino đã nhấn mạnh rằng TurboQuant giúp hiện thực hóa AI địa phương hiệu quả bằng cách giải quyết các hạn chế về bộ nhớ mà các mô hình transformer gặp phải trên phần cứng người dùng tiêu dùng.

Nền tảng QVAC được xây dựng dựa trên một số kỹ thuật lượng tử hóa trước đó, bao gồm PolarQuant và Quantized Johnson-Lindenstrauss. Đội ngũ AI của Tether đã tích hợp nhiều phương pháp nén cùng nhau, mỗi phương pháp nhắm vào các khía cạnh khác nhau của vấn đề hiệu suất, và TurboQuant là lớp mới nhất trong chuỗi tích hợp đó.

Điều này có nghĩa gì đối với các nhà đầu tư

Tính chất mã nguồn mở của bản phát hành có nghĩa là bất kỳ nhà phát triển nào cũng có thể lấy mã, tích hợp nó vào quy trình suy luận của họ và ngay lập tức hưởng lợi từ việc tiết kiệm bộ nhớ. Đó là một chiến lược nhằm mở rộng hệ sinh thái xung quanh QVAC và định vị nền tảng của Tether như bộ công cụ mặc định cho các ứng dụng AI phi tập trung.

Google Research đã công bố thuật toán nền tảng. Không có gì ngăn cản Google hoặc bất kỳ phòng thí nghiệm nào khác có nguồn lực dồi dào từ việc phát hành phiên bản triển khai sản xuất của riêng họ. Việc tích hợp các tính năng text-to-video và điều khiển robot trong cùng một bản cập nhật SDK cho thấy nhóm đang phát triển nhanh chóng.

Theo dõi xem các tiêu chuẩn độc lập có xác nhận yêu cầu nén 5x có duy trì được trên các kiến trúc mô hình và độ dài ngữ cảnh khác nhau không, vì các kỹ thuật lượng tử hóa đôi khi suy giảm trong sử dụng thực tế với các cuộc hội thoại dài hơn hoặc các nhiệm vụ suy luận phức tạp hơn.