Tether ra mắt TurboQuant để kích hoạt các mô hình AI lớn hơn trên thiết bị

Tether’s TurboQuant giảm việc sử dụng bộ nhớ AI lên đến 5 lần, giúp các thiết bị xử lý các tác vụ dài hơn tại chỗ.
QVAC 0.12.0 cho phép các nhà phát triển chạy các tác vụ AI lớn hơn trên laptop và điện thoại với ít áp lực hơn lên bộ nhớ.
TurboQuant giải quyết điểm nghẽn bộ nhớ của AI, cho phép trò chuyện dài hơn, tệp lớn hơn và các dự án mã lớn hơn.

Tether đã thêm một công cụ tối ưu hóa bộ nhớ mới vào QVAC SDK 0.12.0, một bước đi có thể giúp các thiết bị như laptop, điện thoại thông minh và các thiết bị khác xử lý các khối lượng công việc lớn hơn tại chỗ. Khi thông báo cập nhật trên X, CEO Paolo Ardoino cho biết bản phát hành bao gồm TurboQuant, một công nghệ giảm nhu cầu bộ nhớ AI lên đến năm lần trong khi vẫn duy trì chất lượng đầu ra gần như tương đương.

Bản cập nhật tập trung vào một hạn chế quan trọng của các mô hình ngôn ngữ lớn: bộ nhớ. Khi các cuộc trò chuyện và nhiệm vụ trở nên dài hơn, nhu cầu bộ nhớ tăng mạnh. TurboQuant giảm bớt gánh nặng đó, cho phép thiết bị làm việc với các tài liệu lớn hơn, các cuộc trò chuyện dài hơn và nhiều thông tin hơn cùng một lúc.

🚨🤖 Tether AI tích hợp TurboQuant KV-Cache Quantization trong QVAC SDK 0.12.0, giảm nhu cầu bộ nhớ KV cache lên đến 5 lần, gần như không mất mát dữ liệu.

Hiệu quả của AI địa phương chất lượng cao đang tiến gần hơn một bước! https://t.co/wZjXgR0Bu5
— Paolo Ardoino 🤖 (@paoloardoino) June 1, 2026

Bản phát hành này cũng bổ sung tính năng tạo video từ văn bản, các tính năng điều khiển robot, hỗ trợ trợ lý mã hóa, nâng cấp xử lý âm thanh và các công cụ phân loại hình ảnh nhanh hơn.

TurboQuant nhắm vào điểm nghẽn bộ nhớ của AI

TurboQuant nằm ở trung tâm của bản phát hành QVAC SDK 0.12.0. Công nghệ này nén bộ nhớ KV, một loại bộ nhớ hoạt động mà các mô hình AI sử dụng để theo dõi các cuộc hội thoại, tài liệu và các thông tin khác trong suốt phiên làm việc.

Nhu cầu bộ nhớ tăng lên khi người dùng cung cấp nhiều thông tin hơn vào mô hình. Tether cho biết một mô hình có 4 tỷ tham số xử lý khoảng 262.000 token có thể yêu cầu khoảng 8 GB bộ nhớ chỉ riêng cho bộ nhớ đệm. Việc chạy nhiều phiên ở quy mô này có thể nhanh chóng vượt quá giới hạn của nhiều laptop và thiết bị tiêu dùng.

TurboQuant nhằm giảm bớt áp lực đó. Theo Tether, công nghệ này có thể giảm nhu cầu bộ nhớ KV cache lên đến năm lần trong khi vẫn giữ nguyên chất lượng đầu ra gần như tương đương. Kết quả là, người dùng có thể làm việc với các cuộc hội thoại dài hơn, tài liệu lớn hơn và các cơ sở mã lớn hơn mà không cần phụ thuộc quá nhiều vào các tài nguyên tính toán từ xa.

QVAC Mở Rộng Ngoài Các Mô Hình Ngôn Ngữ

Bản cập nhật bao gồm nhiều hơn chỉ các cải tiến bộ nhớ. QVAC SDK 0.12.0 bổ sung một số công cụ mới nhằm mở rộng khả năng mà các nhà phát triển có thể chạy trên các thiết bị cục bộ.

Trong số các tính năng bổ sung là hỗ trợ tạo video từ văn bản thông qua mô hình Wan2.1. Nền tảng cũng giới thiệu tính năng thị giác-ngôn ngữ-hành động cho phép các nhà phát triển xây dựng các ứng dụng điều khiển robot.

Phiên bản này còn bổ sung một công cụ phân loại hình ảnh nhẹ nhàng được thiết kế cho các tác vụ không yêu cầu các mô hình thị giác lớn hơn. Đồng thời, QVAC đã chuyển các hệ thống chuyển văn bản thành giọng nói và bản chép âm của mình sang động cơ GGML, một thay đổi mở rộng khả năng hỗ trợ trên các hệ điều hành máy tính để bàn và di động chính.

Các nhà phát triển cũng có thêm các tùy chọn mới cho trợ lý mã hóa. QVAC hiện đã tích hợp với OpenCode và OpenClaw thông qua gói nhà cung cấp giúp đơn giản hóa việc quản lý và triển khai mô hình.

Liên quan: Đồng sáng lập Multicoin tuyên bố ‘Web3 đã chết’ giữa khủng hoảng danh tính tiền điện tử

AI mã nguồn mở tiến gần hơn đến biên

phiên bản cho thấy Tether đang tập trung vào việc thực hiện nhiều tác vụ tính toán trực tiếp trên các thiết bị của người dùng thay vì hoàn toàn phụ thuộc vào các trung tâm dữ liệu tập trung. Công ty ngày càng chú trọng vào phần mềm có thể hoạt động trên các thiết bị cá nhân, mạng cục bộ và các hệ thống phi tập trung.

“Nghiên cứu của Google cho thấy bộ nhớ AI có thể được nén hiệu quả hơn nhiều so với hầu hết mọi người từng nghĩ. Công việc của chúng tôi mang bước đột phá đó vào phần mềm sản xuất mà các nhà phát triển, startup và người dùng thực sự có thể xây dựng,” Ardoino nói.

Anh ấy bổ sung: “Mọi người nên có thể yêu cầu trợ lý AI đọc một tài liệu dài, ghi nhớ một dự án, hỗ trợ mã nguồn hoặc xử lý thông tin riêng tư mà không cần mọi tác vụ đều phải đi qua trung tâm dữ liệu từ xa.”

Việc ra mắt diễn ra khi Tether mở rộng nỗ lực của mình ra ngoài các công cụ tối ưu hóa bộ nhớ. Ardoino gần đây đã tiết lộ rằng công ty đang phát triển một công cụ tìm kiếm ngang hàng mã nguồn mở và chia sẻ bản trình diễn về hệ thống tìm kiếm Wikipedia phi tập trung.

Liên quan: Michael Burry gọi thỏa thuận GPU 5,4 tỷ USD của Nvidia là ‘Fugazi’

Thông báo miễn trừ trách nhiệm: Thông tin được trình bày trong bài viết này chỉ mang tính chất tham khảo và giáo dục. Bài viết không cấu thành lời khuyên tài chính hay bất kỳ loại lời khuyên nào khác. Coin Edition không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh do việc sử dụng nội dung, sản phẩm hoặc dịch vụ được đề cập. Độc giả được khuyến nghị thận trọng trước khi thực hiện bất kỳ hành động nào liên quan đến công ty.