Tether mở nguồn TurboQuant của Google để giảm sử dụng bộ nhớ AI

Nhóm Nghiên cứu AI của Tether đã mở nguồn một phiên bản sẵn sàng để sản xuất của TurboQuant, thuật toán do Google Research phát triển nhằm giảm đáng kể nhu cầu bộ nhớ của AI, theo một thông cáo báo chí ngày press release.

Công nghệ hiện đã trở thành một phần của QVAC Fabric, động cơ AI địa phương của Tether, và bao gồm toàn bộ quy trình lượng tử hóa, tích hợp khung công việc, tài liệu và hồ sơ triển khai cho các trường hợp sử dụng thực tế.

Phiên bản này nhắm vào việc tiêu thụ bộ nhớ, một trong những rào cản lớn nhất khi chạy AI nâng cao trên các thiết bị cục bộ. Khi các trợ lý AI xử lý các cuộc trò chuyện dài hơn, các tệp lớn hơn và các tác vụ phức tạp hơn, bộ nhớ đệm KV của chúng mở rộng và có thể yêu cầu nguồn tài nguyên phần cứng đáng kể.

Quảng cáo

Theo các nhà nghiên cứu, TurboQuant giảm nhu cầu bộ nhớ đến 5 lần trong khi vẫn duy trì hiệu suất mô hình, giúp dễ dàng chạy các hệ thống AI mạnh mẽ trên laptop, điện thoại, GPU tiêu dùng và các thiết bị biên.

“Nghiên cứu của Google cho thấy bộ nhớ AI có thể được nén hiệu quả hơn nhiều so với hầu hết mọi người từng nghĩ. Công việc của chúng tôi mang bước đột phá đó vào phần mềm sản xuất mà các nhà phát triển, startup và người dùng thực sự có thể xây dựng,” CEO của Tether Paolo Ardoino bình luận về bản phát hành.

Theo Ardoino, các công cụ AI nên có khả năng xử lý các tài liệu dài, duy trì bối cảnh dự án, hỗ trợ phát triển phần mềm và làm việc với dữ liệu riêng tư tại chỗ thay vì chuyển mọi tác vụ qua cơ sở hạ tầng đám mây. Ông cho biết TurboQuant giúp hiện thực hóa điều đó bằng cách cung cấp cho các hệ thống AI tại chỗ dung lượng bộ nhớ lớn hơn và nhận thức ngữ cảnh tốt hơn.

“Nếu AI với ngữ cảnh dài chỉ hoạt động hiệu quả trong các trung tâm dữ liệu lớn nhất, thì AI sẽ bị định hình bởi người sở hữu nhiều phần cứng nhất. TurboQuant thay đổi những gì AI cục bộ có thể làm bằng cách giảm bớt rào cản về bộ nhớ,” anh ấy bổ sung.

Tether tin rằng công nghệ này có thể giúp chuyển nhiều tải công việc AI hơn ra khỏi các dịch vụ đám mây tập trung bằng cách cho phép các cửa sổ ngữ cảnh dài hơn và hiệu suất cải thiện trên phần cứng cục bộ.

Được tích hợp trong QVAC SDK 0.12.0, bản phát hành này hỗ trợ mục tiêu của công ty trong việc xây dựng các hệ thống AI hoạt động gần người dùng hơn thông qua các thiết bị cá nhân, mạng cục bộ và hạ tầng phi tập trung.