Tether AI Melepaskan TurboQuant secara Open-Source, Mengurangi Penggunaan Memori KV Cache LLM hingga 5x

Tether AI baru saja merilis TurboQuant sebagai perangkat lunak sumber terbuka, yang menyediakan alat untuk mengompres jejak memori inferensi model bahasa besar hingga lima kali lipat. Teknologi ini menargetkan bottleneck spesifik yang disebut cache kunci-nilai (KV), yang pada dasarnya adalah memori kerja yang digunakan model transformer untuk melacak konteks selama percakapan.

Apa yang sebenarnya dilakukan TurboQuant

Algoritma di balik TurboQuant berasal dari Google Research, yang menerbitkan detail awal pada 24 Maret 2026. Yang dilakukan Tether AI adalah mengambil makalah penelitian tersebut dan mengubahnya menjadi sesuatu yang dapat langsung dideploy oleh pengembang di produksi. Rilisan Tether mencakup seluruh pipeline kuantisasi, adapter kerangka kerja, dan dokumentasi komprehensif.

Quantisasi adalah teknik yang mengurangi presisi angka yang digunakan dalam komputasi jaringan saraf. Alih-alih menyimpan nilai sebagai bilangan titik mengambang 16-bit atau 32-bit, Anda memampatkannya menjadi representasi 4-bit atau bahkan 2-bit. TurboQuant menangani ini khusus untuk cache KV.

Tidak diperlukan pelatihan ulang atau fine-tuning model. Pengembang dapat menerapkan TurboQuant pada model yang ada dan kerangka inferensi yang ada tanpa harus memulai dari awal.

Rilis ini tiba sebagai bagian dari versi QVAC SDK 0.12.0, yang juga mencakup kemampuan baru seperti generasi teks-ke-video dan pengendalian robot. QVAC adalah platform luas Tether yang bertujuan mendukung AI terdesentralisasi di perangkat konsumen.

Mengapa perusahaan stablecoin membangun infrastruktur AI

Tether telah secara agresif memperluas operasinya di luar stablecoin USDT, dan AI merupakan salah satu taruhan terbesarnya. CEO Paolo Ardoino menempatkan upaya AI perusahaan di sekitar teks tertentu: bahwa model bahasa berkualitas tinggi harus berjalan secara lokal di perangkat konsumen seperti ponsel dan laptop, bukan bergantung pada layanan cloud terpusat.

Masalah memori adalah hambatan utama terhadap visi tersebut. Model yang memerlukan 16 GB memori hanya untuk cache KV-nya tidak akan muat di sebagian besar perangkat konsumen. Kurangi menjadi 3,2 GB, dan tiba-tiba perhitungannya mulai berjalan.

Ardoino menekankan bahwa TurboQuant membawa AI lokal yang efisien lebih dekat ke kenyataan dengan mengatasi batasan memori yang dihadapi model transformer pada perangkat konsumen.

Platform QVAC dibangun di atas beberapa teknik kuantisasi sebelumnya, termasuk PolarQuant dan Quantized Johnson-Lindenstrauss. Tim AI Tether telah menggabungkan beberapa metode kompresi secara bertingkat, masing-masing menargetkan bagian berbeda dari masalah efisiensi, dan TurboQuant adalah lapisan terbaru dalam rangkaian tersebut.

Apa artinya ini bagi para investor

Sifat open-source dari rilis ini berarti setiap pengembang dapat mengambil kode, mengintegrasikannya ke dalam pipeline inferensi mereka, dan langsung mendapatkan manfaat dari penghematan memori. Itu adalah langkah strategis untuk mengembangkan ekosistem di sekitar QVAC dan menempatkan platform Tether sebagai toolkit default untuk aplikasi AI terdesentralisasi.

Google Research menerbitkan algoritma dasarnya. Tidak ada yang menghentikan Google itu sendiri, atau laboratorium lain yang memiliki sumber daya besar, dari merilis implementasi produksi mereka sendiri. Dimasukkannya fitur text-to-video dan kontrol robot dalam pembaruan SDK yang sama menunjukkan bahwa tim sedang beriterasi dengan cepat.

Periksa apakah benchmark independen mengonfirmasi klaim kompresi 5x berlaku di berbagai arsitektur model dan panjang konteks, karena teknik kuantisasi terkadang menurun dalam penggunaan dunia nyata dengan percakapan yang lebih panjang atau tugas penalaran yang lebih kompleks.