Tether AI membuka sumber TurboQuant, mengurangkan penggunaan memori KV cache LLM sebanyak 5x

Tether AI baru sahaja mengeluarkan TurboQuant sebagai perisian sumber terbuka, memberikan alat yang mampu mengurangkan jejak memori inferens model bahasa besar sehingga lima kali ganda. Teknologi ini menargetkan satu bottleneck khusus yang dipanggil cache kunci-nilai (KV), yang pada dasarnya adalah memori kerja yang digunakan model transformer untuk mengikuti konteks semasa perbualan.

Apa yang sebenarnya dilakukan oleh TurboQuant

Algoritma di sebalik TurboQuant berasal dari Google Research, yang menerbitkan butiran awal pada 24 Mac 2026. Apa yang telah dilakukan Tether AI ialah mengambil kertas penyelidikan itu dan menjadikannya sesuatu yang boleh diterapkan oleh pembangun dalam persekitaran pengeluaran. Pelancaran Tether termasuk saluran kuantisasi penuh, penyesuai kerangka kerja, dan dokumentasi menyeluruh.

Kuantisasi adalah teknik yang mengurangi ketepatan nombor yang digunakan dalam pengiraan rangkaian saraf. Alih-alih menyimpan nilai sebagai nombor titik terapung 16-bit atau 32-bit, anda mampatkan ia kepada representasi 4-bit atau bahkan 2-bit. TurboQuant menangani ini khusus untuk cache KV.

Tidak diperlukan pelatihan semula atau penyesuaian model. Pembangun boleh mengaplikasikan TurboQuant kepada model sedia ada dan kerangka inferens sedia ada tanpa perlu bermula dari awal.

Rilis ini datang sebagai sebahagian daripada versi QVAC SDK 0.12.0, yang juga termasuk kemampuan baharu seperti penghasilan teks-ke-video dan kawalan robot. QVAC ialah platform lebih luas Tether yang bertujuan untuk menyokong AI terdesentralisasi merentas peranti pengguna.

Mengapa sebuah syarikat koin stabil membina infrastruktur AI

Tether telah secara agresif mengembangkan diri melampaui koin stabil USDT, dan AI mewakili salah satu pelaburan terbesarnya. CEO Paolo Ardoino telah menempatkan usaha AI syarikat tersebut berdasarkan satu teasis tertentu: model bahasa berkualiti tinggi seharusnya berjalan secara tempatan pada peranti pengguna seperti telefon dan komputer riba, bukan bergantung pada perkhidmatan awan terpusat.

Masalah memori adalah halangan utama kepada visi itu. Model yang memerlukan 16 GB memori semata-mata untuk cache KVnya tidak akan muat pada kebanyakan peranti pengguna. Kurangkan kepada 3.2 GB dan tiba-tiba perhitungannya mulai berfungsi.

Ardoino menekankan bahawa TurboQuant membawa AI tempatan yang cekap lebih dekat kepada kenyataan dengan mengatasi batasan memori yang dihadapi model transformer pada peranti pengguna.

Platform QVAC dibina atas beberapa teknik kuantisasi sebelumnya, termasuk PolarQuant dan Quantized Johnson-Lindenstrauss. Pasukan AI Tether telah menggabungkan beberapa kaedah pemampatan bersama-sama, masing-masing menargetkan bahagian yang berbeza dalam masalah kecekapan, dan TurboQuant ialah lapisan terkini dalam gubahan tersebut.

Apa yang bermaksud ini kepada pelabur

Sifat sumber terbuka bagi rilis ini bermakna sebarang pembangun boleh mengambil kod, mengintegrasikannya ke dalam saluran inferens mereka, dan segera mendapat manfaat daripada penghematan memori. Itu adalah langkah strategik untuk memperluaskan ekosistem di sekitar QVAC dan menempatkan platform Tether sebagai toolkit lalai untuk aplikasi AI terdesentralisasi.

Google Research menerbitkan algoritma asasnya. Tiada apa-apa yang menghalang Google itu sendiri, atau sebarang makmal lain yang mempunyai sumber yang baik, daripada melepaskan pelaksanaan pengeluaran mereka sendiri. Pemasukan ciri teks-ke-video dan kawalan robot dalam kemas kini SDK yang sama menunjukkan bahawa pasukan sedang beriterasi dengan pantas.

Perhatikan sama ada tolok bebas mengesahkan bahawa klaim kompresi 5x berlaku merentas pelbagai arsitektur model dan panjang konteks, kerana teknik kuantisasi kadang-kadang menurun dalam penggunaan dunia nyata dengan perbualan yang lebih panjang atau tugas penalaran yang lebih kompleks.