Tether AI Melepaskan TurboQuant secara Open-Source, Mengurangi Penggunaan Memori KV Cache LLM hingga 5x

iconCryptoBriefing
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Tether AI telah melepaskan TurboQuant sebagai perangkat sumber terbuka yang mengurangi penggunaan memori cache KV LLM hingga 5 kali. Teknologi ini menargetkan hambatan utama pada model transformer dan didasarkan pada penelitian Google dari 24 Maret 2026. Tether mengadaptasinya menjadi solusi siap produksi dengan dukungan kuantisasi penuh. Rilis ini merupakan bagian dari QVAC SDK 0.12.0, yang mencakup text-to-video dan kontrol robot. CEO Tether, Paolo Ardoino, mengatakan alat ini membantu menjalankan LLM berkualitas tinggi secara lokal di perangkat konsumen. Langkah sumber terbuka ini bertujuan untuk memperluas ekosistem QVAC dan menempatkan Tether sebagai platform AI terdesentralisasi. Ini adalah pembaruan besar dalam berita AI + kripto dan berita on-chain.

Tether AI baru saja merilis TurboQuant sebagai perangkat lunak sumber terbuka, yang menyediakan alat untuk mengompres jejak memori inferensi model bahasa besar hingga lima kali lipat. Teknologi ini menargetkan bottleneck spesifik yang disebut cache kunci-nilai (KV), yang pada dasarnya adalah memori kerja yang digunakan model transformer untuk melacak konteks selama percakapan.

Apa yang sebenarnya dilakukan TurboQuant

Algoritma di balik TurboQuant berasal dari Google Research, yang menerbitkan detail awal pada 24 Maret 2026. Yang dilakukan Tether AI adalah mengambil makalah penelitian tersebut dan mengubahnya menjadi sesuatu yang dapat langsung dideploy oleh pengembang di produksi. Rilisan Tether mencakup seluruh pipeline kuantisasi, adapter kerangka kerja, dan dokumentasi komprehensif.

Quantisasi adalah teknik yang mengurangi presisi angka yang digunakan dalam komputasi jaringan saraf. Alih-alih menyimpan nilai sebagai bilangan titik mengambang 16-bit atau 32-bit, Anda memampatkannya menjadi representasi 4-bit atau bahkan 2-bit. TurboQuant menangani ini khusus untuk cache KV.

Tidak diperlukan pelatihan ulang atau fine-tuning model. Pengembang dapat menerapkan TurboQuant pada model yang ada dan kerangka inferensi yang ada tanpa harus memulai dari awal.

Iklan

Rilis ini tiba sebagai bagian dari versi QVAC SDK 0.12.0, yang juga mencakup kemampuan baru seperti generasi teks-ke-video dan pengendalian robot. QVAC adalah platform luas Tether yang bertujuan mendukung AI terdesentralisasi di perangkat konsumen.

Mengapa perusahaan stablecoin membangun infrastruktur AI

Tether telah secara agresif memperluas operasinya di luar stablecoin USDT, dan AI merupakan salah satu taruhan terbesarnya. CEO Paolo Ardoino menempatkan upaya AI perusahaan di sekitar teks tertentu: bahwa model bahasa berkualitas tinggi harus berjalan secara lokal di perangkat konsumen seperti ponsel dan laptop, bukan bergantung pada layanan cloud terpusat.

Masalah memori adalah hambatan utama terhadap visi tersebut. Model yang memerlukan 16 GB memori hanya untuk cache KV-nya tidak akan muat di sebagian besar perangkat konsumen. Kurangi menjadi 3,2 GB, dan tiba-tiba perhitungannya mulai berjalan.

Ardoino menekankan bahwa TurboQuant membawa AI lokal yang efisien lebih dekat ke kenyataan dengan mengatasi batasan memori yang dihadapi model transformer pada perangkat konsumen.

Platform QVAC dibangun di atas beberapa teknik kuantisasi sebelumnya, termasuk PolarQuant dan Quantized Johnson-Lindenstrauss. Tim AI Tether telah menggabungkan beberapa metode kompresi secara bertingkat, masing-masing menargetkan bagian berbeda dari masalah efisiensi, dan TurboQuant adalah lapisan terbaru dalam rangkaian tersebut.

Apa artinya ini bagi para investor

Sifat open-source dari rilis ini berarti setiap pengembang dapat mengambil kode, mengintegrasikannya ke dalam pipeline inferensi mereka, dan langsung mendapatkan manfaat dari penghematan memori. Itu adalah langkah strategis untuk mengembangkan ekosistem di sekitar QVAC dan menempatkan platform Tether sebagai toolkit default untuk aplikasi AI terdesentralisasi.

Google Research menerbitkan algoritma dasarnya. Tidak ada yang menghentikan Google itu sendiri, atau laboratorium lain yang memiliki sumber daya besar, dari merilis implementasi produksi mereka sendiri. Dimasukkannya fitur text-to-video dan kontrol robot dalam pembaruan SDK yang sama menunjukkan bahwa tim sedang beriterasi dengan cepat.

Periksa apakah benchmark independen mengonfirmasi klaim kompresi 5x berlaku di berbagai arsitektur model dan panjang konteks, karena teknik kuantisasi terkadang menurun dalam penggunaan dunia nyata dengan percakapan yang lebih panjang atau tugas penalaran yang lebih kompleks.

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.