Tether AI membuka sumber TurboQuant, mengurangkan penggunaan memori KV cache LLM sebanyak 5x

iconCryptoBriefing
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Tether AI telah membuka sumber TurboQuant, sebuah alat yang mengurangkan penggunaan memori cache KV LLM sebanyak 5x. Teknologi ini menargetkan bottleneck utama dalam model transformer dan berdasarkan penyelidikan Google pada 24 Mac 2026. Tether telah menyesuaikannya menjadi penyelesaian siap produksi dengan sokongan kuantisasi penuh. Pelancaran ini merupakan sebahagian daripada QVAC SDK 0.12.0, yang termasuk teks-ke-video dan kawalan robot. CEO Tether, Paolo Ardoino, mengatakan alat ini membantu menjalankan LLM berkualiti tinggi secara tempatan pada peranti pengguna. Langkah pembukaan sumber ini bertujuan untuk memperluas ekosistem QVAC dan menempatkan Tether sebagai platform AI terdesentralisasi. Ini merupakan kemas kini besar dalam berita AI + kripto dan berita atas rantai.

Tether AI baru sahaja mengeluarkan TurboQuant sebagai perisian sumber terbuka, memberikan alat yang mampu mengurangkan jejak memori inferens model bahasa besar sehingga lima kali ganda. Teknologi ini menargetkan satu bottleneck khusus yang dipanggil cache kunci-nilai (KV), yang pada dasarnya adalah memori kerja yang digunakan model transformer untuk mengikuti konteks semasa perbualan.

Apa yang sebenarnya dilakukan oleh TurboQuant

Algoritma di sebalik TurboQuant berasal dari Google Research, yang menerbitkan butiran awal pada 24 Mac 2026. Apa yang telah dilakukan Tether AI ialah mengambil kertas penyelidikan itu dan menjadikannya sesuatu yang boleh diterapkan oleh pembangun dalam persekitaran pengeluaran. Pelancaran Tether termasuk saluran kuantisasi penuh, penyesuai kerangka kerja, dan dokumentasi menyeluruh.

Kuantisasi adalah teknik yang mengurangi ketepatan nombor yang digunakan dalam pengiraan rangkaian saraf. Alih-alih menyimpan nilai sebagai nombor titik terapung 16-bit atau 32-bit, anda mampatkan ia kepada representasi 4-bit atau bahkan 2-bit. TurboQuant menangani ini khusus untuk cache KV.

Tidak diperlukan pelatihan semula atau penyesuaian model. Pembangun boleh mengaplikasikan TurboQuant kepada model sedia ada dan kerangka inferens sedia ada tanpa perlu bermula dari awal.

Iklan

Rilis ini datang sebagai sebahagian daripada versi QVAC SDK 0.12.0, yang juga termasuk kemampuan baharu seperti penghasilan teks-ke-video dan kawalan robot. QVAC ialah platform lebih luas Tether yang bertujuan untuk menyokong AI terdesentralisasi merentas peranti pengguna.

Mengapa sebuah syarikat koin stabil membina infrastruktur AI

Tether telah secara agresif mengembangkan diri melampaui koin stabil USDT, dan AI mewakili salah satu pelaburan terbesarnya. CEO Paolo Ardoino telah menempatkan usaha AI syarikat tersebut berdasarkan satu teasis tertentu: model bahasa berkualiti tinggi seharusnya berjalan secara tempatan pada peranti pengguna seperti telefon dan komputer riba, bukan bergantung pada perkhidmatan awan terpusat.

Masalah memori adalah halangan utama kepada visi itu. Model yang memerlukan 16 GB memori semata-mata untuk cache KVnya tidak akan muat pada kebanyakan peranti pengguna. Kurangkan kepada 3.2 GB dan tiba-tiba perhitungannya mulai berfungsi.

Ardoino menekankan bahawa TurboQuant membawa AI tempatan yang cekap lebih dekat kepada kenyataan dengan mengatasi batasan memori yang dihadapi model transformer pada peranti pengguna.

Platform QVAC dibina atas beberapa teknik kuantisasi sebelumnya, termasuk PolarQuant dan Quantized Johnson-Lindenstrauss. Pasukan AI Tether telah menggabungkan beberapa kaedah pemampatan bersama-sama, masing-masing menargetkan bahagian yang berbeza dalam masalah kecekapan, dan TurboQuant ialah lapisan terkini dalam gubahan tersebut.

Apa yang bermaksud ini kepada pelabur

Sifat sumber terbuka bagi rilis ini bermakna sebarang pembangun boleh mengambil kod, mengintegrasikannya ke dalam saluran inferens mereka, dan segera mendapat manfaat daripada penghematan memori. Itu adalah langkah strategik untuk memperluaskan ekosistem di sekitar QVAC dan menempatkan platform Tether sebagai toolkit lalai untuk aplikasi AI terdesentralisasi.

Google Research menerbitkan algoritma asasnya. Tiada apa-apa yang menghalang Google itu sendiri, atau sebarang makmal lain yang mempunyai sumber yang baik, daripada melepaskan pelaksanaan pengeluaran mereka sendiri. Pemasukan ciri teks-ke-video dan kawalan robot dalam kemas kini SDK yang sama menunjukkan bahawa pasukan sedang beriterasi dengan pantas.

Perhatikan sama ada tolok bebas mengesahkan bahawa klaim kompresi 5x berlaku merentas pelbagai arsitektur model dan panjang konteks, kerana teknik kuantisasi kadang-kadang menurun dalam penggunaan dunia nyata dengan perbualan yang lebih panjang atau tugas penalaran yang lebih kompleks.

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.