Tether Meluncurkan TurboQuant untuk Memungkinkan Model AI yang Lebih Besar di Perangkat

TurboQuant Tether mengurangi penggunaan memori AI hingga 5x, membantu perangkat menangani tugas yang lebih panjang secara lokal.
QVAC 0.12.0 memungkinkan pengembang menjalankan beban kerja AI yang lebih besar di laptop dan ponsel dengan beban memori yang lebih rendah.
TurboQuant mengatasi bottleneck memori AI, memungkinkan obrolan lebih panjang, file lebih besar, dan proyek kode yang lebih besar.

Tether telah menambahkan alat optimasi memori baru ke QVAC SDK 0.12.0, langkah yang dapat membantu laptop, smartphone, dan perangkat lainnya menangani beban kerja yang lebih besar secara lokal. Mengumumkan pembaruan ini di X, CEO Paolo Ardoino mengatakan rilis ini mencakup TurboQuant, teknologi yang mengurangi kebutuhan memori AI hingga lima kali lipat sambil mempertahankan kualitas output yang hampir sama.

Pembaruan ini berfokus pada batasan utama untuk model bahasa besar: memori. Seiring dengan memanjangnya percakapan dan tugas, kebutuhan memori meningkat tajam. TurboQuant mengurangi beban tersebut, memungkinkan perangkat untuk bekerja dengan dokumen yang lebih besar, percakapan yang lebih panjang, dan lebih banyak informasi sekaligus.

🚨🤖 Tether AI meluncurkan TurboQuant KV-Cache Quantization dalam QVAC SDK 0.12.0, mengompres kebutuhan memori KV cache hingga 5x, hampir tanpa kehilangan kualitas.

AI lokal berkualitas tinggi yang efektif semakin dekat! https://t.co/wZjXgR0Bu5
— Paolo Ardoino 🤖 (@paoloardoino) June 1, 2026

Rilis ini juga menambahkan generasi teks-ke-video, fitur kontrol robot, dukungan asisten pemrograman, peningkatan pemrosesan suara, dan alat klasifikasi gambar yang lebih cepat.

TurboQuant Menargetkan Bottleneck Memori AI

TurboQuant berada di pusat rilis QVAC SDK 0.12.0. Teknologi ini memampatkan KV cache, sejenis memori kerja yang digunakan model AI untuk melacak percakapan, dokumen, dan informasi lainnya selama sesi.

Permintaan memori meningkat seiring pengguna memasukkan lebih banyak informasi ke dalam model. Tether mengatakan model dengan 4 miliar parameter yang memproses sekitar 262.000 token dapat memerlukan sekitar 8 GB memori hanya untuk cache. Menjalankan beberapa sesi pada skala tersebut dapat dengan cepat melebihi batas banyak laptop dan perangkat konsumen.

TurboQuant bertujuan untuk mengurangi tekanan tersebut. Menurut Tether, teknologi ini dapat mengurangi kebutuhan memori KV cache hingga lima kali lipat sambil mempertahankan kualitas output yang hampir sama. Akibatnya, pengguna dapat bekerja dengan percakapan yang lebih panjang, dokumen yang lebih besar, dan basis kode yang lebih besar tanpa terlalu bergantung pada sumber daya komputasi jarak jauh.

QVAC Memperluas Jangkauan di Luar Model Bahasa

Pembaruan ini mencakup lebih dari sekadar peningkatan memori. QVAC SDK 0.12.0 menambahkan beberapa alat baru yang bertujuan untuk memperluas apa yang dapat dijalankan pengembang di perangkat lokal.

Di antara penambahan tersebut adalah dukungan untuk generasi teks-ke-video melalui model Wan2.1. Platform ini juga memperkenalkan fitur vision-language-action yang memungkinkan pengembang membuat aplikasi untuk kontrol robotik.

Rilis ini juga menambahkan alat klasifikasi gambar ringan yang dirancang untuk tugas-tugas yang tidak memerlukan model visi yang lebih besar. Pada saat yang sama, QVAC memindahkan sistem text-to-speech dan transkripsi ke mesin GGML-nya, perubahan yang memperluas dukungan di berbagai sistem operasi desktop dan seluler utama.

Para pengembang juga mendapatkan opsi baru untuk asisten pemrograman. QVAC kini terintegrasi dengan OpenCode dan OpenClaw melalui paket penyedia yang menyederhanakan manajemen dan penyebaran model.

Terkait: Co-Founder Multicoin Nyatakan ‘Web3 Sudah Mati’ di Tengah Krisis Identitas Kripto

AI Sumber Terbuka Semakin Mendekati Edge

rilis menunjukkan fokus Tether pada menjalankan lebih banyak tugas komputasi langsung di perangkat pengguna daripada mengandalkan sepenuhnya pusat data terpusat. Perusahaan semakin berfokus pada perangkat lunak yang dapat beroperasi di berbagai perangkat pribadi, jaringan lokal, dan sistem terdesentralisasi.

“Penelitian Google menunjukkan bahwa memori AI dapat dikompresi jauh lebih efisien daripada yang diasumsikan kebanyakan orang. Pekerjaan kami membawa terobosan itu ke perangkat lunak produksi yang dapat digunakan oleh pengembang, startup, dan pengguna,” kata Ardoino.

Dia menambahkan, “Orang seharusnya dapat meminta asisten AI untuk membaca dokumen panjang, mengingat sebuah proyek, membantu dengan kode, atau bekerja melalui informasi pribadi tanpa setiap tugas dipaksa melewati pusat data jarak jauh.”

Peluncuran ini datang saat Tether memperluas upayanya di luar alat optimasi memori. Ardoino baru-baru ini mengungkapkan bahwa perusahaan sedang mengembangkan mesin pencari peer-to-peer open-source dan membagikan demonstrasi sistem pencarian Wikipedia terdesentralisasi.

Terkait: Michael Burry Menyebut Kesepakatan GPU $5,4 Miliar Nvidia sebagai ‘Fugazi’

Penafian: Informasi yang disajikan dalam artikel ini hanya untuk tujuan informasi dan pendidikan. Artikel ini tidak merupakan nasihat keuangan atau nasihat apa pun. Coin Edition tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan konten, produk, atau layanan yang disebutkan. Pembaca disarankan untuk berhati-hati sebelum mengambil tindakan apa pun yang terkait dengan perusahaan.