Tether Membuka Sumber TurboQuant Google untuk Mengurangi Penggunaan Memori AI

Kelompok Riset AI Tether telah melepaskan implementasi siap produksi dari TurboQuant, algoritma dari Google Research yang dirancang untuk secara signifikan mengurangi kebutuhan memori AI, menurut rilis pers Senin.

Teknologi ini sekarang menjadi bagian dari QVAC Fabric, mesin AI lokal Tether, dan mencakup pipeline kuantisasi lengkap, integrasi kerangka kerja, dokumentasi, dan profil penyebaran untuk kasus penggunaan dunia nyata.

Rilis ini menargetkan konsumsi memori, salah satu hambatan terbesar dalam menjalankan AI canggih di perangkat lokal. Saat asisten AI memproses percakapan yang lebih panjang, file yang lebih besar, dan tugas yang lebih kompleks, cache KV mereka membesar dan dapat memerlukan sumber daya perangkat keras yang signifikan.

Menurut peneliti, TurboQuant mengurangi kebutuhan memori hingga 5x sambil mempertahankan kinerja model, sehingga lebih mudah menjalankan sistem AI yang mampu di laptop, ponsel, GPU konsumen, dan perangkat edge.

“Penelitian Google menunjukkan bahwa memori AI dapat dikompresi jauh lebih efisien daripada yang diasumsikan kebanyakan orang. Pekerjaan kami membawa terobosan itu ke perangkat lunak produksi yang dapat digunakan oleh pengembang, startup, dan pengguna,” komentar CEO Tether Paolo Ardoino pada rilis tersebut.

Menurut Ardoino, alat AI harus mampu memproses dokumen panjang, mempertahankan konteks proyek, mendukung pengembangan perangkat lunak, dan bekerja dengan data pribadi secara lokal daripada mengarahkan setiap tugas melalui infrastruktur cloud. Ia mengatakan TurboQuant membantu membuat hal itu mungkin dengan memberikan kapasitas memori yang lebih besar dan kesadaran kontekstual kepada sistem AI lokal.

“Jika AI konteks panjang hanya berfungsi di dalam pusat data terbesar, maka AI akan dibentuk oleh siapa pun yang memiliki perangkat keras paling banyak. TurboQuant mengubah apa yang bisa dilakukan AI lokal dengan membuat memori kurang menjadi hambatan,” tambahnya.

Tether percaya bahwa teknologi ini dapat membantu mengalihkan lebih banyak beban kerja AI dari layanan cloud terpusat dengan memungkinkan jendela konteks yang lebih panjang dan peningkatan kinerja pada perangkat lokal.

Termasuk dalam QVAC SDK 0.12.0, rilis ini mendukung tujuan perusahaan dalam membangun sistem AI yang beroperasi lebih dekat dengan pengguna melalui perangkat pribadi, jaringan lokal, dan infrastruktur terdesentralisasi.