Tether AI, TurboQuant'u açık kaynak yazılım olarak yayınladı ve büyük dil modellerinin çıkarım sırasında bellek kullanımını beş katına kadar azaltan bir araç sundu. Bu teknoloji, transformer modellerinin bir sohbet sırasında bağlamı takip etmek için kullandığı temel çalışma belleği olan anahtar-değer (KV) önbelleği adı verilen belirli bir darboğaza odaklanıyor.
TurboQuant'un aslında ne yaptığını
TurboQuant'un arka planındaki algoritma, 24 Mart 2026'da ilk detayları yayımlayan Google Research'ten türemiştir. Tether AI, bu araştırma kağıdını geliştiricilerin üretim ortamında gerçekten kullanabileceği bir şeye dönüştürmüştür. Tether'in sürümü, tam bir kantizasyon hattını, framework uyumlayıcılarını ve kapsamlı belgeleri içermektedir.
Kwantizasyon, sinir ağı hesaplamalarında kullanılan sayıların hassasiyetini azaltan bir tekniktir. Değerleri 16-bit veya 32-bit kayan noktalı sayılar olarak değil, 4-bit veya hatta 2-bit temsillere sıkıştırırsınız. TurboQuant, bu işlemi özellikle KV önbelleği için gerçekleştirir.
Herhangi bir model yeniden eğitimi veya ince ayarı gerekmez. Geliştiriciler, TurboQuant'u mevcut modellere ve mevcut çıkarım çerçevelerine sıfırdan başlamadan uygulayabilir.
Sürüm, QVAC SDK 0.12.0 sürümünün bir parçası olarak yayınlandı ve bu sürüm, metinden video üretimi ve robot kontrolü gibi yeni yetenekleri de içeriyor. QVAC, Tether’in tüketici donanımları üzerinde dağıtık yapay zekayı desteklemeyi amaçlayan daha geniş platformudur.
Bir stablecoin şirketi neden yapay zeka altyapısı inşa ediyor
Tether, USDT stablecoin'unun ötesine agresif bir şekilde genişliyor ve AI, en büyük yatırımlarından birini temsil ediyor. CEO Paolo Ardoino, şirketin AI çabalarını şu tez etrafında şekillendirdi: yüksek kaliteli dil modelleri, merkezi bulut hizmetlerine bağımlı kalmadan, telefon ve dizüstü bilgisayarlar gibi tüketici cihazlarında yerel olarak çalışmalıdır.
Bu vizyonun temel engeli bellek sorunu. Sadece KV önbelleği için 16 GB bellek gerektiren bir model, çoğu tüketici cihazına sığmayacaktır. Bu miktarı 3,2 GB'a düşürürseniz, aniden matematik işe yaramaya başlar.
Ardoino, TurboQuant'un transformator modellerinin tüketici donanımında karşılaştığı bellek kısıtlamalarını gidererek verimli yerel AI'yi gerçekliğe daha da yaklaştırdığını vurguladı.
QVAC platformı, PolarQuant ve Quantized Johnson-Lindenstrauss gibi önceki nicelleme tekniklerine dayanmaktadır. Tether'in AI ekibi, verimlilik sorununun farklı bölümlerini hedefleyen birden fazla sıkıştırma yöntemini bir araya getirmiştir ve TurboQuant, bu katmanların en sonudur.
Bu, yatırımcılar için ne anlama geliyor
Yayının açık kaynaklı yapısı, herhangi bir geliştiricinin kodu alıp, çıkarım hattına entegre edip hemen bellek tasarrufundan faydalanmasını sağlar. Bu, QVAC etrafında bir ekosistem geliştirmek ve Tether’in platformunu dağıtık yapay zeka uygulamaları için varsayılan araç seti haline getirmek için stratejik bir hamledir.
Google Araştırma, temel algoritmayı yayınladı. Google veya başka iyi kaynaklara sahip bir laboratuvarın kendi üretim uygulamasını yayınlamasını hiçbir şey engellemez. Aynı SDK güncellemesinde metinden videoya ve robot kontrolü özelliklerinin dahil edilmesi, ekibin hızlı bir şekilde ilerlediğini göstermektedir.
Bağımsız performans testlerinin, nicelleştirme tekniklerinin daha uzun sohbetlerde veya daha karmaşık akıl yürütme görevlerinde gerçek dünyada nasıl etkilenebileceğini göz önünde bulundurarak, 5x sıkıştırma iddiasının farklı model mimarileri ve bağlam uzunlukları boyunca doğrulayıp doğrulamadığını izleyin.

