Google, Yeni Donanım Gerektirmeden 3 Kat Hızlı Yerel AI Çıktısı Açıkladı

CoinDesk tarafından bildirildi:

Yapay zeka modelini kendi bilgisayarınızda çalıştırmak harika olabilir—ancak her zaman böyle değildir.

Gizlilik koruması sağlar, abonelik ücreti yoktur ve veriler cihazınızdan ayrılmaz. Ancak çoğu kişi için gerçeklik, cümleler arasında imlecin beş saniye boyunca yanıp sönmektedir.

Bu darboğazın bir adı var: çıkarım hızı. Bu, modelin akıllılığıyla ilgili değil, bir donanım sorunudur. Standart AI modelleri, her bir kelime parçasını (“token” olarak adlandırılır) üretirken, donanım her token için milyarlarca parametreyi bellekten hesaplama birimine aktarmak zorundadır. Bu tasarım kendisi çok yavaştır. Tüketici düzeyi donanımda bu tamamen kabul edilemez hale gelir.

Çoğu kişi, daha küçük ve daha zayıf modelleri çalıştırmak ya da kuantize edilmiş modeller adı verilen yüksek oranda sıkıştırılmış sürümleri çalıştırmak gibi geçici çözümler benimser. Bu iki yöntem de mükemmel değildir; her ikisi de hız kazanmak için kaliteden biraz vazgeçer. Her ikisi de çalışabilir, ancak gerçekten istediğiniz model değildir.

Şimdi Google farklı bir çözüm öneriyor. Şirket, Gemma 4 ailesi açık model teknolojisi için çoklu token tahmini (MTP) taslak aracını yayınladı—bu teknoloji, model kalitesini veya çıkarım yeteneğini tamamen etkilemeden hızda üç katlık bir artış sağlıyor.

Bu yöntem, spekülatif kodlama olarak adlandırılır ve kavramı yıllardır mevcuttur. Google araştırmacıları, 2022 yılında temel bir makale yayınladılar. Şimdiye kadar bu fikir, büyük ölçekli çalışması için uygun bir mimariye ihtiyaç duyduğu için ana akıma kabul edilmeye başlandı.

Özetle, çalışma prensibi şöyledir: Güçlü büyük modellerin tüm işi tek başına yapması yerine, bunlarla küçük bir “tahmin edici” model birlikte kullanılır. Tahmin edici model hızlı ve düşük maliyetlidir—birden fazla token’ı aynı anda tahmin edebilir ve bu işlem, ana modelin bir token üretmesi için gerekli süreden daha kısa sürer. Daha sonra büyük model, bu tüm tahminleri yalnızca bir kez tarayarak kontrol eder. Eğer tahminler doğruysa, tam bir diziyi elde etmek için yalnızca bir ileri geçiş maliyeti harcanır.

Google'e göre “hedef model taslakla anlaşır ise, tüm diziyi bir ileri geçişte kabul eder — hatta bu süreçte kendi ek işaretlerini üretir.”

Hiçbir kayıp: Gemma 4 gibi büyük modellerin 31 milyar yoğun sürümü, her bir belirteciyi yine de doğrular ve çıktı kalitesi tamamen aynı kalır. Sadece yavaş çalışan bölümlerde boşta kalan hesaplama gücünden yararlanırsınız.

Google, çizim modelinin hedef model ile anahtar-değer önbelleğini (KV önbelleği) paylaştığını belirtti; bu, işlenmiş bağlamı saklayan bir bellek yapısıdır ve bu sayede aynı bilgileri büyük modellerin zaten bildiği için tekrar hesaplamazlar. Telefonlar ve Raspberry Pi cihazları için tasarlanan küçük kenar modelleri için takım, üretimi daha da kısaltmak üzere etkili bir kümeleme tekniği geliştirdi.

Bu, paralel metin üretimi alanında yapay zekânın yaptığı tek girişim değildir. Dağılım tabanlı dil modelleri—örneğin Inception Labs'in Mercury'si—tamamen farklı bir yaklaşım benimser: birer birer token tahmin etmek yerine, gürültüden başlayarak tüm çıktıyı yinelemeli olarak optimize ederler. Teorik olarak çok hızlıdırlar, ancak dağılım dil modelleri, kalite açısından geleneksel Transformer modelleriyle yarışamaz; bu nedenle daha çok araştırma konusu olarak görülürler, pratik bir araç olarak değil.

Tahmini kodlama, temel modeli tamamen değiştirmemesi nedeniyle farklıdır. Bu, bir mimari değişikliği değil, bir hizmet optimizasyonudur. Çalıştırdığınız Gemma 4 sürümü daha hızlı hale gelecektir.

Gerçek etki gerçekten belirgin. Google'nın kendi performans testlerine göre, Nvidia RTX Pro 6000 masaüstü GPU'suyla donatılmış Gemma 4 26B çipinde MTP taslağı etkinleştirildiğinde, saniyede işlem yapılan token sayısı yaklaşık iki katına çıktı. Apple Silicon çiplerinde, 4 ila 8 isteklik toplu boyutlar yaklaşık 2,2 kat hız artışı sağlıyor. Tüm senaryolarda 3 katlık üst sınır elde edilemese de, bu, "hemen kullanılabilecek" ve "gerçek hayatta kullanmak için yeterince hızlı" arasında belirgin bir fark oluşturuyor.

Bağlam çok önemlidir. Çin modeli DeepSeek, Ocak 2025'te piyasayı şok etti. — NVIDIA'nın piyasa değerini bir gün içinde 600 milyar dolar kaybetmesine neden oldu — temel ders şuydu: verimlilik artışı, sadece hesaplama kapasitesini artırmaktan daha etkili. Daha akıllı bir çalışma şekli, donanım yatırımlarını artırmaktan daha iyidir. Google'ın MTP haritalama aracı, bu yönde atılmış başka bir adım, ancak hedef kitlesi açıkça tüketiciler.

Yapay zeka endüstrisi şu anda, çıkarım, eğitim ve bellek olmak üzere üç bölümden oluşan bir üçgen gibi. Bu alanlardan herhangi birindeki bir atılım, tüm ekosisteme etki edebilir. DeepSeek’in eğitim yöntemi (düşük seviyeli donanımla güçlü modeller oluşturma) bunun bir örneğidir ve Google’ın …TurboQuant’u (kaliteyi düşürmeden yapay zeka belleğini nasıl küçültebileceğiniz) ise başka bir makaledir. Bu iki makale, şirketlerin bunlara karşı stratejiler geliştirmeye çalışması nedeniyle piyasada çöküşlere yol açtı.

Google, bu çizim aracının “yanıt süresini artırabileceğini: gerçek zamanı yakın sohbet, gömülü ses uygulamaları ve ajans iş akışları için gecikmeyi büyük ölçüde azaltabileceğini” belirtti — bu tür görevlerin gerçekten etkili olabilmesi için düşük gecikme süresine ihtiyaç vardır.

Hemen net bir kullanım senaryosu: Gecikmesiz yerel bir kod asistanı; sorduğunuzu unutmadan önce yanıt veren bir ses arayüzü; üç saniye beklemeden adımları tamamlayan akıllı iş akışı. Bunların hepsi, zaten sahip olduğunuz donanımla mümkün.

MTP taslağı artık KuCoin'de! 拥抱脸 Apache 2.0 lisansı altında Kaggle ve Ollama ile uyumludur. Doğrudan kullanıma hazır olup, vLLM, MLX, SGLang ve Hugging Face Transformers'ı destekler.