Cerebras, Kimi K2.6 Modelinde saniyede 981 token başarı elde ediyor, GPU Bulutundan 6,7 kat daha hızlı

iconCryptoBriefing
Paylaş
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconÖzet

expand icon
Cerebras Systems, Artificial Analysis tarafından doğrulanarak, Moonshot AI’nin Kimi K2.6 modeli için saniyede 981 token sağlıyor. Bu 1 trilyon parametreli açık ağırlıklı MoE modeli, en iyi GPU bulutundan 6,7 kat daha hızlı çalışıyor. Zincir üzerindeki veriler, kodlama görevlerinde 29 katlık gecikme iyileşmesini gösteriyor; Cerebras, resmi Kimi uç noktasındaki 163,7 saniyeye kıyasla 5,6 saniyede bir yanıt tamamlıyor. Zincir üzerindeki analiz, performans farkının tüm iş yükleri boyunca tutarlı kaldığını doğruluyor.

Cerebras Systems, şu anda Moonshot AI’nin Kimi K2.6 adlı, 1 trilyon parametreli açık ağırlıklı Uzmanlar Karışımı modelini, saniyede 981 çıktı tokeni hızında sunuyor. Bu sayı, Artificial Analysis tarafından yapılan bağımsız testlerle doğrulanmış olup, en iyi ikinci GPU bulut sağlayıcısının hızının 6,7 katıdır.

Bağlam olarak, medyan çıkarım sağlayıcısı yaklaşık 23 kat daha yavaş çalışmaktadır.

Sayılar pratiğe nasıl yansır

10.000 girdi belirteci ve 500 çıktı belirteciyle temsili bir agensel kodlama yükünde, Cerebras destekli sistem tam bir yanıtın 5,6 saniyede verildi.

Reklam

Resmi Kimi uç noktasında aynı görev 163,7 saniye sürdü. Bu, uçtan uca gecikmede 29 katlık bir iyileşmedir.

Kimi K2.6 modelini anlamak önemlidir. Moonshot AI tarafından geliştirilen ve 20 Nisan 2026'da yayınlanan bu model, çoklu modallik ve ajanlık yeteneklerine sahiptir. Toplam parametre sayısı 1 trilyona ulaşırken, MoE mimarisi sayesinde herhangi bir anda yalnızca 32 milyar parametre etkindir.

Neden wafer ölçekli mimarinin matematiğini değiştiriyor

Cerebras’ temel teknolojisi, tam bir silikon wafer olan Wafer-Scale Engine’dir. Geleneksel çipler, waferlerden küçük bireysel dieslere kesilir. Cerebras, kesme aşamasını atlar ve tamamını kullanır.

Cerebras, NVIDIA'nın NVLink adını verdiği, veri merkezi kümelerinde GPU'ları birbirine bağlayan bağlantı teknolojisinden 200 kat daha fazla bant genişliğine sahip olduğunu iddia ediyor. Büyük modeller üzerinde çıkarım yaparken darboğaz neredeyse her zaman ham hesaplama değil, bellek bant genişliğidir. Her oluşturulan token için ağırlıklar bellekten okunmalı ve işlemcilere verilmelidir.

İş bağlamı: Yeni halka açılmış, bir şey kanıtlamaya ihtiyaç duyan bir şirket

Cerebras, Mayıs 2026'da 95 milyar dolarlık bir değerlemeye sahip olarak IPO'sunu tamamladı ve yılın en büyük teknoloji IPO'su oldu.

Saniyede 981 token sonucu, bu tezin hız kısmının sağlam olduğuna dair şimdiye kadar en somut kanıttır. Cerebras, bu performans testiyle birlikte ayrıntılı fiyat karşılaştırmalarını yayınlamadı.

Önde gelen bir Çinli Yapay Zeka laboratuvarının en öne çıkan açık ağırlıklı modellerinden birini sunarak, Cerebras donanımının geliştiricilerin gerçekten kullanmak istediği modelleri işleyebileceğini gösteriyor.

Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir. Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.