Cerebras, Kimi K2.6 Modelinde saniyede 981 token başarı elde ediyor, GPU Bulutundan 6,7 kat daha hızlı

Cerebras Systems, şu anda Moonshot AI’nin Kimi K2.6 adlı, 1 trilyon parametreli açık ağırlıklı Uzmanlar Karışımı modelini, saniyede 981 çıktı tokeni hızında sunuyor. Bu sayı, Artificial Analysis tarafından yapılan bağımsız testlerle doğrulanmış olup, en iyi ikinci GPU bulut sağlayıcısının hızının 6,7 katıdır.

Bağlam olarak, medyan çıkarım sağlayıcısı yaklaşık 23 kat daha yavaş çalışmaktadır.

Sayılar pratiğe nasıl yansır

10.000 girdi belirteci ve 500 çıktı belirteciyle temsili bir agensel kodlama yükünde, Cerebras destekli sistem tam bir yanıtın 5,6 saniyede verildi.

Reklam

Resmi Kimi uç noktasında aynı görev 163,7 saniye sürdü. Bu, uçtan uca gecikmede 29 katlık bir iyileşmedir.

Kimi K2.6 modelini anlamak önemlidir. Moonshot AI tarafından geliştirilen ve 20 Nisan 2026'da yayınlanan bu model, çoklu modallik ve ajanlık yeteneklerine sahiptir. Toplam parametre sayısı 1 trilyona ulaşırken, MoE mimarisi sayesinde herhangi bir anda yalnızca 32 milyar parametre etkindir.

Neden wafer ölçekli mimarinin matematiğini değiştiriyor

Cerebras’ temel teknolojisi, tam bir silikon wafer olan Wafer-Scale Engine’dir. Geleneksel çipler, waferlerden küçük bireysel dieslere kesilir. Cerebras, kesme aşamasını atlar ve tamamını kullanır.

Cerebras, NVIDIA'nın NVLink adını verdiği, veri merkezi kümelerinde GPU'ları birbirine bağlayan bağlantı teknolojisinden 200 kat daha fazla bant genişliğine sahip olduğunu iddia ediyor. Büyük modeller üzerinde çıkarım yaparken darboğaz neredeyse her zaman ham hesaplama değil, bellek bant genişliğidir. Her oluşturulan token için ağırlıklar bellekten okunmalı ve işlemcilere verilmelidir.

İş bağlamı: Yeni halka açılmış, bir şey kanıtlamaya ihtiyaç duyan bir şirket

Cerebras, Mayıs 2026'da 95 milyar dolarlık bir değerlemeye sahip olarak IPO'sunu tamamladı ve yılın en büyük teknoloji IPO'su oldu.

Saniyede 981 token sonucu, bu tezin hız kısmının sağlam olduğuna dair şimdiye kadar en somut kanıttır. Cerebras, bu performans testiyle birlikte ayrıntılı fiyat karşılaştırmalarını yayınlamadı.

Önde gelen bir Çinli Yapay Zeka laboratuvarının en öne çıkan açık ağırlıklı modellerinden birini sunarak, Cerebras donanımının geliştiricilerin gerçekten kullanmak istediği modelleri işleyebileceğini gösteriyor.