Natamo ng Cerebras ang 981 na token bawat segundo sa Kimi K2.6 model, 6.7x mas mabilis kaysa sa GPU Cloud

Ang Cerebras Systems ay kasalukuyang naglilingkod sa Moonshot AI’s Kimi K2.6, isang 1-trillion-parameter open-weight Mixture-of-Experts model, sa 981 output tokens bawat segundo. Ang bilang na ito, na pinatotohanan ng independiyenteng pagsubok mula sa Artificial Analysis, ay kumakatawan sa 6.7 beses ang bilis ng susunod na pinakamabilis na GPU cloud provider.

Para sa konteksto, ang median na inference provider ay nagsasagawa ng humigit-kumulang 23 beses na mas mabagal.

Ano ang tunay na anyo ng mga numero sa praktika

Sa isang kinatawang agentic coding workload, na may 10,000 input tokens at 500 output tokens, ang Cerebras-powered setup ay nagbigay ng kumpletong sagot sa 5.6 segundo.

Pamamahayag

Ang parehong gawain sa opisyal na endpoint ng Kimi ay tumagal ng 163.7 segundo. Ito ay isang pagpapabuti ng 29x sa end-to-end latency.

Ang sariling modelo na Kimi K2.6 ay may halaga na maunawaan. Ipinagawa ng Moonshot AI at ipinakilala noong Abril 20, 2026, ito ay may multimodal at agentic capabilities. Habang ang kabuuang bilang ng parameter ay umabot sa 1 trilyon, lamang ang 32 bilyon na parameter ang aktibo sa anumang panahon, dahil sa MoE architecture.

Bakit nagbabago ng math ang wafer-scale architecture

Ang pangunahang teknolohiya ng Cerebras ay ang Wafer-Scale Engine, isang chip na isang buong silicon wafer. Ang tradisyonal na chip ay kinokopya mula sa wafers sa maliliit na hiwa-hiwalay na dies. Ang Cerebras ay naglilipas sa bahaging pagkakahiwalay at gumagamit ng buong wafer.

Sinasabing higit sa 200 beses ang bandwidth ng Cerebras kaysa sa NVLink ng NVIDIA, ang teknolohiyang interconnect na nag-uugnay sa mga GPU sa mga cluster ng data center. Kapag nagpapatakbo ng inference sa malalaking modelo, ang bottleneck ay halos laging ang memory bandwidth, hindi ang raw compute. Kailangan basahin ang weights mula sa memory at ipadala sa mga processor para sa bawat token na nilikha.

Ang konteksto ng negosyo: isang bagong naging publiko na kumpanya na may kailangang patunayan

Nakumpleto ng Cerebras ang kanyang IPO noong Mayo 2026 sa halagang $95 bilyon, gawing pinakamalaking tech IPO ng taon.

Ang resultang 981 tokens per second ay ang pinakamalinaw na ebidensya hanggang sa ngayon na ang aspeto ng bilis ng thesis na iyon ay tumutugon. Hindi pa naglathala ang Cerebras ng detalyadong paghahambing ng presyo kasama ang benchmark na ito.

Sa pamamagitan ng pagpapagana ng isa sa mga pinakakilalang open-weight model mula sa isang pangunahing Chinese AI lab, ipinapakita ng Cerebras na ang kanyang hardware ay kayang handle ang mga model na gusto talaga ng mga developer gamitin.