Cerebras alcança 981 tokens por segundo no modelo Kimi K2.6, 6,7x mais rápido que a nuvem de GPU

A Cerebras Systems agora está atendendo ao Kimi K2.6 da Moonshot AI, um modelo aberto de Mixture-of-Experts com um trilhão de parâmetros, a 981 tokens de saída por segundo. Esse número, verificado por testes independentes da Artificial Analysis, representa 6,7 vezes a velocidade do próximo melhor provedor de nuvem GPU.

Para contexto, o provedor mediano de inferência opera aproximadamente 23 vezes mais lentamente.

Como os números realmente aparecem na prática

Em uma carga de trabalho representativa de codificação agente, com 10.000 tokens de entrada e 500 tokens de saída, a configuração impulsionada pelo Cerebras entregou uma resposta completa em 5,6 segundos.

Anúncio

A mesma tarefa no endpoint oficial do Kimi levou 163,7 segundos. Isso representa uma melhoria de 29x na latência de ponta a ponta.

O próprio modelo Kimi K2.6 merece ser compreendido. Desenvolvido pela Moonshot AI e lançado em 20 de abril de 2026, ele apresenta capacidades multimodais e agênticas. Embora o número total de parâmetros atinja 1 trilhão, apenas 32 bilhões de parâmetros são ativados em qualquer momento, graças à arquitetura MoE.

Por que a arquitetura em escala de wafer muda a conta

A tecnologia principal da Cerebras é o Wafer-Scale Engine, um chip que é uma única wafer de silício. Chips tradicionais são cortados de wafers em pequenos dies individuais. A Cerebras pula a etapa de corte e usa a wafer inteira.

A Cerebras afirma ter mais de 200 vezes a largura de banda do NVLink da NVIDIA, a tecnologia de interconexão que liga GPUs em clusters de data centers. Ao executar inferência em modelos grandes, o gargalo é quase sempre a largura de banda de memória, e não o poder de processamento bruto. Os pesos precisam ser lidos da memória e enviados aos processadores para cada token gerado.

O contexto empresarial: uma empresa recém-publica com algo a provar

A Cerebras concluiu seu IPO em maio de 2026 com uma avaliação de US$ 95 bilhões, tornando-se o maior IPO de tecnologia do ano.

O resultado de 981 tokens por segundo é a evidência mais concreta até agora de que a metade da tese relacionada à velocidade se mantém. A Cerebras não publicou comparações detalhadas de preços junto a este benchmark.

Ao oferecer um dos modelos de peso aberto mais proeminentes de um dos principais laboratórios chineses de IA, a Cerebras está demonstrando que seu hardware consegue lidar com os modelos que os desenvolvedores realmente desejam usar.