Cerebras alcança 981 tokens por segundo no modelo Kimi K2.6, 6,7x mais rápido que a nuvem de GPU

iconCryptoBriefing
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumo

expand icon
A Cerebras Systems agora está entregando 981 tokens por segundo para o modelo Kimi K2.6 da Moonshot AI, verificado pela Artificial Analysis. Este modelo MoE de 1 trilhão de parâmetros e pesos abertos opera 6,7 vezes mais rápido que o melhor cloud de GPU. Dados on-chain mostram uma melhora de 29x na latência em tarefas de codificação, com a Cerebras concluindo uma resposta em 5,6 segundos, contra 163,7 segundos no endpoint oficial do Kimi. A análise on-chain confirma que a diferença de desempenho permanece consistente em diversas cargas de trabalho.

A Cerebras Systems agora está atendendo ao Kimi K2.6 da Moonshot AI, um modelo aberto de Mixture-of-Experts com um trilhão de parâmetros, a 981 tokens de saída por segundo. Esse número, verificado por testes independentes da Artificial Analysis, representa 6,7 vezes a velocidade do próximo melhor provedor de nuvem GPU.

Para contexto, o provedor mediano de inferência opera aproximadamente 23 vezes mais lentamente.

Como os números realmente aparecem na prática

Em uma carga de trabalho representativa de codificação agente, com 10.000 tokens de entrada e 500 tokens de saída, a configuração impulsionada pelo Cerebras entregou uma resposta completa em 5,6 segundos.

Anúncio

A mesma tarefa no endpoint oficial do Kimi levou 163,7 segundos. Isso representa uma melhoria de 29x na latência de ponta a ponta.

O próprio modelo Kimi K2.6 merece ser compreendido. Desenvolvido pela Moonshot AI e lançado em 20 de abril de 2026, ele apresenta capacidades multimodais e agênticas. Embora o número total de parâmetros atinja 1 trilhão, apenas 32 bilhões de parâmetros são ativados em qualquer momento, graças à arquitetura MoE.

Por que a arquitetura em escala de wafer muda a conta

A tecnologia principal da Cerebras é o Wafer-Scale Engine, um chip que é uma única wafer de silício. Chips tradicionais são cortados de wafers em pequenos dies individuais. A Cerebras pula a etapa de corte e usa a wafer inteira.

A Cerebras afirma ter mais de 200 vezes a largura de banda do NVLink da NVIDIA, a tecnologia de interconexão que liga GPUs em clusters de data centers. Ao executar inferência em modelos grandes, o gargalo é quase sempre a largura de banda de memória, e não o poder de processamento bruto. Os pesos precisam ser lidos da memória e enviados aos processadores para cada token gerado.

O contexto empresarial: uma empresa recém-publica com algo a provar

A Cerebras concluiu seu IPO em maio de 2026 com uma avaliação de US$ 95 bilhões, tornando-se o maior IPO de tecnologia do ano.

O resultado de 981 tokens por segundo é a evidência mais concreta até agora de que a metade da tese relacionada à velocidade se mantém. A Cerebras não publicou comparações detalhadas de preços junto a este benchmark.

Ao oferecer um dos modelos de peso aberto mais proeminentes de um dos principais laboratórios chineses de IA, a Cerebras está demonstrando que seu hardware consegue lidar com os modelos que os desenvolvedores realmente desejam usar.

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.