Cerebras testa o modelo Kimi K2.6 com aumento de 29x na velocidade em tarefas de texto longo

KuCoinFlash

Data de lançamento: 20/05/2026, 11:12:40

Resumo

A Cerebras revelou em 20 de maio (UTC+8) que testou o modelo Kimi K2.6 com trilhão de parâmetros usando seus chips de escala de wafer. Ao montar os chips diretamente em um wafer completo de 12 polegadas, a empresa reduziu os atrasos de comunicação. Segundo a Artificial Analysis, o modelo gerou texto a 981 tokens/s, 6,7 vezes mais rápido que os serviços padrão de GPU. Em um teste de texto longo com 10.000 tokens de entrada e 500 tokens de saída, o tempo de resposta caiu de 163,7 segundos para 5,6 segundos, uma melhoria de 29x. Os dados on-chain continuam destacando ganhos de desempenho na infraestrutura de IA.

Notícia da ME, 20 de maio (UTC+8): De acordo com monitoramento da Beating, a empresa de chips em escala de wafer Cerebras anunciou o lançamento do modelo de grande linguagem Kimi K2.6 com trilhões de parâmetros em testes empresariais, eliminando completamente a latência de comunicação em nível de placa ao integrar diretamente chips em um wafer de silício de 12 polegadas. Avaliações independentes da Artificial Analysis mostraram que a velocidade de geração atingiu 981 tokens/s, 6,7 vezes mais rápida que os principais serviços em nuvem baseados em GPU. Em tarefas de texto longo com 10.000 tokens de entrada e 500 tokens de saída, o tempo total de resposta caiu de 163,7 segundos na interface oficial do Kimi para apenas 5,6 segundos, uma aceleração de 29 vezes. Como os pesos do modelo são distribuídos entre múltiplos waferes para transmissão em fluxo de valores de ativação, e a comunicação entre camadas ocorre inteiramente na rede de tecido interna ao wafer, a largura de banda física de comunicação supera em mais de 200 vezes a do NVLink na arquitetura NVIDIA NVL72. Com otimizações de computação distribuída, o Kimi K2.6 armazena pesos originais em 4-bit (4 bits) com baixa perda, utiliza números de ponto flutuante de 16-bit (16 bits) durante o cálculo para manter precisão e emprega núcleos de operadores personalizados e decodificação especulativa para alcançar execução em tempo real. (Fonte: BlockBeats)

Fonte:Mostrar original

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.