Notícia da ME, 22 de abril (UTC+8): De acordo com monitoramento da Beating, Moonshot AI lançou no GitHub o FlashKDA, uma ferramenta dedicada à aceleração da inferência de modelos para a série de GPUs NVIDIA Hopper (H100, H20, etc.), sob licença MIT. Ela foi desenvolvida para atender ao KDA, um novo mecanismo de atenção proposto pela Moonshot AI no artigo Kimi Linear no ano passado. Em modelos de grande porte ao processar textos longos, a atenção tradicional sofre um aumento quadrático no custo computacional com o comprimento, enquanto a atenção linear reduz esse custo para um crescimento linear — o KDA é uma versão aprimorada nessa linha. A arquitetura do modelo Kimi Linear alterna três camadas de KDA com uma camada de atenção tradicional. Uma versão anterior do KDA já existia, escrita na linguagem Triton e disponível no repositório open-source flash-linear-attention (abreviado como fla). O FlashKDA foi reescrito utilizando a biblioteca de GPU de baixo nível da NVIDIA, CUTLASS, otimizada especificamente para extrair o máximo desempenho das GPUs Hopper. Em testes oficiais no H20, o FlashKDA demonstrou ser 1,7 a 2,2 vezes mais rápido que a versão Triton em cálculos forward, com aceleração especialmente notável em cenários com comprimentos de entrada variáveis e lotes concatenados. No entanto, a comparação oficial foi feita apenas com a própria versão Triton, sem comparação com outras soluções de atenção linear. Nesta versão, apenas o cálculo forward foi aberto, ou seja, permite apenas "executar o modelo" (inferência), mas não "treinar o modelo" — o treinamento ainda requer a versão original Triton. Requisitos de uso: GPU Hopper ou posterior (arquitetura SM90 ou superior), CUDA 12.9 ou superior, PyTorch 2.4 ou superior. O FlashKDA foi integrado como novo backend ao repositório upstream fla (PR #852); usuários antigos precisam apenas alterar uma linha de configuração para migrar. (Fonte: BlockBeats)
MetaEra abre o código do FlashKDA, aumentando a velocidade de inferência linear do Kimi em 1,7 a 2,2 vezes
KuCoinFlashCompartilhar






A MetaEra anunciou em 22 de abril (UTC+8) a abertura do código do FlashKDA, uma ferramenta otimizada para GPUs NVIDIA Hopper sob a licença MIT. Projetada para aumentar a velocidade de inferência do Kimi Linear em 1,7 a 2,2 vezes, o FlashKDA utiliza CUTLASS para melhorar o desempenho em GPUs H20. Ela suporta comprimentos de entrada variáveis e processamento em lote, mas atualmente permite apenas inferência. Os usuários precisam de GPUs Hopper, CUDA 12.9+ e PyTorch 2.4+. A ferramenta agora faz parte do repositório flash-linear-attention, contribuindo para notícias on-chain e crescimento do ecossistema.
Fonte:Mostrar original
Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações.
Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.