MetaEra abre o código do FlashKDA, aumentando a velocidade de inferência linear do Kimi em 1,7 a 2,2 vezes

Notícia da ME, 22 de abril (UTC+8): De acordo com monitoramento da Beating, Moonshot AI lançou no GitHub o FlashKDA, uma ferramenta dedicada à aceleração da inferência de modelos para a série de GPUs NVIDIA Hopper (H100, H20, etc.), sob licença MIT. Ela foi desenvolvida para atender ao KDA, um novo mecanismo de atenção proposto pela Moonshot AI no artigo Kimi Linear no ano passado. Em modelos de grande porte ao processar textos longos, a atenção tradicional sofre um aumento quadrático no custo computacional com o comprimento, enquanto a atenção linear reduz esse custo para um crescimento linear — o KDA é uma versão aprimorada nessa linha. A arquitetura do modelo Kimi Linear alterna três camadas de KDA com uma camada de atenção tradicional. Uma versão anterior do KDA já existia, escrita na linguagem Triton e disponível no repositório open-source flash-linear-attention (abreviado como fla). O FlashKDA foi reescrito utilizando a biblioteca de GPU de baixo nível da NVIDIA, CUTLASS, otimizada especificamente para extrair o máximo desempenho das GPUs Hopper. Em testes oficiais no H20, o FlashKDA demonstrou ser 1,7 a 2,2 vezes mais rápido que a versão Triton em cálculos forward, com aceleração especialmente notável em cenários com comprimentos de entrada variáveis e lotes concatenados. No entanto, a comparação oficial foi feita apenas com a própria versão Triton, sem comparação com outras soluções de atenção linear. Nesta versão, apenas o cálculo forward foi aberto, ou seja, permite apenas "executar o modelo" (inferência), mas não "treinar o modelo" — o treinamento ainda requer a versão original Triton. Requisitos de uso: GPU Hopper ou posterior (arquitetura SM90 ou superior), CUDA 12.9 ou superior, PyTorch 2.4 ou superior. O FlashKDA foi integrado como novo backend ao repositório upstream fla (PR #852); usuários antigos precisam apenas alterar uma linha de configuração para migrar. (Fonte: BlockBeats)