MetaEra publica FlashKDA como código abierto, aumenta la velocidad de inferencia lineal de Kimi en 1.7-2.2x

Noticias de ME: el 22 de abril (UTC+8), según el monitoreo de Beating, Moonshot ha abierto en GitHub FlashKDA, una herramienta diseñada específicamente para acelerar la inferencia de modelos en las tarjetas gráficas NVIDIA Hopper (H100, H20, etc.), bajo la licencia MIT. Está orientada a KDA, un nuevo mecanismo de atención propuesto por Moonshot en el artículo Kimi Linear. En los modelos de gran tamaño que procesan textos largos, la atención tradicional experimenta un crecimiento cuadrático en la carga computacional con la longitud del texto, mientras que la atención lineal reduce este costo a un crecimiento lineal; KDA es una versión mejorada dentro de esta línea. La arquitectura del modelo Kimi Linear alterna tres capas de KDA con una capa de atención tradicional. Ya existía una versión de KDA escrita en el lenguaje Triton, disponible en la biblioteca abierta flash-linear-attention (abreviada como fla). FlashKDA fue reescrito utilizando la biblioteca de bajo nivel NVIDIA CUTLASS, optimizado específicamente para extraer el máximo rendimiento de las tarjetas Hopper. En pruebas realizadas en H20, FlashKDA demostró ser 1.7 a 2.2 veces más rápido que la versión Triton en la misma operación de inferencia, con mejoras especialmente notables en escenarios con longitudes de entrada variables y lotes concatenados. Sin embargo, la comparación oficial solo se realizó contra su propia versión Triton, sin incluir otros esquemas de atención lineal. En esta ocasión, solo se ha abierto la inferencia hacia adelante, lo que significa que solo se puede "ejecutar el modelo" (inferencia), pero no "entrenarlo"; el entrenamiento aún requiere la versión original Triton. Requisitos de uso: tarjeta gráfica Hopper o posterior (arquitectura SM90 o superior), CUDA 12.9 o superior, PyTorch 2.4 o superior. FlashKDA también se ha integrado como nuevo backend en el repositorio principal fla (PR #852); los usuarios antiguos solo necesitan cambiar una línea de configuración para migrar. (Fuente: BlockBeats)