MetaEra publica FlashKDA como código abierto, aumenta la velocidad de inferencia lineal de Kimi en 1.7-2.2x

iconKuCoinFlash
Compartir
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumen

expand icon
MetaEra anunció el 22 de abril (UTC+8) la apertura del código de FlashKDA, una herramienta optimizada para GPUs NVIDIA Hopper bajo la licencia MIT. Diseñada para aumentar la velocidad de inferencia de Kimi Linear en un 1.7-2.2x, FlashKDA aprovecha CUTLASS para mejorar el rendimiento en GPUs H20. Admite longitudes de entrada variables y procesamiento por lotes, pero actualmente solo habilita la inferencia. Los usuarios necesitan GPUs Hopper, CUDA 12.9+ y PyTorch 2.4+. La herramienta ahora forma parte del repositorio flash-linear-attention, contribuyendo a las noticias en cadena y al crecimiento del ecosistema.

Noticias de ME: el 22 de abril (UTC+8), según el monitoreo de Beating, Moonshot ha abierto en GitHub FlashKDA, una herramienta diseñada específicamente para acelerar la inferencia de modelos en las tarjetas gráficas NVIDIA Hopper (H100, H20, etc.), bajo la licencia MIT. Está orientada a KDA, un nuevo mecanismo de atención propuesto por Moonshot en el artículo Kimi Linear. En los modelos de gran tamaño que procesan textos largos, la atención tradicional experimenta un crecimiento cuadrático en la carga computacional con la longitud del texto, mientras que la atención lineal reduce este costo a un crecimiento lineal; KDA es una versión mejorada dentro de esta línea. La arquitectura del modelo Kimi Linear alterna tres capas de KDA con una capa de atención tradicional. Ya existía una versión de KDA escrita en el lenguaje Triton, disponible en la biblioteca abierta flash-linear-attention (abreviada como fla). FlashKDA fue reescrito utilizando la biblioteca de bajo nivel NVIDIA CUTLASS, optimizado específicamente para extraer el máximo rendimiento de las tarjetas Hopper. En pruebas realizadas en H20, FlashKDA demostró ser 1.7 a 2.2 veces más rápido que la versión Triton en la misma operación de inferencia, con mejoras especialmente notables en escenarios con longitudes de entrada variables y lotes concatenados. Sin embargo, la comparación oficial solo se realizó contra su propia versión Triton, sin incluir otros esquemas de atención lineal. En esta ocasión, solo se ha abierto la inferencia hacia adelante, lo que significa que solo se puede "ejecutar el modelo" (inferencia), pero no "entrenarlo"; el entrenamiento aún requiere la versión original Triton. Requisitos de uso: tarjeta gráfica Hopper o posterior (arquitectura SM90 o superior), CUDA 12.9 o superior, PyTorch 2.4 o superior. FlashKDA también se ha integrado como nuevo backend en el repositorio principal fla (PR #852); los usuarios antiguos solo necesitan cambiar una línea de configuración para migrar. (Fuente: BlockBeats)

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.