Nous Research publica Lighthouse Attention, logrando un aumento de velocidad de 17x en B200

Mensaje de AIMPACT, 16 de mayo (UTC+8): según el monitoreo de Beating, Nous Research ha abierto el mecanismo de preentrenamiento de largo contexto Lighthouse Attention. Al procesar textos de 512K de longitud en una sola tarjeta B200, este enfoque es aproximadamente 17 veces más rápido que los mecanismos tradicionales y logra una aceleración end-to-end de 1.4 a 1.7 veces en longitudes de 98K. Los mecanismos de atención tradicionales requieren calcular las relaciones entre todos los pares de palabras, lo que hace que el consumo de potencia de cálculo aumente exponencialmente con textos más largos. Lighthouse Attention adopta un enfoque de filtrado grueso seguido de cálculo preciso: primero examina rápidamente resúmenes comprimidos del texto en distintos niveles, asigna puntuaciones para seleccionar fragmentos clave y los combina en un texto corto, que luego se procesa directamente con el operador eficiente FlashAttention. Al separar completamente la lógica de filtrado del núcleo, los desarrolladores evitan la necesidad de escribir código de bajo nivel manualmente y no requieren agregar objetivos de entrenamiento adicionales. Las soluciones de aceleración anteriores basadas en ideas similares solían tener efectos secundarios: los modelos, al acostumbrarse a la lectura saltada, perdían fácilmente su capacidad original de lectura detallada palabra por palabra. Para evitar esta trampa, el equipo de investigación hizo que el modelo ejecutara la mayor parte del entrenamiento en modo acelerado y solo volviera brevemente al cálculo de atención completa al final del entrenamiento para adaptarse. En pruebas reales con un modelo de 530 millones de parámetros y 50 mil millones de tokens de datos de entrenamiento, el modelo resultante no solo redujo significativamente el tiempo de entrenamiento, sino que también igualó e incluso superó en rendimiento general a la versión base entrenada completamente con el método tradicional. (Fuente: BlockBeats)