Mensaje de AIMPACT, 16 de mayo (UTC+8): según el monitoreo de Beating, Nous Research ha abierto el mecanismo de preentrenamiento de largo contexto Lighthouse Attention. Al procesar textos de 512K de longitud en una sola tarjeta B200, este enfoque es aproximadamente 17 veces más rápido que los mecanismos tradicionales y logra una aceleración end-to-end de 1.4 a 1.7 veces en longitudes de 98K. Los mecanismos de atención tradicionales requieren calcular las relaciones entre todos los pares de palabras, lo que hace que el consumo de potencia de cálculo aumente exponencialmente con textos más largos. Lighthouse Attention adopta un enfoque de filtrado grueso seguido de cálculo preciso: primero examina rápidamente resúmenes comprimidos del texto en distintos niveles, asigna puntuaciones para seleccionar fragmentos clave y los combina en un texto corto, que luego se procesa directamente con el operador eficiente FlashAttention. Al separar completamente la lógica de filtrado del núcleo, los desarrolladores evitan la necesidad de escribir código de bajo nivel manualmente y no requieren agregar objetivos de entrenamiento adicionales. Las soluciones de aceleración anteriores basadas en ideas similares solían tener efectos secundarios: los modelos, al acostumbrarse a la lectura saltada, perdían fácilmente su capacidad original de lectura detallada palabra por palabra. Para evitar esta trampa, el equipo de investigación hizo que el modelo ejecutara la mayor parte del entrenamiento en modo acelerado y solo volviera brevemente al cálculo de atención completa al final del entrenamiento para adaptarse. En pruebas reales con un modelo de 530 millones de parámetros y 50 mil millones de tokens de datos de entrenamiento, el modelo resultante no solo redujo significativamente el tiempo de entrenamiento, sino que también igualó e incluso superó en rendimiento general a la versión base entrenada completamente con el método tradicional. (Fuente: BlockBeats)
Nous Research publica Lighthouse Attention, logrando un aumento de velocidad de 17x en B200
KuCoinFlashCompartir






La fuente de noticias on-chain MetaEra informó el 16 de mayo (UTC+8) que Nous Research ha abierto el código de su mecanismo Lighthouse Attention para el preentrenamiento con contexto largo. El método logra un cálculo 17 veces más rápido en una sola GPU B200 para texto de 512K de longitud y una velocidad de entrenamiento de 1,4 a 1,7 veces mayor en texto de 98K de longitud. Utiliza un proceso en dos pasos para evitar codificación de bajo nivel u objetivos de entrenamiento adicionales. En pruebas, un modelo de 530 millones de parámetros entrenado con 50 mil millones de tokens igualó o superó los métodos tradicionales mientras reducía el tiempo de entrenamiento. Las plataformas de noticias cripto destacan las mejoras en eficiencia para desarrolladores e investigadores.
Fuente:Mostrar original
Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información.
Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.