Nous Research открывает исходный код Lighthouse Attention, достигая ускорения в 17 раз на B200

iconKuCoinFlash
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
На блокчейн-новостном портале MetaEra 16 мая (UTC+8) сообщили, что Nous Research открыла исходный код своего механизма Lighthouse Attention для предварительного обучения с длинным контекстом. Метод обеспечивает в 17 раз более быстрые вычисления на одном GPU B200 для текста длиной 512K и ускорение обучения на 1,4–1,7 раз при длине 98K. Он использует двухэтапный процесс, исключающий необходимость низкоуровневого программирования или дополнительных целевых функций обучения. В тестах модель с 530 млн параметров, обученная на 50 млрд токенов, показала результаты, соответствующие или превосходящие традиционные методы, при сокращении времени обучения. Крипто-новостные платформы подчеркивают повышение эффективности для разработчиков и исследователей.

Сообщение AIMPACT, 16 мая (UTC+8): согласно мониторингу Beating, Nous Research открыла исходный код механизма предварительной тренировки с длинным контекстом Lighthouse Attention. При обработке текста длиной 512K на одной карте B200 этот метод ускоряет вычисления примерно в 17 раз по сравнению с традиционными подходами и обеспечивает ускорение полного цикла обучения на 1,4–1,7 раза при длине текста 98K. Традиционные механизмы внимания требуют вычисления попарных отношений между всеми словами, из-за чего потребление вычислительных ресурсов растет квадратично при увеличении длины текста. Lighthouse Attention использует подход «сначала грубый отбор, затем точные вычисления»: он быстро просматривает сжатые сводки текста на разных уровнях, оценивает и отбирает ключевые фрагменты, объединяя их в короткий текст, который затем передается уже существующему эффективному оператору FlashAttention. Поскольку логика отбора полностью вынесена за пределы ядра, разработчики избавляются от необходимости писать низкоуровневый код вручную и не должны добавлять дополнительные цели обучения. Ранее подобные ускоряющие методы часто имели побочные эффекты: модели, привыкшие к пропускному чтению, теряли способность к точному посимвольному анализу. Чтобы избежать этой ловушки, команда разработчиков позволила модели пройти большую часть обучения в ускоренном режиме, а в конце тренировки лишь на короткое время переключилась обратно на традиционный полный механизм внимания для адаптации. В эксперименте с моделью объемом 530 млн параметров и обучающими данными из 50 млрд токенов такая модель не только значительно сократила время обучения, но и достигла результатов, полностью соответствующих или даже превосходящих базовую версию, обученную исключительно традиционным способом. (Источник: BlockBeats)

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.