Согласно новости ME, 22 апреля (UTC+8), по данным мониторинга Beating, Moonshot AI открыла исходный код FlashKDA — набор инструментов для ускорения вывода моделей на графических процессорах NVIDIA Hopper серии (H100, H20 и др.), выпущенный по лицензии MIT. Он предназначен для работы с KDA — новым механизмом внимания, предложенным Moonshot AI в статье Kimi Linear в прошлом году. При обработке длинных текстов вычислительная сложность традиционного механизма внимания растет квадратично с длиной входа, тогда как линейное внимание снижает эту сложность до линейной зависимости; KDA представляет собой улучшенную версию этого подхода. Архитектура модели Kimi Linear чередует три слоя KDA с одним слоем традиционного внимания. Ранее существовала версия KDA, написанная на языке Triton и размещенная в открытом репозитории flash-linear-attention (сокращенно fla). FlashKDA был полностью переписан с использованием низкоуровневой библиотеки NVIDIA CUTLASS для максимальной оптимизации производительности на GPU Hopper. По результатам тестов на H20, прямой проход с FlashKDA работает в 1,7–2,2 раза быстрее, чем версия на Triton, особенно заметно ускорение при обработке входных последовательностей разной длины и пакетной обработке. Однако официальная сравнительная оценка проведена только с собственной версией Triton, без сравнения с другими линейными механизмами внимания. В данный момент открыты только компоненты прямого прохода — то есть можно только «запускать модель» (вывод), но не «обучать»; обучение по-прежнему требует использования исходной версии Triton. Требования: необходим GPU архитектуры Hopper или новее (начиная с SM90), CUDA 12.9 и выше, PyTorch 2.4 и выше. FlashKDA также был интегрирован как новый бэкенд в основной репозиторий fla (PR #852); существующим пользователям достаточно изменить одну строку конфигурации. (Источник: BlockBeats)
MetaEra открывает исходный код FlashKDA, увеличивая скорость линейного вывода Kimi в 1,7–2,2 раза
KuCoinFlashПоделиться






MetaEra объявила 22 апреля (UTC+8) об открытии исходного кода FlashKDA — инструмента, оптимизированного для NVIDIA Hopper GPU, под лицензией MIT. Разработанный для увеличения скорости инференса Kimi Linear в 1,7–2,2 раза, FlashKDA использует CUTLASS для повышения производительности на GPU H20. Он поддерживает переменную длину входных данных и пакетную обработку, но в настоящее время позволяет только инференс. Для использования инструмента требуются GPU Hopper, CUDA 12.9+ и PyTorch 2.4+. Инструмент теперь включен в репозиторий flash-linear-attention и способствует развитию экосистемы и новостей в блокчейне.
Источник:Показать оригинал
Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации.
Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.