MetaEra открывает исходный код FlashKDA, увеличивая скорость линейного вывода Kimi в 1,7–2,2 раза

Согласно новости ME, 22 апреля (UTC+8), по данным мониторинга Beating, Moonshot AI открыла исходный код FlashKDA — набор инструментов для ускорения вывода моделей на графических процессорах NVIDIA Hopper серии (H100, H20 и др.), выпущенный по лицензии MIT. Он предназначен для работы с KDA — новым механизмом внимания, предложенным Moonshot AI в статье Kimi Linear в прошлом году. При обработке длинных текстов вычислительная сложность традиционного механизма внимания растет квадратично с длиной входа, тогда как линейное внимание снижает эту сложность до линейной зависимости; KDA представляет собой улучшенную версию этого подхода. Архитектура модели Kimi Linear чередует три слоя KDA с одним слоем традиционного внимания. Ранее существовала версия KDA, написанная на языке Triton и размещенная в открытом репозитории flash-linear-attention (сокращенно fla). FlashKDA был полностью переписан с использованием низкоуровневой библиотеки NVIDIA CUTLASS для максимальной оптимизации производительности на GPU Hopper. По результатам тестов на H20, прямой проход с FlashKDA работает в 1,7–2,2 раза быстрее, чем версия на Triton, особенно заметно ускорение при обработке входных последовательностей разной длины и пакетной обработке. Однако официальная сравнительная оценка проведена только с собственной версией Triton, без сравнения с другими линейными механизмами внимания. В данный момент открыты только компоненты прямого прохода — то есть можно только «запускать модель» (вывод), но не «обучать»; обучение по-прежнему требует использования исходной версии Triton. Требования: необходим GPU архитектуры Hopper или новее (начиная с SM90), CUDA 12.9 и выше, PyTorch 2.4 и выше. FlashKDA также был интегрирован как новый бэкенд в основной репозиторий fla (PR #852); существующим пользователям достаточно изменить одну строку конфигурации. (Источник: BlockBeats)