Запущена открытая модель DeepSeek V4 с 1,6 трлн параметров и лицензией MIT

Согласно новости ME, 24 апреля (UTC+8), по данным мониторинга Beating, предварительная версия открытой серии DeepSeek V4 с лицензией MIT уже доступна на Hugging Face и ModelScope. Серия включает две MoE-модели: V4-Pro с общим количеством параметров 1,6 трлн и активацией 49 млрд (49 миллиардов) на токен; V4-Flash с общим количеством параметров 284 млрд (284 миллиарда) и активацией 13 млрд (13 миллиардов). Обе модели поддерживают контекст до 1 млн токенов. Архитектурные улучшения: гибридный механизм внимания (сжатое разреженное внимание CSA + сильно сжатое внимание HCA) значительно снижает затраты на длинные контексты — при контексте в 1 млн токенов FLOPs на один токен для V4-Pro составляют всего 27% от V3.2, а KV-кэш (объем видеопамяти, используемый для хранения исторической информации при выводе) — всего 10% от V3.2; манифольдное ограничение сверхсвязи mHC заменяет традиционные остаточные соединения, повышая стабильность передачи сигналов между слоями; обучение теперь использует оптимизатор Muon для ускорения сходимости. Объем данных предварительного обучения превышает 32 трлн токенов. Пост-обучение проходит в два этапа: сначала эксперты в различных областях обучаются с помощью SFT и GRPO-обучения с подкреплением, затем с помощью онлайн-дистилляции объединяются в одну модель. V4-Pro-Max (режим максимальной мощности вывода) позиционируется как самая мощная открытая модель на данный момент, демонстрируя высочайшие результаты на кодировочных тестах, а показатели вывода и задач агентов значительно приблизились к закрытым передовым моделям. V4-Flash-Max после достаточного выделения вычислительных ресурсов демонстрирует вывод, близкий к Pro, но ограничен в задачах, требующих чистых знаний и сложных агентных операций, из-за меньшего числа параметров. Веса сохраняются в гибридной точности FP4+FP8. (Источник: BlockBeats)