ChainThink сообщение, 24 апреля, согласно официальной информации, открытая предварительная версия серии DeepSeek V4 выпущена по лицензии MIT, веса модели уже доступны на Hugging Face и ModelScope.
В серию входят две MoE-модели, из которых V4-Pro имеет общее количество параметров 1,6 триллиона и активирует 49 миллиардов параметров на токен;
V4-Flash имеет общее количество параметров 284 млрд, при активации каждого токена задействуется 13 млрд параметров. Обе версии поддерживают контекст до 1 млн токенов.
Эта архитектура серии включает три улучшения: гибридный механизм внимания (сжатое разреженное внимание CSA + сильно сжатое внимание HCA) значительно снижает затраты на длинные контексты; в сценарии с контекстом 1M FLOPs на один токен для V4-Pro составляют всего 27% от V3.2, а占用 памяти KV-кэша — всего 10% от V3.2;
Манифольдные ограничения сверхсвязи mHC заменяют традиционные остаточные соединения, повышая стабильность передачи сигналов между слоями; обучение переключено на оптимизатор Muon для ускорения сходимости. Данные для предварительного обучения модели превышают 32 трлн токенов.
Пост-обучение проходит в два этапа: сначала экспертизные модели для каждой области обучаются с помощью SFT и GRPO-обучения с подкреплением, затем объединяются в финальную модель с помощью онлайн-дистилляции.
V4-Pro-Max утверждает, что является текущей самой мощной открытой моделью, показывает уровень кодирования на высшем уровне, а разрыв в выполнении вывода и задач агентов по сравнению с закрытыми передовыми моделями значительно сократился;
V4-Flash-Max после получения достаточного бюджета на размышления демонстрирует производительность, близкую к Pro, но ограничена размером параметров в задачах, требующих чистых знаний и сложных агентных операций. Веса модели хранятся в гибридной точности FP4+FP8.
