Выпущена серия DeepSeek V4 с 1,6 триллиона параметров и лицензией MIT

iconChainthink
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
Ончейн-новости появились 24 апреля, когда DeepSeek выпустила серию V4 под лицензией MIT. Модели, теперь доступные на Hugging Face и ModelScope, включают V4-Pro (1,6 триллиона параметров) и V4-Flash (284 миллиарда параметров), обе поддерживают контекст до 1 миллиона токенов. Серия V4 вводит три архитектурных улучшения, включая гибридный механизм внимания, снижающий стоимость работы с длинными контекстами. V4-Pro использует 27% от FLOPs V3.2 и 10% от памяти его KV-кэша. Модели обучены на более чем 32 трлн токенов с использованием SFT, GRPO и онлайн-дистилляции. Новые листинги токенов могут выгодно использовать эту повышенную эффективность.

ChainThink сообщение, 24 апреля, согласно официальной информации, открытая предварительная версия серии DeepSeek V4 выпущена по лицензии MIT, веса модели уже доступны на Hugging Face и ModelScope.


В серию входят две MoE-модели, из которых V4-Pro имеет общее количество параметров 1,6 триллиона и активирует 49 миллиардов параметров на токен;


V4-Flash имеет общее количество параметров 284 млрд, при активации каждого токена задействуется 13 млрд параметров. Обе версии поддерживают контекст до 1 млн токенов.


Эта архитектура серии включает три улучшения: гибридный механизм внимания (сжатое разреженное внимание CSA + сильно сжатое внимание HCA) значительно снижает затраты на длинные контексты; в сценарии с контекстом 1M FLOPs на один токен для V4-Pro составляют всего 27% от V3.2, а占用 памяти KV-кэша — всего 10% от V3.2;


Манифольдные ограничения сверхсвязи mHC заменяют традиционные остаточные соединения, повышая стабильность передачи сигналов между слоями; обучение переключено на оптимизатор Muon для ускорения сходимости. Данные для предварительного обучения модели превышают 32 трлн токенов.


Пост-обучение проходит в два этапа: сначала экспертизные модели для каждой области обучаются с помощью SFT и GRPO-обучения с подкреплением, затем объединяются в финальную модель с помощью онлайн-дистилляции.


V4-Pro-Max утверждает, что является текущей самой мощной открытой моделью, показывает уровень кодирования на высшем уровне, а разрыв в выполнении вывода и задач агентов по сравнению с закрытыми передовыми моделями значительно сократился;


V4-Flash-Max после получения достаточного бюджета на размышления демонстрирует производительность, близкую к Pro, но ограничена размером параметров в задачах, требующих чистых знаний и сложных агентных операций. Веса модели хранятся в гибридной точности FP4+FP8.

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.