Согласно новости ME, 22 апреля (UTC+8), по данным мониторинга Beating, аспирант Принстонского университета Ифан Чжан обновил технические детали DeepSeek V4 на X. 19 апреля он намекнул на «V4 на следующей неделе» и перечислил три компонента архитектуры, а сегодня вечером опубликовал полную таблицу параметров и впервые раскрыл существование легкой версии V4-Lite с 285 млрд параметров. Общее количество параметров V4 составляет 1,6 трлн. Механизм внимания — DSA2, объединяющий ранее использовавшуюся в V3.2 DSA (DeepSeek Sparse Attention) и недавно предложенную в статье в начале этого года NSA (Native Sparse Attention), с head-dim 512, совместно с Sparse MQA и SWA (скользящим окном внимания). В MoE-слоях всего 384 эксперта, активируется 6 за раз, используется Fused MoE Mega-Kernel. Остаточные соединения сохраняют Hyper-Connections. Впервые раскрытые детали обучения включают: оптимизатор Muon (матричный оптимизатор, применяющий ортогонализацию Newton-Schulz к обновлениям импульса), длина контекста при предварительном обучении — 32K, на этапе усиленного обучения используется GRPO с коррекцией KL-расхождения. Итоговая длина контекста расширена до 1M. Модальность — только текст. Чжан не работает в DeepSeek, официальный представитель DeepSeek не прокомментировал эту информацию. (Источник: BlockBeats)
Раскрыты технические характеристики DeepSeek V4: 1,6 трлн параметров, 384 эксперта, активирующих 6
KuCoinFlashПоделиться






22 апреля (UTC+8) аспирант Принстонского университета Ифан Чжан поделился техническими индикаторами DeepSeek V4 на X. Модель имеет 1,6 триллиона параметров, 384 эксперта MoE с 6 активированными на каждом шаге, а также версию V4-Lite с 285 миллиардами параметров. Обучение проводилось с использованием оптимизатора Muon, длиной контекста предварительного обучения 32K и финальной длиной контекста 1M. DeepSeek не комментировала. Настроения на рынке остаются неоднозначными: индекс страха и жадности показывает умеренную неопределенность.
Источник:Показать оригинал
Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации.
Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.