Запущена открытая модель DeepSeek V4 с 1,6 трлн параметров и лицензией MIT

iconKuCoinFlash
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
Новости в блокчейне появились 24 апреля (UTC+8), когда DeepSeek запустила предварительную версию своих открытых моделей серии V4 под лицензией MIT. Модели V4-Pro и V4-Flash MoE имеют соответственно 1,6 триллиона и 284 миллиарда параметров при поддержке контекста в 1 миллион токенов. V4-Pro снижает количество операций с плавающей запятой при выводе на 73% и объем памяти KV-кэша на 90% по сравнению с V3.2. Веса моделей доступны на Hugging Face и ModelScope. Новые токены могут получить выгоду от повышенной эффективности и открытого доступа.

Согласно новости ME, 24 апреля (UTC+8), по данным мониторинга Beating, предварительная версия открытой серии DeepSeek V4 с лицензией MIT уже доступна на Hugging Face и ModelScope. Серия включает две MoE-модели: V4-Pro с общим количеством параметров 1,6 трлн и активацией 49 млрд (49 миллиардов) на токен; V4-Flash с общим количеством параметров 284 млрд (284 миллиарда) и активацией 13 млрд (13 миллиардов). Обе модели поддерживают контекст до 1 млн токенов. Архитектурные улучшения: гибридный механизм внимания (сжатое разреженное внимание CSA + сильно сжатое внимание HCA) значительно снижает затраты на длинные контексты — при контексте в 1 млн токенов FLOPs на один токен для V4-Pro составляют всего 27% от V3.2, а KV-кэш (объем видеопамяти, используемый для хранения исторической информации при выводе) — всего 10% от V3.2; манифольдное ограничение сверхсвязи mHC заменяет традиционные остаточные соединения, повышая стабильность передачи сигналов между слоями; обучение теперь использует оптимизатор Muon для ускорения сходимости. Объем данных предварительного обучения превышает 32 трлн токенов. Пост-обучение проходит в два этапа: сначала эксперты в различных областях обучаются с помощью SFT и GRPO-обучения с подкреплением, затем с помощью онлайн-дистилляции объединяются в одну модель. V4-Pro-Max (режим максимальной мощности вывода) позиционируется как самая мощная открытая модель на данный момент, демонстрируя высочайшие результаты на кодировочных тестах, а показатели вывода и задач агентов значительно приблизились к закрытым передовым моделям. V4-Flash-Max после достаточного выделения вычислительных ресурсов демонстрирует вывод, близкий к Pro, но ограничен в задачах, требующих чистых знаний и сложных агентных операций, из-за меньшего числа параметров. Веса сохраняются в гибридной точности FP4+FP8. (Источник: BlockBeats)

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.