Серія DeepSeek V4 випущена з 1,6 трильйона параметрів та ліцензією MIT

ChainThink повідомляє, 24 квітня, згідно з офіційною інформацією, DeepSeek випустив попередню версію серії V4 з відкритим кодом за ліцензією MIT; ваги моделі вже доступні на Hugging Face і ModelScope.

Цей серія включає дві MoE моделі, з яких V4-Pro має загальну кількість параметрів 1,6 трильйона, активуючи 49 мільярдів параметрів на токен;

V4-Flash має загальну кількість параметрів 284 млрд, активує 13 млрд параметрів на токен; обидві моделі підтримують контекст до 1 млн токенів.

Ця архітектура серії має три покращення: гібридний механізм уваги (стиснена розріджена увага CSA + інтенсивно стиснена увага HCA) значно зменшує витрати на довгий контекст; у сценарії з контекстом 1M, V4-Pro має лише 27% FLOPs на токен у порівнянні з V3.2, а використання пам’яті для кешу KV становить лише 10% від V3.2;

Маніфольдні обмеження надзв’язків mHC замінюють традиційні залишкові з’єднання, підвищуючи стабільність передачі сигналів між шарами; навчання перейшло на оптимізатор Muon для прискорення збіжності. Дані для попереднього навчання цієї моделі перевищують 32T токенів.

Післятренування поділено на два етапи: спочатку кожна експертна модель у галузі навчається за допомогою SFT та GRPO-підсиленого навчання, а потім об’єднується в єдину кінцеву модель за допомогою онлайн-дистиляції.

V4-Pro-Max стверджує, що є найпотужнішою відкритою моделлю на даний момент, має еталонні показники кодування на найвищому рівні, а різниця в висновках та завданнях агента з закритими передовими моделями значно скоротилася;

V4-Flash-Max після отримання достатнього бюджету на міркування досягає продуктивності, близької до Pro, але обмежений розміром параметрів у завданнях, що вимагають чистих знань та складних агентних операцій. Ваги моделі зберігаються з мішаною точністю FP4+FP8.