Запущено відкриту модель DeepSeek V4 з 1,6 трлн параметрів та ліцензією MIT

ME News: 24 квітня (UTC+8), за даними Beating, відкриті попередні версії серії DeepSeek V4 з ліцензією MIT вже доступні на Hugging Face та ModelScope. Серія включає дві MoE-моделі: V4-Pro з загальною кількістю параметрів 1,6 трлн і 49 млрд (49B) активованих на токен; V4-Flash з загальною кількістю параметрів 284 млрд (284B) і 13 млрд (13B) активованих на токен. Обидві моделі підтримують контекст до 1 млн токенів. Архітектурні покращення: гібридний механізм уваги (компресована розріджена увага CSA + високо стиснена увага HCA) значно зменшує витрати на довгий контекст — при контексті 1 млн токенів FLOPs на токен для V4-Pro становлять лише 27% від V3.2, а KV-кеш (використання пам’яті GPU для зберігання історії під час висновку) — лише 10% від V3.2; маніфольдно обмежений надзв’язок mHC замінює традиційні залишкові з’єднання, підвищуючи стабільність передачі сигналу між шарами; навчання використовує оптимізатор Muon для прискорення збіжності. Дані для попереднього навчання перевищують 32 трлн токенів. Пост-навчання проходить у два етапи: спочатку кожен експерт у галузях навчається за допомогою SFT та GRPO-посиленого навчання, а потім об’єднується в єдину модель за допомогою онлайн-дистиляції. V4-Pro-Max (режим найвищої потужності висновку) позиціонує себе як найпотужнішу відкриту модель на даний момент, досягаючи лідерських показників у кодуванні, а також значно скорочуючи розрив у висновку та завданнях агента порівняно з закритими передовими моделями. V4-Flash-Max показує результати, близькі до Pro, якщо надати достатньо обчислювальних ресурсів, але обмежений у завданнях, що вимагають чистих знань та складних агентних завдань через менший розмір параметрів. Ваги зберігаються у змішаній точності FP4+FP8. (Джерело: BlockBeats)