Серія DeepSeek V4 випущена з 1,6 трильйона параметрів та ліцензією MIT

iconChainthink
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
Новини з ланцюга з’явилися 24 квітня, коли DeepSeek випустила серію V4 за ліцензією MIT. Моделі, які тепер доступні на Hugging Face та ModelScope, включають V4-Pro (1,6 трильйона параметрів) та V4-Flash (284 мільярди параметрів), обидві підтримують контекст у 1 мільйон токенів. Серія V4 вводить три архітектурні покращення, включаючи гібридний механізм уваги, який зменшує витрати на довгий контекст. V4-Pro використовує 27% FLOPs та 10% пам’яті KV-кешу V3.2. Моделі навчалися на понад 32 трильйонах токенів за допомогою SFT, GRPO та онлайн-дистиляції. Нові токени можуть отримати переваги від цієї покращеної ефективності.

ChainThink повідомляє, 24 квітня, згідно з офіційною інформацією, DeepSeek випустив попередню версію серії V4 з відкритим кодом за ліцензією MIT; ваги моделі вже доступні на Hugging Face і ModelScope.


Цей серія включає дві MoE моделі, з яких V4-Pro має загальну кількість параметрів 1,6 трильйона, активуючи 49 мільярдів параметрів на токен;


V4-Flash має загальну кількість параметрів 284 млрд, активує 13 млрд параметрів на токен; обидві моделі підтримують контекст до 1 млн токенів.


Ця архітектура серії має три покращення: гібридний механізм уваги (стиснена розріджена увага CSA + інтенсивно стиснена увага HCA) значно зменшує витрати на довгий контекст; у сценарії з контекстом 1M, V4-Pro має лише 27% FLOPs на токен у порівнянні з V3.2, а використання пам’яті для кешу KV становить лише 10% від V3.2;


Маніфольдні обмеження надзв’язків mHC замінюють традиційні залишкові з’єднання, підвищуючи стабільність передачі сигналів між шарами; навчання перейшло на оптимізатор Muon для прискорення збіжності. Дані для попереднього навчання цієї моделі перевищують 32T токенів.


Післятренування поділено на два етапи: спочатку кожна експертна модель у галузі навчається за допомогою SFT та GRPO-підсиленого навчання, а потім об’єднується в єдину кінцеву модель за допомогою онлайн-дистиляції.


V4-Pro-Max стверджує, що є найпотужнішою відкритою моделлю на даний момент, має еталонні показники кодування на найвищому рівні, а різниця в висновках та завданнях агента з закритими передовими моделями значно скоротилася;


V4-Flash-Max після отримання достатнього бюджету на міркування досягає продуктивності, близької до Pro, але обмежений розміром параметрів у завданнях, що вимагають чистих знань та складних агентних операцій. Ваги моделі зберігаються з мішаною точністю FP4+FP8.

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.