ME News: 24 квітня (UTC+8), за даними Beating, відкриті попередні версії серії DeepSeek V4 з ліцензією MIT вже доступні на Hugging Face та ModelScope. Серія включає дві MoE-моделі: V4-Pro з загальною кількістю параметрів 1,6 трлн і 49 млрд (49B) активованих на токен; V4-Flash з загальною кількістю параметрів 284 млрд (284B) і 13 млрд (13B) активованих на токен. Обидві моделі підтримують контекст до 1 млн токенів. Архітектурні покращення: гібридний механізм уваги (компресована розріджена увага CSA + високо стиснена увага HCA) значно зменшує витрати на довгий контекст — при контексті 1 млн токенів FLOPs на токен для V4-Pro становлять лише 27% від V3.2, а KV-кеш (використання пам’яті GPU для зберігання історії під час висновку) — лише 10% від V3.2; маніфольдно обмежений надзв’язок mHC замінює традиційні залишкові з’єднання, підвищуючи стабільність передачі сигналу між шарами; навчання використовує оптимізатор Muon для прискорення збіжності. Дані для попереднього навчання перевищують 32 трлн токенів. Пост-навчання проходить у два етапи: спочатку кожен експерт у галузях навчається за допомогою SFT та GRPO-посиленого навчання, а потім об’єднується в єдину модель за допомогою онлайн-дистиляції. V4-Pro-Max (режим найвищої потужності висновку) позиціонує себе як найпотужнішу відкриту модель на даний момент, досягаючи лідерських показників у кодуванні, а також значно скорочуючи розрив у висновку та завданнях агента порівняно з закритими передовими моделями. V4-Flash-Max показує результати, близькі до Pro, якщо надати достатньо обчислювальних ресурсів, але обмежений у завданнях, що вимагають чистих знань та складних агентних завдань через менший розмір параметрів. Ваги зберігаються у змішаній точності FP4+FP8. (Джерело: BlockBeats)
Запущено відкриту модель DeepSeek V4 з 1,6 трлн параметрів та ліцензією MIT
KuCoinFlashПоділитися






Новина з ланцюга з’явилася 24 квітня (UTC+8), коли DeepSeek запустила попередній варіант моделей відкритого коду серії V4 за ліцензією MIT. Моделі V4-Pro та V4-Flash MoE мають відповідно 1,6 трильйона та 284 мільярди параметрів і підтримують контекст до 1 мільйона токенів. V4-Pro зменшує інференс FLOPs на 73% та пам’ять KV-кешу на 90% порівняно з V3.2. Ваги доступні на Hugging Face та ModelScope. Нові токени можуть вигодувати від покращеної ефективності та відкритого доступу.
Джерело:Показати оригінал
Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації.
Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.