Розкрито технічні характеристики DeepSeek V4: 1,6 трлн параметрів, 384 експертів, активуються 6

iconKuCoinFlash
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
22 квітня (UTC+8) аспірант Прінстонського університету Їфан Чжан поділився технічними індикаторами DeepSeek V4 у X. Модель має 1,6 трильйона параметрів, 384 експерти MoE з 6 активованими на крок, а також версію V4-Lite з 285 мільярдами параметрів. Навчання використовувало оптимізатор Muon, довжину контексту підготовки 32K та фінальну довжину контексту 1M. DeepSeek не коментував. На ринку залишається змішаний настрій, індекс страху та жадібності показує помірну невизначеність.

ME News: 22 квітня (UTC+8), за даними Beating, аспірант Принстонського університету Їфан Чжан оновив технічні деталі DeepSeek V4 на X. Він 19 квітня передбачив «V4 на наступному тижні» і навів три назви архітектурних компонентів, а сьогодні вночі оприлюднив повну таблицю параметрів, а також вперше розкрив існування легкого варіанту V4-Lite з 285 млрд параметрів. Загальна кількість параметрів V4 — 1,6 трлн. Механізм уваги — DSA2, що поєднує DSA (DeepSeek Sparse Attention), використовувану раніше у V3.2, і NSA (Native Sparse Attention), запропоновану у статті на початку цього року; head-dim — 512, поєднано з Sparse MQA та SWA (ковзним вікном уваги). У MoE-шарах — 384 експерти, активуються 6 на раз, використовується Fused MoE Mega-Kernel. Залишкові з’єднання продовжують використовувати Hyper-Connections. Серед нових деталей щодо навчання: оптимізатор Muon (матричний оптимізатор, що застосовує ортогоналізацію Newton-Schulz до оновлень імпульсу), довжина контексту під час попереднього навчання — 32K, на етапі підсиленого навчання використовується GRPO з корекцією KL-розходження. Кінцева довжина контексту розширена до 1M. Модальність — лише текст. Чжан не працює в DeepSeek, офіційний представник DeepSeek не коментував цю інформацію. (Джерело: BlockBeats)

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.