MEニュース:4月22日(UTC+8)、動察Beatingの監視によると、プリンストン大学の博士課程学生であるYifan ZhangがXでDeepSeek V4の技術的詳細を更新しました。彼は4月19日に「V4は来週」と予告し、3つのアーキテクチャコンポーネントの名前をリストアップしましたが、本日その完全なパラメータテーブルを公開し、同時に285Bパラメータの軽量版V4-Liteが存在することを初めて明かしました。V4の総パラメータ数は1.6Tです。アテンション機構はDSA2で、DeepSeekがV3.2で使用していたDSA(DeepSeek Sparse Attention)と今年初頭の論文で提案されたNSA(Native Sparse Attention)という2つのスパースアテンション方式を組み合わせており、head-dimは512、Sparse MQAとSWA(スライディングウィンドウアテンション)と組み合わせています。MoE層は合計384のエキスパートを備え、毎回6つが活性化され、Fused MoE Mega-Kernelを使用しています。残差接続にはHyper-Connectionsが継承されています。トレーニング側で初めて公開された詳細には、最適化アルゴリズムとしてMuon(ニュートン・シュルツ直交化をモーメンタム更新に適用する行列レベルの最適化器)を使用し、プリトレーニングのコンテキスト長は32K、強化学習段階ではGRPOを用い、KLダイバージェンス補正を追加しています。最終的なコンテキスト長は1Mまで拡張されました。モダリティはテキストのみです。ZhangはDeepSeekに所属しておらず、DeepSeek公式は上記の情報に対して一切応答していません。(出典:BlockBeats)
DeepSeek V4の技術仕様が公開:1.6兆パラメータ、384人のエキスパートが6つを活性化
KuCoinFlash共有






4月22日(UTC+8)、プリンストン大学の博士課程学生である張一帆氏がX上でDeepSeek V4の技術的指標を共有しました。このモデルは1.6兆パラメータ、384人のMoEエキスパート(1ステップあたり6つが活性化)、および2850億パラメータのV4-Liteバージョンを備えています。学習にはMuon最適化アルゴリズム、32Kの事前学習コンテキスト長、および1Mの最終コンテキスト長が使用されました。DeepSeekはまだコメントしていません。市場の感情は依然として混合しており、恐怖と欲求インデックスは中程度の不確実性を示しています。
出典:原文を表示
免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。
デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。