DeepSeek V4シリーズが1.6兆パラメータとMITライセンスでリリース

ChainThinkのメッセージ、4月24日、公式情報によると、DeepSeekがMITライセンスでV4シリーズのプレビュー版をオープンソース化し、モデルの重みがHugging FaceおよびModelScopeに公開されました。

このシリーズには2つのMoEモデルが含まれており、V4-Proの総パラメータ数は1.6兆で、1トークンあたり490億のパラメータが活性化されます。

V4-Flashの総パラメータ数は2840億で、1トークンあたり130億のパラメータが活性化されます。両モデルとも1Mトークンのコンテキストをサポートします。

このアーキテクチャシリーズには3つのアップグレードが含まれます。ハイブリッドアテンションメカニズム（圧縮スパースアテンションCSA＋過剰圧縮アテンションHCA）により、長コンテキストのオーバーヘッドが大幅に削減され、1Mコンテキストシナリオにおいて、V4-Proの1トークン推論FLOPsはV3.2の27％に、KVキャッシュのVRAM使用量はV3.2の10％に減少します。

流形制約超接続mHCを従来のリザイド接続に代えて、層間信号伝播の安定性を強化；トレーニングにはMuon最適化器を採用して収束を加速。このモデルの事前学習データは32Tトークンを超える。

後学習は二段階で行われ、まずSFTとGRPO強化学習を用いて各分野のエキスパートモデルを訓練し、その後、オンライン蒸留により最終モデルに統合します。

V4-Pro-Maxは、現在最も強力なオープンソースモデルと称し、コーディングベンチマークはトップレベルに達し、推論およびエージェントタスクにおいて、閉源の最先端モデルとの差が大きく縮小している。

V4-Flash-Maxは十分な思考予算を獲得した後、Proに近い推論性能を発揮するが、純粋な知識タスクや複雑なエージェントタスクではパラメータ規模に制約される。モデルの重みはFP4＋FP8のハイブリッド精度で保存されている。