ChainThinkのメッセージ、4月24日、公式情報によると、DeepSeekがMITライセンスでV4シリーズのプレビュー版をオープンソース化し、モデルの重みがHugging FaceおよびModelScopeに公開されました。
このシリーズには2つのMoEモデルが含まれており、V4-Proの総パラメータ数は1.6兆で、1トークンあたり490億のパラメータが活性化されます。
V4-Flashの総パラメータ数は2840億で、1トークンあたり130億のパラメータが活性化されます。両モデルとも1Mトークンのコンテキストをサポートします。
このアーキテクチャシリーズには3つのアップグレードが含まれます。ハイブリッドアテンションメカニズム(圧縮スパースアテンションCSA+過剰圧縮アテンションHCA)により、長コンテキストのオーバーヘッドが大幅に削減され、1Mコンテキストシナリオにおいて、V4-Proの1トークン推論FLOPsはV3.2の27%に、KVキャッシュのVRAM使用量はV3.2の10%に減少します。
流形制約超接続mHCを従来のリザイド接続に代えて、層間信号伝播の安定性を強化;トレーニングにはMuon最適化器を採用して収束を加速。このモデルの事前学習データは32Tトークンを超える。
後学習は二段階で行われ、まずSFTとGRPO強化学習を用いて各分野のエキスパートモデルを訓練し、その後、オンライン蒸留により最終モデルに統合します。
V4-Pro-Maxは、現在最も強力なオープンソースモデルと称し、コーディングベンチマークはトップレベルに達し、推論およびエージェントタスクにおいて、閉源の最先端モデルとの差が大きく縮小している。
V4-Flash-Maxは十分な思考予算を獲得した後、Proに近い推論性能を発揮するが、純粋な知識タスクや複雑なエージェントタスクではパラメータ規模に制約される。モデルの重みはFP4+FP8のハイブリッド精度で保存されている。
