DeepSeek V4 オープンソースモデルが1.6兆パラメータとMITライセンスでリリース

MEニュース：4月24日（UTC+8）、動察Beatingの監視によると、DeepSeekがMITライセンスでV4シリーズのプレビュー版をオープンソース化し、重みがHugging FaceおよびModelScopeに公開されました。このシリーズには2つのMoEモデルが含まれます：V4-Proは総パラメータ数1.6T、1トークンあたり活性化されるパラメータ数49B（490億）；V4-Flashは総パラメータ数284B（2840億）、活性化パラメータ数13B（130億）。両モデルとも1Mトークンのコンテキストをサポートします。アーキテクチャの3つのアップグレード：混合アテンションメカニズム（圧縮スパースアテンションCSA＋高度圧縮アテンションHCA）により、長コンテキストのオーバーヘッドが大幅に削減され、1Mコンテキスト下でのV4-Proの1トークン推論FLOPsはV3.2の27％に低下し、KVキャッシュ（推論時に履歴情報を格納するGPUメモリ使用量）はV3.2の10％に削減されました。従来の残差接続を多様体制約超接続mHCで置換し、層間信号伝播の安定性を強化。トレーニングにはMuon最適化器を採用して収束を加速しました。事前学習データは32Tトークン以上です。後学習は2段階で実施：まずSFTとGRPO強化学習により各分野のエキスパートを個別に訓練し、次にオンライン蒸留で1つのモデルに統合します。V4-Pro-Max（最高推論モード）は現在最強のオープンソースモデルと主張し、コーディングベンチマークでトップレベルを達成、推論およびエージェントタスクでは閉源最先端モデルとの差が大きく縮小されています。V4-Flash-Maxは思考予算を十分に与えれば推論性能はProに近づきますが、純粋な知識タスクや複雑なエージェントタスクではパラメータ規模の制約を受けます。重みはFP4＋FP8ハイブリッド精度で保存されています。（出典：BlockBeats）