DeepSeek V4シリーズが1.6兆パラメータとMITライセンスでリリース

iconChainthink
共有
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon概要

expand icon
4月24日、DeepSeekがMITライセンス下でV4シリーズをリリースしました。これらのモデルは、Hugging FaceとModelScopeで公開されており、V4-Pro(1.6兆パラメータ)とV4-Flash(2840億パラメータ)を含み、両方とも100万トークンのコンテキストをサポートします。V4シリーズは、ハイブリッドアテンションメカニズムを含む3つのアーキテクチャ向上を導入し、ロングコンテキストのコストを削減します。V4-Proは、V3.2のFLOPsの27%、KVキャッシュメモリの10%を使用します。32兆トークン以上で学習されたこれらのモデルは、SFT、GRPO、オンラインディスティレーションを採用しています。この効率性の向上により、新しいトークンの上場が恩恵を受ける可能性があります。

ChainThinkのメッセージ、4月24日、公式情報によると、DeepSeekがMITライセンスでV4シリーズのプレビュー版をオープンソース化し、モデルの重みがHugging FaceおよびModelScopeに公開されました。


このシリーズには2つのMoEモデルが含まれており、V4-Proの総パラメータ数は1.6兆で、1トークンあたり490億のパラメータが活性化されます。


V4-Flashの総パラメータ数は2840億で、1トークンあたり130億のパラメータが活性化されます。両モデルとも1Mトークンのコンテキストをサポートします。


このアーキテクチャシリーズには3つのアップグレードが含まれます。ハイブリッドアテンションメカニズム(圧縮スパースアテンションCSA+過剰圧縮アテンションHCA)により、長コンテキストのオーバーヘッドが大幅に削減され、1Mコンテキストシナリオにおいて、V4-Proの1トークン推論FLOPsはV3.2の27%に、KVキャッシュのVRAM使用量はV3.2の10%に減少します。


流形制約超接続mHCを従来のリザイド接続に代えて、層間信号伝播の安定性を強化;トレーニングにはMuon最適化器を採用して収束を加速。このモデルの事前学習データは32Tトークンを超える。


後学習は二段階で行われ、まずSFTとGRPO強化学習を用いて各分野のエキスパートモデルを訓練し、その後、オンライン蒸留により最終モデルに統合します。


V4-Pro-Maxは、現在最も強力なオープンソースモデルと称し、コーディングベンチマークはトップレベルに達し、推論およびエージェントタスクにおいて、閉源の最先端モデルとの差が大きく縮小している。


V4-Flash-Maxは十分な思考予算を獲得した後、Proに近い推論性能を発揮するが、純粋な知識タスクや複雑なエージェントタスクではパラメータ規模に制約される。モデルの重みはFP4+FP8のハイブリッド精度で保存されている。

免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。 デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。