MEニュース:4月24日(UTC+8)、動察Beatingの監視によると、DeepSeekがMITライセンスでV4シリーズのプレビュー版をオープンソース化し、重みがHugging FaceおよびModelScopeに公開されました。このシリーズには2つのMoEモデルが含まれます:V4-Proは総パラメータ数1.6T、1トークンあたり活性化されるパラメータ数49B(490億);V4-Flashは総パラメータ数284B(2840億)、活性化パラメータ数13B(130億)。両モデルとも1Mトークンのコンテキストをサポートします。アーキテクチャの3つのアップグレード:混合アテンションメカニズム(圧縮スパースアテンションCSA+高度圧縮アテンションHCA)により、長コンテキストのオーバーヘッドが大幅に削減され、1Mコンテキスト下でのV4-Proの1トークン推論FLOPsはV3.2の27%に低下し、KVキャッシュ(推論時に履歴情報を格納するGPUメモリ使用量)はV3.2の10%に削減されました。従来の残差接続を多様体制約超接続mHCで置換し、層間信号伝播の安定性を強化。トレーニングにはMuon最適化器を採用して収束を加速しました。事前学習データは32Tトークン以上です。後学習は2段階で実施:まずSFTとGRPO強化学習により各分野のエキスパートを個別に訓練し、次にオンライン蒸留で1つのモデルに統合します。V4-Pro-Max(最高推論モード)は現在最強のオープンソースモデルと主張し、コーディングベンチマークでトップレベルを達成、推論およびエージェントタスクでは閉源最先端モデルとの差が大きく縮小されています。V4-Flash-Maxは思考予算を十分に与えれば推論性能はProに近づきますが、純粋な知識タスクや複雑なエージェントタスクではパラメータ規模の制約を受けます。重みはFP4+FP8ハイブリッド精度で保存されています。(出典:BlockBeats)
DeepSeek V4 オープンソースモデルが1.6兆パラメータとMITライセンスでリリース
KuCoinFlash共有






4月24日(UTC+8)、DeepSeekがMITライセンスのもとでオープンソースのV4シリーズモデルのプレビューをリリースしました。V4-ProおよびV4-Flash MoEモデルは、それぞれ1.6兆パラメータと2840億パラメータを搭載し、100万トークンのコンテキスト対応を実現しています。V4-ProはV3.2と比較して推論FLOPsを73%、KVキャッシュメモリを90%削減しています。重みはHugging FaceおよびModelScopeで利用可能です。新しいトークン上場は、この向上した効率性とオープンなアクセスの恩恵を受ける可能性があります。
出典:原文を表示
免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。
デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。