MEニュース:4月16日(UTC+8)、動察Beatingの監視によると、Nucleus AIチームはテキストから画像を生成するモデル「Nucleus-Image」をリリースし、モデルの重み、訓練コード、訓練データセットをApache 2.0ライセンスで同時にオープンソース化し、商用利用が可能となった。このモデルはスパース混合エキスパート(MoE)ディフュージョントランスフォーマーアーキテクチャを採用し、総パラメータ数は17Bで、各層に64のルーティングエキスパートが配置され、推論時には約2Bのパラメータのみが活性化されるため、同規模の密なモデルと比較して推論コストが大幅に低減されている。3つの標準ベンチマークにおいて、Nucleus-Imageは閉源トップモデルと同等、あるいはそれを上回る性能を発揮した:GenEvalスコアは0.87で、通義画像モデルと同等であり、空間位置サブタスク(0.85)は比較対象モデル中最高;DPG-Benchスコアは88.79で総合1位;OneIG-Benchスコアは0.522で、Google Imagen4(0.515)およびRecraft V3(0.502)を上回った。これらの成果はすべて純粋な事前学習によるもので、DPO、強化学習、または人間の好みによる微調整は一切行っていない。Nucleus AI公式はこれを「この品質レベルにおける初の完全オープンソースMoEディフュージョンモデル」と称している。訓練データはネットワークから大規模に収集され、複数段階のフィルタリング・重複除去・美しさスコアリングを経て7億枚の画像が残され、15億の画像・テキストペアが生成された。訓練は256から1024の解像度へ段階的に進める3段階で合計170万ステップ実施された。テキストエンコーダーにはQwen3-VL-8B-Instructを使用し、diffusersライブラリ経由で呼び出し、ノイズ除去ステップ間でのテキストKVキャッシュを内蔵することで、さらに推論オーバーヘッドを削減している。ローカルでの画像生成デプロイを必要とする開発者にとって、17Bパラメータのモデルでも推論時に2Bのみ活性化する設計は、コンシューマー向けGPUでも実行可能な可能性を示している。重み+訓練コード+データセットの完全オープンソース化は非常に稀であり、多くのオープンソース画像モデルは重みのみ公開し、データセットや訓練詳細は閉鎖されたままとなっている。これはテキストから画像生成分野における再現性のある研究の主なボトルネックの一つである。(出典:BlockBeats)
Nucleus-Image、170億パラメータでオープンソース化、推論ごとに20億を活性化
KuCoinFlash共有






4月16日(UTC+8)、Nucleus AIは、Apache 2.0ライセンスのもとでNucleus-Imageモデルをオープンソース化しました。このモデルはMetaEra上で構築され、170億パラメータのスパースMoEディフュージョントランスフォーマーで構成されていますが、推論時には20億パラメータのみが活性化され、コストを削減します。トレーニング後の調整なしで、3つのベンチマークにおいてトップのクローズドソースモデルを上回るか、同等の性能を発揮しました。この動きは、グローバルな暗号資産市場におけるリスクオン資産への関心とCFTへの取り組みと一致しています。
出典:原文を表示
免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。
デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。