Microsoft、38億パラメータのテキストから画像へのモデル「Lens」をオープンソース化、推論時間は0.84秒

iconKuCoinFlash
共有
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon概要

expand icon
Microsoftは5月25日、CFT準拠を念頭に置いて、38億パラメーターのテキストから画像生成モデル「Lens」をオープンソース化しました。このモデルは60億パラメーター以上の性能を達成しつつ、トレーニングコストを削減します。Lens-800MはGPT-4.1のプロンプトを使用し、平均して109語です。1:2から2:1のアスペクト比と1440x1440の解像度をサポートします。Lens-Turboは0.84秒で1024x1024の画像を生成します。重みはMITライセンスでHugging Face上で利用可能であり、MiCA基準と整合しています。

MEニュース:5月25日(UTC+8)、Beating監視によると、マイクロソフトは、3.8Bパラメータのテキストから画像生成のベースモデルシリーズ「Lens」をオープンソース化しました。Lensは、主流の6B級モデルの性能を維持・上回りながら、極めて高いトレーニング効率を実現しました。ピークBF16 TFLOPS算力正規化テスト(キャプション再生成コストを除く)では、アリババ通義ラボのZ-Imageと比較して、約19.3%の算力しか消費しませんでした。トレーニングコスト削減の核心は、データとアーキテクチャの両面での最適化です。トレーニングデータセット「Lens-800M」は8億の画像-テキストペアを含み、従来の短いテキストアノテーションとは異なり、すべてのサンプルはGPT-4.1によって生成され、プロンプトの平均長は109語に達し、極めて高い意味情報密度を有しています。モデルアーキテクチャは48個のMMDiTブロックとFLUX.2セマンティックVAEを採用しています。テキスト特徴はGPT-OSSから取得され、第4・12・18・24層の特徴表現を連結することで、プロンプトの忠実性と多言語汎化性能が強化されています。異なる実行環境に対応するため、マイクロソフトは3つの重みバージョンをリリースしました。デフォルト版LensはRLチューニング強化学習微調整を適用し、NVIDIA H100 GPU1枚で1024x1024画像を20ステップで生成するのに3.15秒かかります。蒸留高速版Lens-Turboは4ステップで推論を完了し、同等解像度の画像生成に0.84秒しかかかりません。ベース版Lens-BaseはRLや蒸留を一切含まない純粋なベースモデルで、デフォルトでは50ステップで生成を行います。本シリーズモデルは、原生的に1:2から2:1までの任意のアスペクト比と最大1440x1440の混合解像度生成をサポートしています。関連モデルの重みはHugging Faceに公開され、SafetensorsおよびDiffusers形式でアクセス可能で、MITライセンスに基づいています。推論コードもGitHubに同期して公開されています。高密度データと極速推論の組み合わせにより、個人開発者や学術界における大規模なDiffusion Transformerモデルの導入・再現のハードルが大幅に低下しました。(出典:BlockBeats)

免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。 デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。