微軟開源 3.8B 文本轉圖像模型 Lens,推理時間為 0.84 秒

iconKuCoinFlash
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
Microsoft 於 5 月 25 日開源了其 3.8B 參數的文本到圖像模型 Lens,並考慮了 CFT 合規性。該模型在降低訓練成本的同時,達到了 6B+ 的性能表現。Lens-800M 使用 GPT-4.1 提示,平均長度為 109 個詞。它支援 1:2 至 2:1 的長寬比以及 1440x1440 分辨率。Lens-Turbo 可在 0.84 秒內生成 1024x1024 圖像。權重已於 Hugging Face 上以 MIT 授權釋出,並符合 MiCA 標準。

ME News 消息,5 月 25 日(UTC+8),據動察 Beating 監測,微軟開源了 3.8B 參數的文生圖底座模型系列 Lens。在保持並超越主流 6B 級模型性能的前提下,Lens 實現了極致的訓練效率。在峰值 BF16 TFLOPS 算力歸一化測試中(排除 caption 重生成成本),訓練僅消耗阿里巴巴通義實驗室 Z-Image 約 19.3% 的算力。數據與架構的雙重優化是削減訓練成本的核心。訓練數據集 Lens-800M 包含 8 億圖像-文本對。與傳統短文本標註不同,所有樣本均由 GPT-4.1 生成,提示詞平均長度達 109 個單詞,具有極高的語義資訊密度。模型架構採用 48 個 MMDiT blocks 與 FLUX.2 語義 VAE。文本特徵來自 GPT-OSS,透過拼接第 4、12、18、24 層特徵表示,強化了提示詞遵循與多語言泛化表現。 針對不同運行環境,微軟發布了三種權重版本。預設版 Lens 採用 RL-tuned 強化學習微調,在單張 NVIDIA H100 GPU 上用 20 步生成 1024x1024 圖像耗時 3.15 秒。蒸餾極速版 Lens-Turbo 可在 4 步內完成推理,生成同等解析度圖像僅需 0.84 秒。底座版 Lens-Base 則是無 RL、無蒸餾的純底座,預設運行 50 步進行生成。系列模型原生支援 1:2 至 2:1 任意寬高比與最高 1440x1440 混合解析度生成。 相關模型權重已上架 Hugging Face,提供 Safetensors 與 Diffusers 格式入口,採用 MIT 許可協議。推理程式碼亦已同步託管至 GitHub。高數據密度與極速推理相結合,降低了個人開發者與學術界部署、複現大型擴散 Transformer(Diffusion Transformer)模型的門檻。(來源:BlockBeats)

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露