微軟開源 3.8B 文本轉圖像模型 Lens，推理時間為 0.84 秒

ME News 消息，5 月 25 日（UTC+8），據動察 Beating 監測，微軟開源了 3.8B 參數的文生圖底座模型系列 Lens。在保持並超越主流 6B 級模型性能的前提下，Lens 實現了極致的訓練效率。在峰值 BF16 TFLOPS 算力歸一化測試中（排除 caption 重生成成本），訓練僅消耗阿里巴巴通義實驗室 Z-Image 約 19.3% 的算力。數據與架構的雙重優化是削減訓練成本的核心。訓練數據集 Lens-800M 包含 8 億圖像-文本對。與傳統短文本標註不同，所有樣本均由 GPT-4.1 生成，提示詞平均長度達 109 個單詞，具有極高的語義資訊密度。模型架構採用 48 個 MMDiT blocks 與 FLUX.2 語義 VAE。文本特徵來自 GPT-OSS，透過拼接第 4、12、18、24 層特徵表示，強化了提示詞遵循與多語言泛化表現。針對不同運行環境，微軟發布了三種權重版本。預設版 Lens 採用 RL-tuned 強化學習微調，在單張 NVIDIA H100 GPU 上用 20 步生成 1024x1024 圖像耗時 3.15 秒。蒸餾極速版 Lens-Turbo 可在 4 步內完成推理，生成同等解析度圖像僅需 0.84 秒。底座版 Lens-Base 則是無 RL、無蒸餾的純底座，預設運行 50 步進行生成。系列模型原生支援 1:2 至 2:1 任意寬高比與最高 1440x1440 混合解析度生成。相關模型權重已上架 Hugging Face，提供 Safetensors 與 Diffusers 格式入口，採用 MIT 許可協議。推理程式碼亦已同步託管至 GitHub。高數據密度與極速推理相結合，降低了個人開發者與學術界部署、複現大型擴散 Transformer（Diffusion Transformer）模型的門檻。（來源：BlockBeats）