Ibinuksan ni Microsoft ang 3.8B Text-to-Image Model na Lens na may 0.84-segundo na inference

Ayon sa ME News, noong Mayo 25 (UTC+8), ayon sa pagmamasid ng Beating, ang Microsoft ay inilabas ang open-source na serye ng base model para sa text-to-image na may 3.8B na parameter na tinatawag na Lens. Habang pinapanatili at hihigitin ang performance ng mga pangunahing 6B-class na model, natamo ng Lens ang ekstremong efficiency sa pag-train. Sa peak BF16 TFLOPS na normalized test (na nag-exclude ng gastos sa caption regeneration), ang pag-train ay gumamit lamang ng halos 19.3% ng computing power ng Z-Image ng Alibaba Tongyi Lab. Ang dual optimization sa data at arkitektura ang pangunahing dahilan sa pagbaba ng training cost. Ang training dataset na Lens-800M ay binubuo ng 800 milyong image-text pairs. Sa pagkakaiba sa tradisyonal na maikling text annotation, lahat ng sample ay ginawa ng GPT-4.1, na may average length ng prompt na 109 salita, na nagtataglay ng mataas na semantic density. Ang arkitektura ng model ay gumagamit ng 48 MMDiT blocks at FLUX.2 semantic VAE. Ang text features ay galing sa GPT-OSS, na pinagsama ang mga feature representation mula sa mga layer 4, 12, 18, at 24 upang mapabuti ang prompt adherence at multilingual generalization. Para sa iba’t ibang runtime environment, inilabas ng Microsoft ang tatlong bersyon ng weights. Ang default na Lens ay ginamit ang RL-tuned reinforcement learning fine-tuning, at kumukuha ng 3.15 segundo para mag-generate ng 1024x1024 image sa isang NVIDIA H100 GPU sa 20 steps. Ang distilled high-speed version na Lens-Turbo ay maaaring makakompleto ang inference sa 4 steps, na nag-iisip lamang ng 0.84 segundo para sa parehong resolution. Ang base version na Lens-Base naman ay walang RL o distillation, at default ay gumagamit ng 50 steps para mag-generate. Ang buong serye ng model ay native na sumusuporta sa anumang aspect ratio mula 1:2 hanggang 2:1 at pinakamataas na mixed resolution na 1440x1440. Ang weights ng mga model ay nasa Hugging Face na may entry points para sa Safetensors at Diffusers formats, na may MIT license. Ang inference code ay naka-host din sa GitHub. Ang kombinasyon ng mataas na data density at extreme inference speed ay bumaba sa barrier para sa mga individual developers at akademikong komunidad upang i-deploy at i-reproduce ang malalaking Diffusion Transformer models. (Source: BlockBeats)