Ibinuksan ni Microsoft ang 3.8B Text-to-Image Model na Lens na may 0.84-segundo na inference

iconKuCoinFlash
I-share
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconSummary

expand icon
Ibinuksan ng Microsoft ang kanyang 3.8B parameter text-to-image model na Lens noong Mayo 25, na may pag-iisip sa CFT compliance. Tumutugma ang model sa performance ng 6B+ habang binabawasan ang gastos sa pag-train. Gumagamit ang Lens-800M ng GPT-4.1 prompts, na may average na 109 salita. Suportahan nito ang mga ratio na 1:2 hanggang 2:1 at resolusyon na 1440x1440. Gumagawa ang Lens-Turbo ng 1024x1024 images sa 0.84 segundo. Ang weights ay available sa Hugging Face sa ilalim ng MIT license, na naka-align sa MiCA standards.

Ayon sa ME News, noong Mayo 25 (UTC+8), ayon sa pagmamasid ng Beating, ang Microsoft ay inilabas ang open-source na serye ng base model para sa text-to-image na may 3.8B na parameter na tinatawag na Lens. Habang pinapanatili at hihigitin ang performance ng mga pangunahing 6B-class na model, natamo ng Lens ang ekstremong efficiency sa pag-train. Sa peak BF16 TFLOPS na normalized test (na nag-exclude ng gastos sa caption regeneration), ang pag-train ay gumamit lamang ng halos 19.3% ng computing power ng Z-Image ng Alibaba Tongyi Lab. Ang dual optimization sa data at arkitektura ang pangunahing dahilan sa pagbaba ng training cost. Ang training dataset na Lens-800M ay binubuo ng 800 milyong image-text pairs. Sa pagkakaiba sa tradisyonal na maikling text annotation, lahat ng sample ay ginawa ng GPT-4.1, na may average length ng prompt na 109 salita, na nagtataglay ng mataas na semantic density. Ang arkitektura ng model ay gumagamit ng 48 MMDiT blocks at FLUX.2 semantic VAE. Ang text features ay galing sa GPT-OSS, na pinagsama ang mga feature representation mula sa mga layer 4, 12, 18, at 24 upang mapabuti ang prompt adherence at multilingual generalization. Para sa iba’t ibang runtime environment, inilabas ng Microsoft ang tatlong bersyon ng weights. Ang default na Lens ay ginamit ang RL-tuned reinforcement learning fine-tuning, at kumukuha ng 3.15 segundo para mag-generate ng 1024x1024 image sa isang NVIDIA H100 GPU sa 20 steps. Ang distilled high-speed version na Lens-Turbo ay maaaring makakompleto ang inference sa 4 steps, na nag-iisip lamang ng 0.84 segundo para sa parehong resolution. Ang base version na Lens-Base naman ay walang RL o distillation, at default ay gumagamit ng 50 steps para mag-generate. Ang buong serye ng model ay native na sumusuporta sa anumang aspect ratio mula 1:2 hanggang 2:1 at pinakamataas na mixed resolution na 1440x1440. Ang weights ng mga model ay nasa Hugging Face na may entry points para sa Safetensors at Diffusers formats, na may MIT license. Ang inference code ay naka-host din sa GitHub. Ang kombinasyon ng mataas na data density at extreme inference speed ay bumaba sa barrier para sa mga individual developers at akademikong komunidad upang i-deploy at i-reproduce ang malalaking Diffusion Transformer models. (Source: BlockBeats)

Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.