Microsoft Membuka Sumber Model Text-to-Image 3,8 Miliar Lens dengan Inferensi 0,84 Detik

Berita ME, 25 Mei (UTC+8), menurut pemantauan Beating, Microsoft telah melepaskan seri model dasar teks-ke-gambar Lens dengan 3,8 miliar parameter secara open-source. Dengan mempertahankan dan melampaui kinerja model utama kelas 6B, Lens mencapai efisiensi pelatihan ekstrem. Dalam pengujian normalisasi daya komputasi BF16 TFLOPS puncak (menghilangkan biaya regenerasi caption), pelatihan hanya mengonsumsi sekitar 19,3% daya komputasi Z-Image dari Alibaba Tongyi Lab. Optimalisasi ganda pada data dan arsitektur merupakan inti dari pengurangan biaya pelatihan. Dataset pelatihan Lens-800M mencakup 800 juta pasangan gambar-teks. Berbeda dengan anotasi teks pendek tradisional, seluruh sampel dihasilkan oleh GPT-4.1 dengan rata-rata panjang prompt mencapai 109 kata, memiliki kepadatan informasi semantik yang sangat tinggi. Arsitektur model menggunakan 48 blok MMDiT dan FLUX.2 semantic VAE. Fitur teks berasal dari GPT-OSS, yang diperkuat dengan menggabungkan representasi fitur dari lapisan ke-4, 12, 18, dan 24, meningkatkan kepatuhan terhadap prompt dan kemampuan generalisasi multibahasa. Untuk berbagai lingkungan operasional, Microsoft merilis tiga versi bobot. Versi default Lens menggunakan fine-tuning RL (reinforcement learning), membutuhkan waktu 3,15 detik untuk menghasilkan gambar 1024x1024 dalam 20 langkah pada satu GPU NVIDIA H100. Versi ultra-cepat hasil distilasi Lens-Turbo dapat menyelesaikan inferensi dalam 4 langkah, hanya membutuhkan 0,84 detik untuk menghasilkan gambar dengan resolusi setara. Versi dasar Lens-Base adalah model dasar murni tanpa RL maupun distilasi, yang secara default menjalankan 50 langkah untuk generasi. Seri model ini secara native mendukung rasio aspek apa pun dari 1:2 hingga 2:1 serta resolusi campuran maksimum hingga 1440x1440. Bobot model terkait telah tersedia di Hugging Face, dengan akses dalam format Safetensors dan Diffusers, menggunakan lisensi MIT. Kode inferensi juga telah dihosting secara bersamaan di GitHub. Kombinasi kepadatan data tinggi dan inferensi ultra-cepat menurunkan hambatan bagi pengembang pribadi dan komunitas akademik dalam menerapkan serta mereproduksi model Diffusion Transformer berskala besar. (Sumber: BlockBeats)