Microsoft Membuka Sumber Model Teks-ke-Gambar 3.8B Lens dengan Inferens 0.84 Saat

Berita ME, 25 Mei (UTC+8), menurut pemantauan Beating, Microsoft telah melepaskan serangkaian model dasar teks-ke-gambar Lens dengan 3.8B parameter secara open-source. Dengan mempertahankan dan melampaui prestasi model utama kelas 6B, Lens mencapai efisiensi pelatihan yang ekstrem. Dalam pengujian normalisasi daya komputasi BF16 TFLOPS puncak (mengabaikan biaya regenerasi caption), pelatihan hanya menghabiskan sekitar 19.3% daya komputasi Z-Image dari Alibaba Tongyi Lab. Optimisasi ganda pada data dan arsitektur merupakan inti pengurangan biaya pelatihan. Dataset pelatihan Lens-800M mencakup 800 juta pasangan gambar-teks. Berbeda dengan anotasi teks pendek tradisional, semua sampel dihasilkan oleh GPT-4.1, dengan panjang rata-rata prompt mencapai 109 kata, memiliki kepadatan informasi semantik yang sangat tinggi. Arsitektur model menggunakan 48 blok MMDiT dan FLUX.2 semantic VAE. Fitur teks berasal dari GPT-OSS, dengan menggabungkan representasi fitur dari lapisan ke-4, 12, 18, dan 24, yang meningkatkan kepatuhan terhadap prompt serta kemampuan generalisasi multibahasa. Untuk berbagai lingkungan operasional, Microsoft merilis tiga versi bobot. Versi default Lens menggunakan fine-tuning reinforcement learning (RL-tuned); pada satu GPU NVIDIA H100, waktu yang dibutuhkan untuk menghasilkan gambar 1024x1024 dalam 20 langkah adalah 3.15 detik. Versi distilasi ultra-cepat Lens-Turbo dapat menyelesaikan inferensi dalam 4 langkah, menghasilkan gambar dengan resolusi setara hanya dalam 0.84 detik. Versi dasar Lens-Base adalah model dasar murni tanpa RL maupun distilasi, secara default menjalankan 50 langkah untuk generasi. Serangkaian model ini secara native mendukung rasio aspek apa pun dari 1:2 hingga 2:1 serta resolusi campuran maksimum hingga 1440x1440. Bobot model terkait telah tersedia di Hugging Face, dengan akses dalam format Safetensors dan Diffusers, menggunakan lisensi MIT. Kode inferensi juga telah dihosting secara bersamaan di GitHub. Kombinasi kepadatan data tinggi dan inferensi ultra-cepat menurunkan hambatan bagi pengembang perorangan dan komunitas akademik dalam menerapkan serta mereproduksi model Diffusion Transformer berskala besar. (Sumber: BlockBeats)