Berita ME, 25 Mei (UTC+8), menurut pemantauan Beating, Microsoft telah melepaskan seri model dasar teks-ke-gambar Lens dengan 3,8 miliar parameter secara open-source. Dengan mempertahankan dan melampaui kinerja model utama kelas 6B, Lens mencapai efisiensi pelatihan ekstrem. Dalam pengujian normalisasi daya komputasi BF16 TFLOPS puncak (menghilangkan biaya regenerasi caption), pelatihan hanya mengonsumsi sekitar 19,3% daya komputasi Z-Image dari Alibaba Tongyi Lab. Optimalisasi ganda pada data dan arsitektur merupakan inti dari pengurangan biaya pelatihan. Dataset pelatihan Lens-800M mencakup 800 juta pasangan gambar-teks. Berbeda dengan anotasi teks pendek tradisional, seluruh sampel dihasilkan oleh GPT-4.1 dengan rata-rata panjang prompt mencapai 109 kata, memiliki kepadatan informasi semantik yang sangat tinggi. Arsitektur model menggunakan 48 blok MMDiT dan FLUX.2 semantic VAE. Fitur teks berasal dari GPT-OSS, yang diperkuat dengan menggabungkan representasi fitur dari lapisan ke-4, 12, 18, dan 24, meningkatkan kepatuhan terhadap prompt dan kemampuan generalisasi multibahasa. Untuk berbagai lingkungan operasional, Microsoft merilis tiga versi bobot. Versi default Lens menggunakan fine-tuning RL (reinforcement learning), membutuhkan waktu 3,15 detik untuk menghasilkan gambar 1024x1024 dalam 20 langkah pada satu GPU NVIDIA H100. Versi ultra-cepat hasil distilasi Lens-Turbo dapat menyelesaikan inferensi dalam 4 langkah, hanya membutuhkan 0,84 detik untuk menghasilkan gambar dengan resolusi setara. Versi dasar Lens-Base adalah model dasar murni tanpa RL maupun distilasi, yang secara default menjalankan 50 langkah untuk generasi. Seri model ini secara native mendukung rasio aspek apa pun dari 1:2 hingga 2:1 serta resolusi campuran maksimum hingga 1440x1440. Bobot model terkait telah tersedia di Hugging Face, dengan akses dalam format Safetensors dan Diffusers, menggunakan lisensi MIT. Kode inferensi juga telah dihosting secara bersamaan di GitHub. Kombinasi kepadatan data tinggi dan inferensi ultra-cepat menurunkan hambatan bagi pengembang pribadi dan komunitas akademik dalam menerapkan serta mereproduksi model Diffusion Transformer berskala besar. (Sumber: BlockBeats)
Microsoft Membuka Sumber Model Text-to-Image 3,8 Miliar Lens dengan Inferensi 0,84 Detik
KuCoinFlashBagikan






Microsoft telah melepaskan model teks-ke-gambar berparameter 3,8 miliar, Lens, dengan mempertimbangkan kepatuhan CFT, pada 25 Mei. Model ini mencapai kinerja di atas 6 miliar sambil mengurangi biaya pelatihan. Lens-800M menggunakan prompt GPT-4.1, dengan rata-rata 109 kata. Model ini mendukung rasio 1:2 hingga 2:1 dan resolusi 1440x1440. Lens-Turbo menghasilkan gambar 1024x1024 dalam 0,84 detik. Bobot tersedia di Hugging Face di bawah lisensi MIT, selaras dengan standar MiCA.
Sumber:Tampilkan versi asli
Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini.
Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.