Microsoft Membuka Sumber Model Teks-ke-Gambar 3.8B Lens dengan Inferens 0.84 Saat

iconKuCoinFlash
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Microsoft telah membuka sumber model teks-ke-gambar 3.8B parameter Lens pada 25 Mei, dengan mempertimbangkan kesesuaian CFT. Model ini mencapai prestasi lebih dari 6B sambil mengurangkan kos latihan. Lens-800M menggunakan prompt GPT-4.1, dengan purata 109 perkataan. Model ini menyokong nisbah 1:2 hingga 2:1 dan resolusi 1440x1440. Lens-Turbo menghasilkan gambar 1024x1024 dalam 0.84 saat. Berat model tersedia di Hugging Face di bawah lesen MIT, selaras dengan piawaian MiCA.

Berita ME, 25 Mei (UTC+8), menurut pemantauan Beating, Microsoft telah melepaskan serangkaian model dasar teks-ke-gambar Lens dengan 3.8B parameter secara open-source. Dengan mempertahankan dan melampaui prestasi model utama kelas 6B, Lens mencapai efisiensi pelatihan yang ekstrem. Dalam pengujian normalisasi daya komputasi BF16 TFLOPS puncak (mengabaikan biaya regenerasi caption), pelatihan hanya menghabiskan sekitar 19.3% daya komputasi Z-Image dari Alibaba Tongyi Lab. Optimisasi ganda pada data dan arsitektur merupakan inti pengurangan biaya pelatihan. Dataset pelatihan Lens-800M mencakup 800 juta pasangan gambar-teks. Berbeda dengan anotasi teks pendek tradisional, semua sampel dihasilkan oleh GPT-4.1, dengan panjang rata-rata prompt mencapai 109 kata, memiliki kepadatan informasi semantik yang sangat tinggi. Arsitektur model menggunakan 48 blok MMDiT dan FLUX.2 semantic VAE. Fitur teks berasal dari GPT-OSS, dengan menggabungkan representasi fitur dari lapisan ke-4, 12, 18, dan 24, yang meningkatkan kepatuhan terhadap prompt serta kemampuan generalisasi multibahasa. Untuk berbagai lingkungan operasional, Microsoft merilis tiga versi bobot. Versi default Lens menggunakan fine-tuning reinforcement learning (RL-tuned); pada satu GPU NVIDIA H100, waktu yang dibutuhkan untuk menghasilkan gambar 1024x1024 dalam 20 langkah adalah 3.15 detik. Versi distilasi ultra-cepat Lens-Turbo dapat menyelesaikan inferensi dalam 4 langkah, menghasilkan gambar dengan resolusi setara hanya dalam 0.84 detik. Versi dasar Lens-Base adalah model dasar murni tanpa RL maupun distilasi, secara default menjalankan 50 langkah untuk generasi. Serangkaian model ini secara native mendukung rasio aspek apa pun dari 1:2 hingga 2:1 serta resolusi campuran maksimum hingga 1440x1440. Bobot model terkait telah tersedia di Hugging Face, dengan akses dalam format Safetensors dan Diffusers, menggunakan lisensi MIT. Kode inferensi juga telah dihosting secara bersamaan di GitHub. Kombinasi kepadatan data tinggi dan inferensi ultra-cepat menurunkan hambatan bagi pengembang perorangan dan komunitas akademik dalam menerapkan serta mereproduksi model Diffusion Transformer berskala besar. (Sumber: BlockBeats)

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.