Nucleus-Image Dibuka Sumber dengan 17B Parameter, 2B Diaktifkan Setiap Inferens

Berita ME, 16 April (UTC+8), menurut pemantauan Beating, pasukan Nucleus AI telah melancarkan model teks-ke-gambar Nucleus-Image, dengan secara serentak membuka sumber kod model, kod latihan, dan set data latihan di bawah lesen Apache 2.0 yang boleh digunakan secara komersial. Model ini menggunakan arsitektur penyebaran transformator pakar campuran jarang (MoE), dengan jumlah parameter sebanyak 17B yang tersebar di antara 64 pakar penghala setiap lapisan, di mana hanya kira-kira 2B parameter yang diaktifkan semasa inferens, menjadikan kos inferens jauh lebih rendah berbanding model padat dengan jumlah parameter yang sama. Dalam tiga piawai ujian standard, Nucleus-Image setara atau melebihi model terkemuka tertutup: mendapat skor GenEval 0.87, sejajar dengan model gambar Qwen, dengan skor sub-item posisi ruang (0.85) tertinggi di antara semua model yang dibandingkan; skor DPG-Bench 88.79, menempati kedudukan pertama secara keseluruhan; skor OneIG-Bench 0.522, melebihi Google Imagen4 (0.515) dan Recraft V3 (0.502). Semua pencapaian ini diperoleh melalui latihan pra-pelatihan semata-mata, tanpa DPO, pembelajaran penguatan, atau penyesuaian preferensi manusia. Nucleus AI secara rasmi menyatakan ini sebagai “model penyebaran MoE sepenuhnya sumber terbuka pertama pada tahap kualiti ini.” Set data latihan dikumpulkan secara besar-besaran daripada internet, kemudian disaring, dihapuskan duplikasi, dan dinilai estetikanya sebanyak beberapa kali sebelum menyimpan 700 juta gambar dan menghasilkan 1.5 bilion pasangan teks-gambar; latihan dijalankan dalam tiga peringkat, meningkatkan resolusi dari 256 hingga 1024 secara berperingkat, dengan jumlah 1.7 juta langkah. Encoder teks menggunakan Qwen3-VL-8B-Instruct, dipanggil melalui pustaka diffusers, dengan cache KV teks lintas langkah denoising yang dibina dalam untuk mengurangkan lagi beban inferens. Bagi pembangun yang perlu melaksanakan penghasilan gambar secara tempatan, reka bentuk 17B parameter tetapi hanya mengaktifkan 2B memberi ruang untuk beroperasi pada GPU peringkat pengguna biasa. Pembukaan sumber sepenuhnya (gewang + kod latihan + set data) adalah jarang berlaku—kebanyakan model gambar sumber terbuka hanya mendedahkan gewang, manakala set data dan butiran latihan masih tertutup, yang merupakan salah satu halangan utama dalam penyelidikan boleh diperoleh semula dalam bidang teks-ke-gambar. (Sumber: BlockBeats)