Nucleus-Image Dibuka Sumbernya dengan 17M Parameter, 2M Diaktifkan per Inferensi

Berita ME, 16 April (UTC+8), menurut pemantauan Beating, tim Nucleus AI merilis model text-to-image Nucleus-Image, sekaligus membuka sumber kode model, kode pelatihan, dan dataset pelatihan secara terbuka dengan lisensi Apache 2.0 yang dapat digunakan secara komersial. Model ini menggunakan arsitektur diffusion transformer sparse Mixture of Experts (MoE), dengan total parameter 17B yang tersebar di 64 expert router per lapisan, namun hanya sekitar 2B parameter yang diaktifkan setiap kali inferensi, sehingga biaya inferensi jauh lebih rendah dibandingkan model padat dengan jumlah parameter serupa. Pada tiga benchmark standar, Nucleus-Image sejajar bahkan melampaui model unggulan tertutup: skor GenEval 0,87, sejajar dengan model gambar Qwen, dengan sub-item posisi spasial (0,85) tertinggi di antara semua model yang dibandingkan; skor DPG-Bench 88,79, peringkat pertama secara keseluruhan; skor OneIG-Bench 0,522, melebihi Google Imagen4 (0,515) dan Recraft V3 (0,502). Semua hasil ini diperoleh dari pelatihan murni tanpa DPO, reinforcement learning, atau fine-tuning berbasis preferensi manusia. Nucleus AI secara resmi menyebut ini sebagai "model diffusion MoE terbuka penuh pertama di kualitas selevel ini." Data pelatihan dikumpulkan secara besar-besaran dari web, kemudian melalui beberapa tahap penyaringan, penghapusan duplikasi, dan penilaian estetika, menyisakan 700 juta gambar dan menghasilkan 1,5 miliar pasangan teks-gambar; pelatihan dilakukan dalam tiga tahap, meningkatkan resolusi dari 256 hingga 1024, total 1,7 juta langkah. Text encoder menggunakan Qwen3-VL-8B-Instruct, dipanggil melalui library diffusers, dengan cache KV teks lintas langkah denoising yang terintegrasi untuk lebih mengurangi beban inferensi. Bagi pengembang yang perlu men-deploy generasi gambar secara lokal, desain 17B parameter yang hanya mengaktifkan 2B memberikan ruang untuk dijalankan di GPU konsumen. Keterbukaan penuh (weight + kode pelatihan + dataset) relatif jarang—sebagian besar model gambar open-source hanya merilis weight, sementara dataset dan detail pelatihan tetap tertutup, yang merupakan salah satu hambatan utama dalam penelitian yang dapat direproduksi di bidang text-to-image. (Sumber: BlockBeats)