Nucleus-Image Dibuka Sumbernya dengan 17M Parameter, 2M Diaktifkan per Inferensi

iconKuCoinFlash
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Pada 16 April (UTC+8), Nucleus AI melepaskan model Nucleus-Image secara open source di bawah lisensi Apache 2.0. Model ini, yang dibangun di atas MetaEra, memiliki diffusion transformer MoE sparse dengan 17 miliar parameter, tetapi hanya 2 miliar yang aktif selama inferensi untuk mengurangi biaya. Model ini mengungguli atau setara dengan model closed-source teratas pada tiga benchmark tanpa pelatihan lanjutan. Langkah ini selaras dengan minat yang lebih luas terhadap aset risk-on dan upaya CFT di pasar kripto global.

Berita ME, 16 April (UTC+8), menurut pemantauan Beating, tim Nucleus AI merilis model text-to-image Nucleus-Image, sekaligus membuka sumber kode model, kode pelatihan, dan dataset pelatihan secara terbuka dengan lisensi Apache 2.0 yang dapat digunakan secara komersial. Model ini menggunakan arsitektur diffusion transformer sparse Mixture of Experts (MoE), dengan total parameter 17B yang tersebar di 64 expert router per lapisan, namun hanya sekitar 2B parameter yang diaktifkan setiap kali inferensi, sehingga biaya inferensi jauh lebih rendah dibandingkan model padat dengan jumlah parameter serupa. Pada tiga benchmark standar, Nucleus-Image sejajar bahkan melampaui model unggulan tertutup: skor GenEval 0,87, sejajar dengan model gambar Qwen, dengan sub-item posisi spasial (0,85) tertinggi di antara semua model yang dibandingkan; skor DPG-Bench 88,79, peringkat pertama secara keseluruhan; skor OneIG-Bench 0,522, melebihi Google Imagen4 (0,515) dan Recraft V3 (0,502). Semua hasil ini diperoleh dari pelatihan murni tanpa DPO, reinforcement learning, atau fine-tuning berbasis preferensi manusia. Nucleus AI secara resmi menyebut ini sebagai "model diffusion MoE terbuka penuh pertama di kualitas selevel ini." Data pelatihan dikumpulkan secara besar-besaran dari web, kemudian melalui beberapa tahap penyaringan, penghapusan duplikasi, dan penilaian estetika, menyisakan 700 juta gambar dan menghasilkan 1,5 miliar pasangan teks-gambar; pelatihan dilakukan dalam tiga tahap, meningkatkan resolusi dari 256 hingga 1024, total 1,7 juta langkah. Text encoder menggunakan Qwen3-VL-8B-Instruct, dipanggil melalui library diffusers, dengan cache KV teks lintas langkah denoising yang terintegrasi untuk lebih mengurangi beban inferensi. Bagi pengembang yang perlu men-deploy generasi gambar secara lokal, desain 17B parameter yang hanya mengaktifkan 2B memberikan ruang untuk dijalankan di GPU konsumen. Keterbukaan penuh (weight + kode pelatihan + dataset) relatif jarang—sebagian besar model gambar open-source hanya merilis weight, sementara dataset dan detail pelatihan tetap tertutup, yang merupakan salah satu hambatan utama dalam penelitian yang dapat direproduksi di bidang text-to-image. (Sumber: BlockBeats)

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.