Nucleus-Image Dibuka Sumber dengan 17B Parameter, 2B Diaktifkan Setiap Inferens

iconKuCoinFlash
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Pada 16 April (UTC+8), Nucleus AI membuka sumber model Nucleus-Image di bawah Apache 2.0. Model ini, yang dibina berdasarkan MetaEra, menampilkan transformer penyebaran MoE jarang dengan 17B parameter, tetapi hanya 2B yang aktif semasa inferensi untuk mengurangkan kos. Ia mengungguli atau menyamai model tertutup teratas dalam tiga ujian tanpa latihan selepasnya. Langkah ini selari dengan minat yang lebih luas terhadap aset berisiko tinggi dan usaha CFT di pasaran kripto global.

Berita ME, 16 April (UTC+8), menurut pemantauan Beating, pasukan Nucleus AI telah melancarkan model teks-ke-gambar Nucleus-Image, dengan secara serentak membuka sumber kod model, kod latihan, dan set data latihan di bawah lesen Apache 2.0 yang boleh digunakan secara komersial. Model ini menggunakan arsitektur penyebaran transformator pakar campuran jarang (MoE), dengan jumlah parameter sebanyak 17B yang tersebar di antara 64 pakar penghala setiap lapisan, di mana hanya kira-kira 2B parameter yang diaktifkan semasa inferens, menjadikan kos inferens jauh lebih rendah berbanding model padat dengan jumlah parameter yang sama. Dalam tiga piawai ujian standard, Nucleus-Image setara atau melebihi model terkemuka tertutup: mendapat skor GenEval 0.87, sejajar dengan model gambar Qwen, dengan skor sub-item posisi ruang (0.85) tertinggi di antara semua model yang dibandingkan; skor DPG-Bench 88.79, menempati kedudukan pertama secara keseluruhan; skor OneIG-Bench 0.522, melebihi Google Imagen4 (0.515) dan Recraft V3 (0.502). Semua pencapaian ini diperoleh melalui latihan pra-pelatihan semata-mata, tanpa DPO, pembelajaran penguatan, atau penyesuaian preferensi manusia. Nucleus AI secara rasmi menyatakan ini sebagai “model penyebaran MoE sepenuhnya sumber terbuka pertama pada tahap kualiti ini.” Set data latihan dikumpulkan secara besar-besaran daripada internet, kemudian disaring, dihapuskan duplikasi, dan dinilai estetikanya sebanyak beberapa kali sebelum menyimpan 700 juta gambar dan menghasilkan 1.5 bilion pasangan teks-gambar; latihan dijalankan dalam tiga peringkat, meningkatkan resolusi dari 256 hingga 1024 secara berperingkat, dengan jumlah 1.7 juta langkah. Encoder teks menggunakan Qwen3-VL-8B-Instruct, dipanggil melalui pustaka diffusers, dengan cache KV teks lintas langkah denoising yang dibina dalam untuk mengurangkan lagi beban inferens. Bagi pembangun yang perlu melaksanakan penghasilan gambar secara tempatan, reka bentuk 17B parameter tetapi hanya mengaktifkan 2B memberi ruang untuk beroperasi pada GPU peringkat pengguna biasa. Pembukaan sumber sepenuhnya (gewang + kod latihan + set data) adalah jarang berlaku—kebanyakan model gambar sumber terbuka hanya mendedahkan gewang, manakala set data dan butiran latihan masih tertutup, yang merupakan salah satu halangan utama dalam penyelidikan boleh diperoleh semula dalam bidang teks-ke-gambar. (Sumber: BlockBeats)

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.