Nucleus-Image เปิดแหล่งที่มาพร้อมพารามิเตอร์ 17B โดยเปิดใช้งาน 2B ต่อการประมวลผลแต่ละครั้ง

ข่าวจาก ME News เมื่อวันที่ 16 เมษายน (UTC+8) ตามการติดตามของ Beating ทีม Nucleus AI ได้เปิดตัวโมเดลการสร้างภาพจากข้อความ Nucleus-Image โดยเปิดเผยอย่างเปิดแหล่งที่มาซึ่งรวมถึงน้ำหนักโมเดล รหัสการฝึกฝน และชุดข้อมูลการฝึกฝน ภายใต้ใบอนุญาต Apache 2.0 ที่สามารถใช้เพื่อวัตถุประสงค์เชิงพาณิชย์ได้ โมเดลนี้ใช้สถาปัตยกรรม Diffusion Transformer แบบผู้เชี่ยวชาญแบบกระจาย (MoE) โดยมีพารามิเตอร์รวมทั้งหมด 17B กระจายอยู่ในผู้เชี่ยวชาญ 64 ตัวต่อแต่ละชั้น โดยในแต่ละครั้งของการประมวลผลจะเปิดใช้งานพารามิเตอร์เพียงประมาณ 2B เท่านั้น ทำให้ต้นทุนการประมวลผลต่ำกว่าโมเดลหนาแน่นที่มีขนาดพารามิเตอร์เท่ากันอย่างมาก ในสามมาตรฐานการทดสอบหลัก Nucleus-Image ทำผลงานเทียบเท่าหรือดีกว่าโมเดลชั้นนำที่ปิดแหล่งที่มา: ได้คะแนน GenEval 0.87 เท่ากับโมเดลภาพของ Qwen และมีคะแนนส่วนตำแหน่งเชิงพื้นที่สูงสุดที่ 0.85; ได้คะแนน DPG-Bench 88.79 ซึ่งอยู่อันดับหนึ่งโดยรวม; และได้คะแนน OneIG-Bench 0.522 สูงกว่า Google Imagen4 (0.515) และ Recraft V3 (0.502) ผลลัพธ์เหล่านี้ได้มาจากการฝึกฝนแบบเริ่มต้นเพียงอย่างเดียว โดยไม่มีการปรับแต่งด้วย DPO, การเรียนรู้แบบเสริมแรง หรือการปรับแต่งตามความชอบของมนุษย์ Nucleus AI ระบุว่านี่คือ “โมเดลกระจายแบบเปิดแหล่งที่มาแบบครบวงจรตัวแรกในระดับคุณภาพนี้” ชุดข้อมูลการฝึกฝนถูกดึงมาจากอินเทอร์เน็ตในปริมาณใหญ่ ผ่านกระบวนการกรอง ลบข้อมูลซ้ำ และให้คะแนนความงามหลายรอบ ก่อนเหลือภาพจำนวน 700 ล้านภาพ และสร้างคู่ข้อความ-ภาพจำนวน 1.5 พันล้านคู่ การฝึกฝนแบ่งเป็นสามระยะ โดยเพิ่มความละเอียดจาก 256 เป็น 1024 อย่างค่อยเป็นค่อยไป โดยใช้การฝึกฝนรวมทั้งหมด 1.7 ล้านขั้นตอน เครื่องเขียนข้อความใช้ Qwen3-VL-8B-Instruct เรียกผ่านไลบรารี diffusers และมีการจัดเก็บ KV ข้อความข้ามขั้นตอนการลดสัญญาณรบกวนไว้ในตัว เพื่อลดต้นทุนการประมวลผลเพิ่มเติม สำหรับนักพัฒนาที่ต้องการปรับใช้การสร้างภาพในระบบของตนเอง การออกแบบที่มีพารามิเตอร์รวม 17B แต่เปิดใช้งานเพียง 2B เท่านั้น หมายความว่า GPU ระดับผู้บริโภคก็สามารถรันโมเดลนี้ได้ การเปิดแหล่งที่มาอย่างครบถ้วน (น้ำหนัก + รหัสการฝึกฝน + ชุดข้อมูล) เป็นเรื่องที่พบได้น้อย—โมเดลภาพแบบเปิดแหล่งที่มาส่วนใหญ่มักเปิดเพียงน้ำหนักเท่านั้น ส่วนชุดข้อมูลและรายละเอียดการฝึกฝนยังคงปิดอยู่ ซึ่งเป็นหนึ่งในอุปสรรคหลักของการวิจัยที่สามารถทำซ้ำได้ในด้านการสร้างภาพจากข้อความ (ที่มา: BlockBeats)