ข่าวจาก ME News เมื่อวันที่ 16 เมษายน (UTC+8) ตามการติดตามของ Beating ทีม Nucleus AI ได้เปิดตัวโมเดลการสร้างภาพจากข้อความ Nucleus-Image โดยเปิดเผยอย่างเปิดแหล่งที่มาซึ่งรวมถึงน้ำหนักโมเดล รหัสการฝึกฝน และชุดข้อมูลการฝึกฝน ภายใต้ใบอนุญาต Apache 2.0 ที่สามารถใช้เพื่อวัตถุประสงค์เชิงพาณิชย์ได้ โมเดลนี้ใช้สถาปัตยกรรม Diffusion Transformer แบบผู้เชี่ยวชาญแบบกระจาย (MoE) โดยมีพารามิเตอร์รวมทั้งหมด 17B กระจายอยู่ในผู้เชี่ยวชาญ 64 ตัวต่อแต่ละชั้น โดยในแต่ละครั้งของการประมวลผลจะเปิดใช้งานพารามิเตอร์เพียงประมาณ 2B เท่านั้น ทำให้ต้นทุนการประมวลผลต่ำกว่าโมเดลหนาแน่นที่มีขนาดพารามิเตอร์เท่ากันอย่างมาก ในสามมาตรฐานการทดสอบหลัก Nucleus-Image ทำผลงานเทียบเท่าหรือดีกว่าโมเดลชั้นนำที่ปิดแหล่งที่มา: ได้คะแนน GenEval 0.87 เท่ากับโมเดลภาพของ Qwen และมีคะแนนส่วนตำแหน่งเชิงพื้นที่สูงสุดที่ 0.85; ได้คะแนน DPG-Bench 88.79 ซึ่งอยู่อันดับหนึ่งโดยรวม; และได้คะแนน OneIG-Bench 0.522 สูงกว่า Google Imagen4 (0.515) และ Recraft V3 (0.502) ผลลัพธ์เหล่านี้ได้มาจากการฝึกฝนแบบเริ่มต้นเพียงอย่างเดียว โดยไม่มีการปรับแต่งด้วย DPO, การเรียนรู้แบบเสริมแรง หรือการปรับแต่งตามความชอบของมนุษย์ Nucleus AI ระบุว่านี่คือ “โมเดลกระจายแบบเปิดแหล่งที่มาแบบครบวงจรตัวแรกในระดับคุณภาพนี้” ชุดข้อมูลการฝึกฝนถูกดึงมาจากอินเทอร์เน็ตในปริมาณใหญ่ ผ่านกระบวนการกรอง ลบข้อมูลซ้ำ และให้คะแนนความงามหลายรอบ ก่อนเหลือภาพจำนวน 700 ล้านภาพ และสร้างคู่ข้อความ-ภาพจำนวน 1.5 พันล้านคู่ การฝึกฝนแบ่งเป็นสามระยะ โดยเพิ่มความละเอียดจาก 256 เป็น 1024 อย่างค่อยเป็นค่อยไป โดยใช้การฝึกฝนรวมทั้งหมด 1.7 ล้านขั้นตอน เครื่องเขียนข้อความใช้ Qwen3-VL-8B-Instruct เรียกผ่านไลบรารี diffusers และมีการจัดเก็บ KV ข้อความข้ามขั้นตอนการลดสัญญาณรบกวนไว้ในตัว เพื่อลดต้นทุนการประมวลผลเพิ่มเติม สำหรับนักพัฒนาที่ต้องการปรับใช้การสร้างภาพในระบบของตนเอง การออกแบบที่มีพารามิเตอร์รวม 17B แต่เปิดใช้งานเพียง 2B เท่านั้น หมายความว่า GPU ระดับผู้บริโภคก็สามารถรันโมเดลนี้ได้ การเปิดแหล่งที่มาอย่างครบถ้วน (น้ำหนัก + รหัสการฝึกฝน + ชุดข้อมูล) เป็นเรื่องที่พบได้น้อย—โมเดลภาพแบบเปิดแหล่งที่มาส่วนใหญ่มักเปิดเพียงน้ำหนักเท่านั้น ส่วนชุดข้อมูลและรายละเอียดการฝึกฝนยังคงปิดอยู่ ซึ่งเป็นหนึ่งในอุปสรรคหลักของการวิจัยที่สามารถทำซ้ำได้ในด้านการสร้างภาพจากข้อความ (ที่มา: BlockBeats)
Nucleus-Image เปิดแหล่งที่มาพร้อมพารามิเตอร์ 17B โดยเปิดใช้งาน 2B ต่อการประมวลผลแต่ละครั้ง
KuCoinFlashแชร์






ในวันที่ 16 เมษายน (UTC+8) Nucleus AI ได้เปิดแหล่งที่มาของโมเดล Nucleus-Image ภายใต้ใบอนุญาต Apache 2.0 โมเดลนี้สร้างขึ้นบน MetaEra มีโครงสร้างเป็น diffusion transformer แบบ sparse MoE พร้อมพารามิเตอร์ 17B แต่ในระหว่างการประมวลผลจะใช้งานเพียง 2B เท่านั้นเพื่อลดต้นทุน โมเดลนี้มีประสิทธิภาพดีกว่าหรือเทียบเท่ากับโมเดลเชิงปิดชั้นนำบนสามชุดข้อมูลทดสอบโดยไม่ต้องผ่านการฝึกเพิ่มเติม การกระทำนี้สอดคล้องกับความสนใจที่เพิ่มขึ้นในสินทรัพย์ที่มีความเสี่ยงสูงและแรงผลักดันด้าน CFT ในตลาดคริปโตทั่วโลก
แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้
การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา