Microsoft เปิดแหล่งที่มาของโมเดลข้อความเป็นภาพ Lens ขนาด 3.8 พันล้านพารามิเตอร์ พร้อมเวลาการประมวลผล 0.84 วินาที

iconKuCoinFlash
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
ไมโครซอฟท์ได้เปิดแหล่งที่มาของโมเดลข้อความเป็นภาพ Lens ขนาดพารามิเตอร์ 3.8 พันล้านเมื่อวันที่ 25 พฤษภาคม โดยคำนึงถึงการปฏิบัติตามข้อกำหนด CFT โมเดลนี้มีประสิทธิภาพเทียบเท่าโมเดลขนาด 6 พันล้านพารามิเตอร์ขึ้นไป แต่ลดต้นทุนการฝึกอบรม Lens-800M ใช้คำสั่ง GPT-4.1 โดยมีความยาวเฉลี่ย 109 คำ รองรับอัตราส่วน 1:2 ถึง 2:1 และความละเอียด 1440x1440 Lens-Turbo สร้างภาพขนาด 1024x1024 ในเวลา 0.84 วินาที น้ำหนักโมเดลสามารถเข้าถึงได้บน Hugging Face ภายใต้ใบอนุญาต MIT ซึ่งสอดคล้องกับมาตรฐาน MiCA

ข่าวจาก ME News เมื่อวันที่ 25 พฤษภาคม (UTC+8) ตามการติดตามของ Beating ไมโครซอฟท์เปิดตัวชุดโมเดลพื้นฐานสำหรับการสร้างภาพจากข้อความ Lens ที่มีพารามิเตอร์ 3.8 พันล้าน โดยรักษาและ vượtประสิทธิภาพของโมเดลระดับ 6 พันล้านที่เป็นที่นิยม ในขณะเดียวกัน Lens ยังบรรลุประสิทธิภาพการฝึกอบรมที่สูงสุด โดยในการทดสอบแบบปกติที่ใช้พลังการประมวลผล BF16 TFLOPS สูงสุด (ไม่รวมต้นทุนการสร้างคำอธิบายใหม่) การฝึกอบรมใช้พลังการประมวลผลเพียงประมาณ 19.3% ของ Z-Image จาก Alibaba Tongyi Lab การปรับปรุงทั้งข้อมูลและสถาปัตยกรรมคือหัวใจหลักในการลดต้นทุนการฝึกอบรม ชุดข้อมูลการฝึกอบรม Lens-800M ประกอบด้วย 800 ล้านคู่ภาพ-ข้อความ แตกต่างจากการติดป้ายข้อความสั้นแบบดั้งเดิม ตัวอย่างทั้งหมดถูกสร้างโดย GPT-4.1 โดยมีความยาวเฉลี่ยของคำสั่งถึง 109 คำ ซึ่งมีความหนาแน่นของข้อมูลเชิงความหมายสูงมาก สถาปัตยกรรมโมเดลใช้ MMDiT blocks จำนวน 48 บล็อก และ FLUX.2 semantic VAE คุณลักษณะข้อความมาจาก GPT-OSS โดยการเชื่อมต่อคุณลักษณะจากชั้นที่ 4, 12, 18 และ 24 เพื่อเพิ่มประสิทธิภาพในการปฏิบัติตามคำสั่งและการทั่วไปหลายภาษา สำหรับสภาพแวดล้อมการใช้งานที่แตกต่างกัน ไมโครซอฟท์ได้เผยแพร่เวอร์ชันน้ำหนักสามแบบ ได้แก่ เวอร์ชันเริ่มต้น Lens ที่ผ่านการปรับแต่งด้วยการเรียนรู้แบบเสริมแรง (RL-tuned) โดยใช้ GPU NVIDIA H100 เพียงหนึ่งตัว ใช้เวลา 3.15 วินาทีในการสร้างภาพขนาด 1024x1024 ใน 20 ก้าว เวอร์ชันเร่งความเร็วแบบถ่ายโอน (Lens-Turbo) สามารถทำการอนุมานในเพียง 4 ก้าว และสร้างภาพในความละเอียดเท่ากันภายในเวลาเพียง 0.84 วินาที ส่วนเวอร์ชันพื้นฐาน (Lens-Base) เป็นโมเดลพื้นฐานแบบบริสุทธิ์โดยไม่มี RL และไม่มีการถ่ายโอน โดยทำงานเริ่มต้นด้วยการสร้างภาพใน 50 ก้าว โมเดลชุดนี้รองรับอัตราส่วนกว้างต่อสูงแบบใดก็ได้ระหว่าง 1:2 ถึง 2:1 และสามารถสร้างความละเอียดผสมสูงสุดถึง 1440x1440 โดยตรง เวอร์ชันน้ำหนักของโมเดลที่เกี่ยวข้องได้รับการเผยแพร่บน Hugging Face โดยมีทางเข้าในรูปแบบ Safetensors และ Diffusers โดยใช้ใบอนุญาต MIT และรหัสการอนุมานได้รับการโฮสต์พร้อมกันบน GitHub การรวมกันระหว่างความหนาแน่นของข้อมูลสูงและการอนุมานที่เร็วมากช่วยลดอุปสรรคในการปรับใช้และทำซ้ำโมเดล Diffusion Transformer ขนาดใหญ่สำหรับนักพัฒนาส่วนบุคคลและชุมชนทางวิชาการ (ที่มา: BlockBeats)

แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา