Microsoft เปิดแหล่งที่มาของโมเดลข้อความเป็นภาพ Lens ขนาด 3.8 พันล้านพารามิเตอร์ พร้อมเวลาการประมวลผล 0.84 วินาที

ข่าวจาก ME News เมื่อวันที่ 25 พฤษภาคม (UTC+8) ตามการติดตามของ Beating ไมโครซอฟท์เปิดตัวชุดโมเดลพื้นฐานสำหรับการสร้างภาพจากข้อความ Lens ที่มีพารามิเตอร์ 3.8 พันล้าน โดยรักษาและ vượtประสิทธิภาพของโมเดลระดับ 6 พันล้านที่เป็นที่นิยม ในขณะเดียวกัน Lens ยังบรรลุประสิทธิภาพการฝึกอบรมที่สูงสุด โดยในการทดสอบแบบปกติที่ใช้พลังการประมวลผล BF16 TFLOPS สูงสุด (ไม่รวมต้นทุนการสร้างคำอธิบายใหม่) การฝึกอบรมใช้พลังการประมวลผลเพียงประมาณ 19.3% ของ Z-Image จาก Alibaba Tongyi Lab การปรับปรุงทั้งข้อมูลและสถาปัตยกรรมคือหัวใจหลักในการลดต้นทุนการฝึกอบรม ชุดข้อมูลการฝึกอบรม Lens-800M ประกอบด้วย 800 ล้านคู่ภาพ-ข้อความ แตกต่างจากการติดป้ายข้อความสั้นแบบดั้งเดิม ตัวอย่างทั้งหมดถูกสร้างโดย GPT-4.1 โดยมีความยาวเฉลี่ยของคำสั่งถึง 109 คำ ซึ่งมีความหนาแน่นของข้อมูลเชิงความหมายสูงมาก สถาปัตยกรรมโมเดลใช้ MMDiT blocks จำนวน 48 บล็อก และ FLUX.2 semantic VAE คุณลักษณะข้อความมาจาก GPT-OSS โดยการเชื่อมต่อคุณลักษณะจากชั้นที่ 4, 12, 18 และ 24 เพื่อเพิ่มประสิทธิภาพในการปฏิบัติตามคำสั่งและการทั่วไปหลายภาษา สำหรับสภาพแวดล้อมการใช้งานที่แตกต่างกัน ไมโครซอฟท์ได้เผยแพร่เวอร์ชันน้ำหนักสามแบบ ได้แก่ เวอร์ชันเริ่มต้น Lens ที่ผ่านการปรับแต่งด้วยการเรียนรู้แบบเสริมแรง (RL-tuned) โดยใช้ GPU NVIDIA H100 เพียงหนึ่งตัว ใช้เวลา 3.15 วินาทีในการสร้างภาพขนาด 1024x1024 ใน 20 ก้าว เวอร์ชันเร่งความเร็วแบบถ่ายโอน (Lens-Turbo) สามารถทำการอนุมานในเพียง 4 ก้าว และสร้างภาพในความละเอียดเท่ากันภายในเวลาเพียง 0.84 วินาที ส่วนเวอร์ชันพื้นฐาน (Lens-Base) เป็นโมเดลพื้นฐานแบบบริสุทธิ์โดยไม่มี RL และไม่มีการถ่ายโอน โดยทำงานเริ่มต้นด้วยการสร้างภาพใน 50 ก้าว โมเดลชุดนี้รองรับอัตราส่วนกว้างต่อสูงแบบใดก็ได้ระหว่าง 1:2 ถึง 2:1 และสามารถสร้างความละเอียดผสมสูงสุดถึง 1440x1440 โดยตรง เวอร์ชันน้ำหนักของโมเดลที่เกี่ยวข้องได้รับการเผยแพร่บน Hugging Face โดยมีทางเข้าในรูปแบบ Safetensors และ Diffusers โดยใช้ใบอนุญาต MIT และรหัสการอนุมานได้รับการโฮสต์พร้อมกันบน GitHub การรวมกันระหว่างความหนาแน่นของข้อมูลสูงและการอนุมานที่เร็วมากช่วยลดอุปสรรคในการปรับใช้และทำซ้ำโมเดล Diffusion Transformer ขนาดใหญ่สำหรับนักพัฒนาส่วนบุคคลและชุมชนทางวิชาการ (ที่มา: BlockBeats)