ข่าวจาก ME News เมื่อวันที่ 25 พฤษภาคม (UTC+8) ตามการติดตามของ Beating ไมโครซอฟท์เปิดตัวชุดโมเดลพื้นฐานสำหรับการสร้างภาพจากข้อความ Lens ที่มีพารามิเตอร์ 3.8 พันล้าน โดยรักษาและ vượtประสิทธิภาพของโมเดลระดับ 6 พันล้านที่เป็นที่นิยม ในขณะเดียวกัน Lens ยังบรรลุประสิทธิภาพการฝึกอบรมที่สูงสุด โดยในการทดสอบแบบปกติที่ใช้พลังการประมวลผล BF16 TFLOPS สูงสุด (ไม่รวมต้นทุนการสร้างคำอธิบายใหม่) การฝึกอบรมใช้พลังการประมวลผลเพียงประมาณ 19.3% ของ Z-Image จาก Alibaba Tongyi Lab การปรับปรุงทั้งข้อมูลและสถาปัตยกรรมคือหัวใจหลักในการลดต้นทุนการฝึกอบรม ชุดข้อมูลการฝึกอบรม Lens-800M ประกอบด้วย 800 ล้านคู่ภาพ-ข้อความ แตกต่างจากการติดป้ายข้อความสั้นแบบดั้งเดิม ตัวอย่างทั้งหมดถูกสร้างโดย GPT-4.1 โดยมีความยาวเฉลี่ยของคำสั่งถึง 109 คำ ซึ่งมีความหนาแน่นของข้อมูลเชิงความหมายสูงมาก สถาปัตยกรรมโมเดลใช้ MMDiT blocks จำนวน 48 บล็อก และ FLUX.2 semantic VAE คุณลักษณะข้อความมาจาก GPT-OSS โดยการเชื่อมต่อคุณลักษณะจากชั้นที่ 4, 12, 18 และ 24 เพื่อเพิ่มประสิทธิภาพในการปฏิบัติตามคำสั่งและการทั่วไปหลายภาษา สำหรับสภาพแวดล้อมการใช้งานที่แตกต่างกัน ไมโครซอฟท์ได้เผยแพร่เวอร์ชันน้ำหนักสามแบบ ได้แก่ เวอร์ชันเริ่มต้น Lens ที่ผ่านการปรับแต่งด้วยการเรียนรู้แบบเสริมแรง (RL-tuned) โดยใช้ GPU NVIDIA H100 เพียงหนึ่งตัว ใช้เวลา 3.15 วินาทีในการสร้างภาพขนาด 1024x1024 ใน 20 ก้าว เวอร์ชันเร่งความเร็วแบบถ่ายโอน (Lens-Turbo) สามารถทำการอนุมานในเพียง 4 ก้าว และสร้างภาพในความละเอียดเท่ากันภายในเวลาเพียง 0.84 วินาที ส่วนเวอร์ชันพื้นฐาน (Lens-Base) เป็นโมเดลพื้นฐานแบบบริสุทธิ์โดยไม่มี RL และไม่มีการถ่ายโอน โดยทำงานเริ่มต้นด้วยการสร้างภาพใน 50 ก้าว โมเดลชุดนี้รองรับอัตราส่วนกว้างต่อสูงแบบใดก็ได้ระหว่าง 1:2 ถึง 2:1 และสามารถสร้างความละเอียดผสมสูงสุดถึง 1440x1440 โดยตรง เวอร์ชันน้ำหนักของโมเดลที่เกี่ยวข้องได้รับการเผยแพร่บน Hugging Face โดยมีทางเข้าในรูปแบบ Safetensors และ Diffusers โดยใช้ใบอนุญาต MIT และรหัสการอนุมานได้รับการโฮสต์พร้อมกันบน GitHub การรวมกันระหว่างความหนาแน่นของข้อมูลสูงและการอนุมานที่เร็วมากช่วยลดอุปสรรคในการปรับใช้และทำซ้ำโมเดล Diffusion Transformer ขนาดใหญ่สำหรับนักพัฒนาส่วนบุคคลและชุมชนทางวิชาการ (ที่มา: BlockBeats)
Microsoft เปิดแหล่งที่มาของโมเดลข้อความเป็นภาพ Lens ขนาด 3.8 พันล้านพารามิเตอร์ พร้อมเวลาการประมวลผล 0.84 วินาที
KuCoinFlashแชร์






ไมโครซอฟท์ได้เปิดแหล่งที่มาของโมเดลข้อความเป็นภาพ Lens ขนาดพารามิเตอร์ 3.8 พันล้านเมื่อวันที่ 25 พฤษภาคม โดยคำนึงถึงการปฏิบัติตามข้อกำหนด CFT โมเดลนี้มีประสิทธิภาพเทียบเท่าโมเดลขนาด 6 พันล้านพารามิเตอร์ขึ้นไป แต่ลดต้นทุนการฝึกอบรม Lens-800M ใช้คำสั่ง GPT-4.1 โดยมีความยาวเฉลี่ย 109 คำ รองรับอัตราส่วน 1:2 ถึง 2:1 และความละเอียด 1440x1440 Lens-Turbo สร้างภาพขนาด 1024x1024 ในเวลา 0.84 วินาที น้ำหนักโมเดลสามารถเข้าถึงได้บน Hugging Face ภายใต้ใบอนุญาต MIT ซึ่งสอดคล้องกับมาตรฐาน MiCA
แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้
การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา