เปิดตัวแบบโอเพ่นซอร์สโดย Alibaba: Qwen-Image-Bench, GPT Image 2 ครองอันดับหนึ่งในห้าหมวดหมู่

ME AI ข่าว ตามการตรวจสอบของ Beating ทีม Qwen ของ Alibaba ได้ประกาศเปิดแหล่งรหัสฐานข้อมูลการประเมินภาพใหม่ล่าสุดชื่อ Qwen-Image-Bench ซึ่งออกแบบมาเพื่อประเมินความสามารถของโมเดลขนาดใหญ่ในการสร้างภาพจากข้อความ (เรียกว่า T2I หรือการสร้างภาพอัตโนมัติจากข้อความ) พร้อมกันนี้ยังเปิดตัวโมเดลผู้พิพากษาภาพแบบรวม Q-Judger ที่ผ่านการฝึกอย่างลึกซึ้งบน Qwen3.6-27B ฐานข้อมูลการประเมินจำลองกระบวนการสร้างสรรค์ศิลปะแบบมืออาชีพ ครอบคลุม 5 มิติหลัก ได้แก่ คุณภาพภาพ ความงาม การจัดตำแหน่งข้อความกับภาพ และมิติใหม่เพิ่มเติมคือความสมจริงในโลกจริงและการสร้างสรรค์เชิงนวัตกรรม โดยมี 23 ความสามารถย่อยและ 56 ตัวชี้วัดย่อย Qwen-Image-Bench มีคำแนะนำแบบสองภาษาจีน-อังกฤษจำนวน 1,000 ชุด โดยคำอธิบายสั้นและยาวมีจำนวนเท่ากันที่ 500 ชุด และเฉลี่ยแล้วประเมินมากกว่า 4 มิติพร้อมกัน เพื่อการประเมินอย่างละเอียด โมเดลผู้พิพากษาภาพ Q-Judger ได้รับการติดป้ายกำกับแบบไม่เปิดเผยตัวตนและผ่านการตรวจสอบสามรอบภายใต้การกำกับดูแลของผู้ประเมินมืออาชีพ 80 คนจากสถาบันศิลปะ โดยชุดข้อมูลการฝึกอบรมครอบคลุมมากกว่า 130,000 คู่คำแนะนำที่ผู้เชี่ยวชาญสองภาษาติดป้ายกำกับแล้ว โมเดลให้คะแนนแบบโครงสร้างทั้งหมด 56 มิติ โดยมีความสอดคล้องกับคะแนนจากผู้เชี่ยวชาญมนุษย์สูงถึง 92% จากผลการประเมินโมเดลสร้างภาพหลัก 18 รุ่นแรก GPT Image 2 ได้คะแนนรวม 64.69 และครองอันดับหนึ่งในทุกๆ 5 มิติ Nano Banana 2.0 ได้คะแนน 59.82 GPT Image 1.5 ได้คะแนน 59.65 และ Nano Banana Pro ได้คะแนน 59.45 ตามลำดับเป็นอันดับสองถึงสี่ ในขณะที่ Qwen Image 2.0 Pro ซึ่งพัฒนาโดย Alibaba เองได้คะแนน 57.84 และอยู่อันดับห้า ส่วน GLM Image มีคะแนนเพียง 48.19 ซึ่งต่ำที่สุด ข้อมูลแสดงว่าความสมจริงในโลกจริงและการสร้างสรรค์เชิงนวัตกรรมเป็นตัวชี้วัดหลักที่แยกแยะระดับของโมเดล การประเมินยังเปิดเผยว่าข้อจำกัดทางเทคนิคที่อุตสาหกรรมกำลังเผชิญร่วมกัน เช่น การวาดโครงกระดูกมือมนุษย์ การแสดงกฎฟิสิกส์เช่นแรงโน้มถ่วงและแสงเงา และการจัดการรายละเอียดเช่นการทับซ้อนของวัตถุ โมเดลสร้างภาพ AI มักเกิดข้อผิดพลาดในจุดเหล่านี้ และแม้แต่โมเดลชั้นนำก็ยังได้คะแนนต่ำกว่า 44 ในมิติเหล่านี้ทั้งหมด (ที่มา: BlockBeats)