अलीबाबा द्वारा Qwen-Image-Bench ओपन-सोर्स किया गया, GPT Image 2 पांच श्रेणियों में शीर्ष पर

ME AI की सूचना, डिनामिक चेक द्वारा मॉनिटर किए जाने पर, अलीबाबा के Qwen टीम ने Qwen-Image-Bench नामक एक नया ओपन-सोर्स इमेज एवलुएशन बेंचमार्क लॉन्च किया है, जो बड़े मॉडल्स की टेक्स्ट-टू-इमेज (T2I) क्षमता—अर्थात् टेक्स्ट इनपुट के आधार पर चित्र उत्पन्न करने की क्षमता—का मूल्यांकन करने के लिए विशेष रूप से डिज़ाइन किया गया है। साथ ही, Qwen3.6-27B पर गहन प्रशिक्षण के आधार पर एक समानीकृत विजुअल जज मॉडल Q-Judger भी लॉन्च किया गया है। बेंचमार्क एक पेशेवर कला सृजन प्रवाह का अनुकरण करता है, जिसमें छवि गुणवत्ता, सौंदर्य, पाठ और छवि का समन्वय, और नवीनतम वास्तविक दुनिया की सटीकता तथा रचनात्मकता—कुल 5 मुख्य पहलुओं को शामिल किया गया है, जिनमें 23 सब-क्षमताएँ और 56 विस्तृत सूचक हैं। Qwen-Image-Bench में 1000 मध्य-अंग्रेजी द्विभाषी प्रॉम्प्ट हैं, जिनमें से 500 लंबे और 500 छोटे हैं, और औसतन 4 से अधिक पहलुओं का मूल्यांकन किया जाता है। सूक्ष्म मूल्यांकन के लिए, Q-Judger विजुअल जज मॉडल को कला संस्थानों से 80 पेशेवर समीक्षकों के मार्गदर्शन में, अंधा मूल्यांकन और त्रि-समीक्षा प्रक्रिया के माध्यम से प्रशिक्षित किया गया है, जिसमें 1.3 लाख से अधिक द्विभाषी पेशेवर-अंकित जोड़े शामिल हैं। मॉडल 56 पहलुओं के संरचित स्कोर प्रदान करता है, जो मानव-विशेषज्ञों के स्कोर से 92% सहमति प्रदर्शित करता है। पहले 18 प्रमुख इमेज-जनरेशन मॉडल्स के मूल्यांकन के परिणामों के अनुसार, GPT Image 2 64.69 के समग्र स्कोर के साथ पहले स्थान पर है, और सभी 5 मुख्य पहलुओं में प्रथम है। Nano Banana 2.0 का स्कोर 59.82 है, GPT Image 1.5 का 59.65 है, Nano Banana Pro का 59.45 है, जो क्रमशः दूसरे, तीसरे, और चौथे स्थान पर हैं। Alibaba के स्वयं के Qwen Image 2.0 Pro का स्कोर 57.84 है, जो पाँचवें स्थान पर है, जबकि GLM Image 48.19 के साथ सबसे पीछे है। डेटा से पता चलता है कि वास्तविक-दुनिया की सटीकता और रचनात्मकता मॉडलों के समूहों को प्रभावित करने में महत्वपूर्ण सूचक हैं। मूल्यांकन में पता चला है कि पेशेवरों में समान सीमाएँ हैं—हाथों की हड्डियों, गुरुत्वाकर्षण, प्रकाश-छाया, और वस्तुओं के मध्य प्रवेश (clipping) की समस्याओं में AI-चित्रण मॉडल सामान्यतः त्रुटि करते हैं, और सबसे शीर्ष मॉडलों के सभी पहलुओं पर स्कोर 44 से कम ही है। (स्रोत: BlockBeats)