Qwen-Image-Bench ay inilabas ng Alibaba, GPT Image 2 ang nangunguna sa limang kategorya

ME AI mensahe, ayon sa pagmamasid ng Beating, ang team ng Alibaba Qwen ay nag-anunsyo ng pag-open source ng bagong benchmark para sa pag-evaluate ng paggawa ng imahe, ang Qwen-Image-Bench, na espesyal na ginawa para sa pag-evaluate ng kakayahan ng malalaking modelo sa paggawa ng imahe mula sa teksto (tinatawag na T2I, o automatic image generation mula sa text). Kasabay nito, ipinakilala rin ang Q-Judger, isang unibersal na visual judge model na binuo sa pamamagitan ng malalim na pagtuturo gamit ang Qwen3.6-27B. Ang benchmark ay sumasalamin sa propesyonal na proseso ng sining, at naglalaman ng limang pangunahing dimensyon: kalidad ng imahe, estetika, pagkakasundo ng teksto at imahe, at ang bagong idinagdag na real-world fidelity at creative generation, na may 23 na sub-kakayahan at 56 na detalyadong indikador. Ang Qwen-Image-Bench ay naglalaman ng 1,000 na multi-lingual prompts na may parehong bilang ng maikli at mahabang deskripsyon (500 bawat isa), at nagtatasa nang sabay-sabay sa higit sa apat na dimensyon. Para sa mas detalyadong pag-evaluate, ang Q-Judger visual judge model ay tinuruan sa ilalim ng pagmamasid ng 80 propesyonal na tagapagsuri mula sa mga akademya ng sining, na gumawa ng blind review at triple annotation. Ang dataset para sa pagtuturo ay naglalaman ng higit sa 130,000 na bilingual expert-labeled pairs. Ang modelo ay nagbibigay ng 56 na structured score na may 92% na pagkakatugma sa mga marka ng mga tao. Sa unang pagtataya sa 18 pangunahing image generation models, ang GPT Image 2 ay nakuha ang pinakamataas na pambuong marka na 64.69 at nasa unang lugar sa lahat ng limang dimensyon. Ang Nano Banana 2.0 ay may marka na 59.82, ang GPT Image 1.5 ay 59.65, at ang Nano Banana Pro ay 59.45, na nasa ikalawa, ikatlo, at ikaapat na lugar. Ang sariling inimbento ng Alibaba na Qwen Image 2.0 Pro ay nasa ika-limang lugar na may marka na 57.84, habang ang GLM Image ay nasa huling lugar na may marka na 48.19. Ang data ay nagpapakita na ang real-world fidelity at creative generation ang mga pangunahing indikador na nagpapagawang hiwalay ang mga modelo. Ang pagtataya ay nagpapakita rin ng karaniwang teknikal na hadlang sa industriya: sa paggawa ng mga kamay at buto, pagpapakita ng gravity at light/shadow, at paghawak ng mga detalye tulad ng object interpenetration, ang mga AI image models ay karaniwang nagkakamali, at kahit ang pinakamataas na modelo ay may marka na mas mababa sa 44 sa mga dimensyon na ito. (Pinagkunan: BlockBeats)