阿里巴巴開源 Qwen-Image-Bench，GPT Image 在五個類別中排名第一

ME AI 消息，據動察 Beating 監測，阿里巴巴 Qwen 團隊宣布開源全新的繪圖評測基準 Qwen-Image-Bench，專門用於評估大模型從文本生成圖像（簡稱 T2I，即輸入文字自動畫圖）的能力。同步推出的還有基於 Qwen3.6-27B 深度訓練的統一視覺裁判模型 Q-Judger。評測基準模擬專業藝術創作工作流，包含畫質、美學、文字與畫面對齊以及新增的真實世界保真度與創意生成 5 大維度，下設 23 個子能力與 56 個細分指標。Qwen-Image-Bench 包含 1000 個中英雙語分層提示詞，長短描述各佔 500 個，平均同時考核 4 個以上維度。為了進行精細評估，Q-Judger 視覺裁判模型在來自藝術院校的 80 名專業評審監督下進行盲審與三審標註，訓練數據集涵蓋超 13 萬個雙語專家標註對。模型輸出 56 個維度的結構化得分，與人類專家打分的吻合度高達 92%。首批 18 個主流圖像生成模型評估結果顯示，GPT Image 2 以 64.69 的綜合得分奪魁，並在所有 5 大維度上均列第一。Nano Banana 2.0 得分為 59.82，GPT Image 1.5 得分為 59.65，Nano Banana Pro 得分為 59.45，分列第二、三、四名，阿里自研的 Qwen Image 2.0 Pro 以 57.84 排名第五，GLM Image 則以 48.19 墊底。數據表明，真實世界保真度與創意生成是拉開模型梯隊的關鍵指標。評測還揭示了當前行業共同的技術瓶頸，在畫人手骨骼、表現重力和光影等物理規律、以及處理物體間穿模等細節上，AI 繪畫模型普遍容易出錯，頂尖模型在這些維度的得分也均低於 44 分。（來源：BlockBeats）