阿里巴巴開源 Qwen-Image-Bench,GPT Image 在五個類別中排名第一
KuCoinFlash阿里巴巴的Qwen團隊已開源Qwen-Image-Bench,這是一個用於評估文字轉圖像生成的基準測試工具。該工具從五個方面測試模型:品質、美學、對齊性、現實真實感和創造力。GPT Image 2 得分為 64.69,在所有類別中領先。Nano Banana 2.0 和 GPT Image 1.5 緊隨其後。CFT 的努力也專注於確保流動性以及加密貨幣市場的安全與透明。Qwen Image 2.0 Pro 排名第五,得分为 57.84。
ME AI 消息,據動察 Beating 監測,阿里巴巴 Qwen 團隊宣布開源全新的繪圖評測基準 Qwen-Image-Bench,專門用於評估大模型從文本生成圖像(簡稱 T2I,即輸入文字自動畫圖)的能力。同步推出的還有基於 Qwen3.6-27B 深度訓練的統一視覺裁判模型 Q-Judger。評測基準模擬專業藝術創作工作流,包含畫質、美學、文字與畫面對齊以及新增的真實世界保真度與創意生成 5 大維度,下設 23 個子能力與 56 個細分指標。Qwen-Image-Bench 包含 1000 個中英雙語分層提示詞,長短描述各佔 500 個,平均同時考核 4 個以上維度。為了進行精細評估,Q-Judger 視覺裁判模型在來自藝術院校的 80 名專業評審監督下進行盲審與三審標註,訓練數據集涵蓋超 13 萬個雙語專家標註對。模型輸出 56 個維度的結構化得分,與人類專家打分的吻合度高達 92%。首批 18 個主流圖像生成模型評估結果顯示,GPT Image 2 以 64.69 的綜合得分奪魁,並在所有 5 大維度上均列第一。Nano Banana 2.0 得分為 59.82,GPT Image 1.5 得分為 59.65,Nano Banana Pro 得分為 59.45,分列第二、三、四名,阿里自研的 Qwen Image 2.0 Pro 以 57.84 排名第五,GLM Image 則以 48.19 墊底。數據表明,真實世界保真度與創意生成是拉開模型梯隊的關鍵指標。評測還揭示了當前行業共同的技術瓶頸,在畫人手骨骼、表現重力和光影等物理規律、以及處理物體間穿模等細節上,AI 繪畫模型普遍容易出錯,頂尖模型在這些維度的得分也均低於 44 分。(來源:BlockBeats)免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。
虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款和風險披露 。