AlibabaがQwen-Image-Benchをオープンソース化、GPT Imageが5つのカテゴリで1位

ME AI ニュース、動察 Beating の監視によると、アリババのQwenチームは、テキストから画像を生成する（T2I、すなわちテキスト入力による自動描画）能力を評価するための新しい画像評価ベンチマーク「Qwen-Image-Bench」をオープンソース化すると発表しました。同時に、Qwen3.6-27Bを基に深くトレーニングされた統一的なビジュアルジャッジモデル「Q-Judger」もリリースされました。この評価ベンチマークは、専門的なアート制作ワークフローを模倣し、画質、美しさ、テキストと画像の整合性、そして新たに追加された現実世界の忠実度と創造的生成の5つの主要な次元を含み、23のサブ能力と56の細分化された指標を備えています。Qwen-Image-Benchには1,000の英中両言語階層的プロンプトが含まれ、長文と短文がそれぞれ500ずつあり、平均して4つ以上の次元を同時に評価します。細密な評価のために、Q-Judgerビジュアルジャッジモデルは芸術大学からの80人の専門審査員によるブラインドレビューと三重レビューによるアノテーションを経てトレーニングされ、そのトレーニングデータセットには13万組を超える両言語専門アノテーション対が含まれています。モデルは56の次元にわたる構造化されたスコアを出力し、人間専門家の評価との一致率は92％に達します。最初の18の主要な画像生成モデルの評価結果によると、GPT Image 2は総合スコア64.69で首位となり、すべての5つの次元で第1位を獲得しました。Nano Banana 2.0は59.82、GPT Image 1.5は59.65、Nano Banana Proは59.45で、それぞれ2位から4位となり、アリババ自社開発のQwen Image 2.0 Proは57.84で5位、GLM Imageは48.19で最下位となりました。データは、現実世界の忠実度と創造的生成がモデルのグレードを分ける鍵となる指標であることを示しています。評価はまた、現在の業界全体が直面する技術的ボトルネックを明らかにしました。人間の手の骨格の描写、重力や光と影といった物理法則の表現、物体間の穿模といった細部において、AI描画モデルは一般的にエラーを起こしやすく、トップモデルでもこれらの次元でのスコアはすべて44点未満です。（出典：BlockBeats）