Qwen-Image-Bench ouvert par Alibaba, GPT Image 2 en tête dans cinq catégories

ME AI Message, selon le suivi de Beating, l'équipe Qwen d'Alibaba a annoncé l'ouverture du nouveau benchmark d'évaluation d'images Qwen-Image-Bench, spécifiquement conçu pour évaluer la capacité des grands modèles à générer des images à partir de texte (T2I, ou génération d'images à partir de texte). En parallèle, un modèle unifié de jugement visuel, Q-Judger, a été développé à partir d'un entraînement approfondi sur Qwen3.6-27B. Le benchmark simule un flux de travail artistique professionnel et évalue cinq dimensions : qualité d'image, esthétique, alignement texte-image, ainsi que la fidélité au monde réel et la génération créative, comprenant 23 sous-capacités et 56 indicateurs détaillés. Qwen-Image-Bench contient 1 000 prompts bilingues chinois-anglais, répartis équitablement entre 500 descriptions courtes et 500 longues, évaluant en moyenne plus de quatre dimensions simultanément. Pour une évaluation fine, le modèle Q-Judger a été annoté en aveugle et en triple évaluation sous la supervision de 80 experts provenant d'écoles d'art, avec un jeu de données d'entraînement comprenant plus de 130 000 paires annotées par des experts bilingues. Le modèle produit des scores structurés sur les 56 dimensions, avec une corrélation de 92 % avec les notes attribuées par des experts humains. Les résultats initiaux d'évaluation de 18 modèles principaux de génération d'images montrent que GPT Image 2 obtient le meilleur score global de 64,69 et se classe premier dans toutes les cinq dimensions. Nano Banana 2.0 obtient 59,82, GPT Image 1.5 obtient 59,65, et Nano Banana Pro obtient 59,45, se classant respectivement deuxième, troisième et quatrième. Qwen Image 2.0 Pro, développé en interne par Alibaba, se classe cinquième avec un score de 57,84, tandis que GLM Image termine dernier avec un score de 48,19. Les données indiquent que la fidélité au monde réel et la génération créative sont les indicateurs clés qui distinguent les niveaux des modèles. L'évaluation révèle également des goulets d'étranglement technologiques communs à l'industrie : les modèles d'IA pour la génération d'images commettent fréquemment des erreurs sur les os des mains humaines, la représentation des lois physiques telles que la gravité et la lumière, ainsi que sur les détails tels que les chevauchements d'objets ; même les meilleurs modèles obtiennent tous moins de 44 points sur ces dimensions. (Source : BlockBeats)