Alibaba, Qwen-Image-Bench'i Açık Kaynak Hale Getirdi, GPT Image 2 Beş Kategoride Birinci Oldu

ME AI Haberi, Beating İzleme tarafından raporlanan bilgiye göre, Alibaba Qwen ekibi, metinden görsel oluşturma (T2I, yani metin girişiyle otomatik resim üretme) yeteneğini değerlendirmek için özel olarak tasarlanmış yeni bir görsel değerlendirme standardı olan Qwen-Image-Bench’i açık kaynak olarak duyurdu. Aynı zamanda Qwen3.6-27B ile derinlemesine eğitilmiş olan tek bir görsel yargıç modeli olan Q-Judger de tanıtıldı. Değerlendirme standardı, profesyonel sanatsal üretim akışını simüle eder ve kalite, estetik, metin ile görsel uyumu ile yeni eklenen gerçek dünya gerçekçiliği ve yaratıcı üretim olmak üzere 5 ana boyutu içerir; bu boyutlar altında 23 alt yetenek ve 56 ayrı metrik yer alır. Qwen-Image-Bench, 1000 adet İngilizce ve Çince ikili yönerge içerir; uzun ve kısa açıklamalar her biri 500 adettir ve ortalama olarak 4’ten fazla boyut aynı anda değerlendirilir. Detaylı değerlendirme amacıyla, Q-Judger görsel yargıç modeli, sanat üniversitelerinden gelen 80 profesyonel jüri tarafından çift taraflı incelemeler ve üçlü değerlendirme ile etiketlenmiştir; eğitim veri seti, 130.000’den fazla ikili uzman etiketlemesini kapsamaktadır. Model, 56 boyutta yapılandırılmış puanlar üretir ve insan uzman puanlamalarıyla %92 oranında uyum sağlar. İlk 18 ana akım görsel üretim modelinin değerlendirilmesi sonuçlarına göre, GPT Image 2, 64.69 toplam puanla birinci oldu ve tüm 5 boyutta birinci oldu. Nano Banana 2.0 %59.82, GPT Image 1.5 %59.65, Nano Banana Pro %59.45 puan alarak sırasıyla ikinci, üçüncü ve dördüncü oldu; Alibaba’nın kendi geliştirdiği Qwen Image 2.0 Pro %57.84 puanla beşinci oldu; GLM Image ise %48.19 puanla son sırada yer aldı. Veriler, gerçek dünya gerçekçiliği ve yaratıcı üretim indekslerinin modeller arasında fark yaratan kilit göstergeler olduğunu göstermektedir. Değerlendirme ayrıca, şu anda endüstride ortak bir teknik sınırlama olduğunu ortaya koydu: insan el kemiklerini çizme, yerçekimi ve ışık-gölge gibi fiziksel kuralları ifade etme ve nesneler arası çakışma gibi detayları işleme konularında AI resim modelleri genellikle hata yapmaktadır; en üst düzey modellerin bile bu boyutlardaki puanları 44’ün altındadır. (Kaynak: BlockBeats)