Qwen-Image-Bench Dilepaskan Secara Terbuka oleh Alibaba, GPT Image 2 Unggul di Lima Kategori

ME AI Berita, menurut pemantauan Beating, tim Qwen dari Alibaba mengumumkan peluncuran benchmark evaluasi gambar open-source baru, Qwen-Image-Bench, yang dirancang khusus untuk mengevaluasi kemampuan model besar dalam menghasilkan gambar dari teks (disingkat T2I, yaitu menghasilkan gambar otomatis dari input teks). Secara bersamaan, mereka juga meluncurkan model penilai visual terpadu Q-Judger yang dilatih mendalam berdasarkan Qwen3.6-27B. Benchmark ini mensimulasikan alur kerja kreatif seni profesional, mencakup lima dimensi utama: kualitas gambar, estetika, keselarasan teks dan gambar, serta dua dimensi baru—fidelitas dunia nyata dan generasi kreatif—dengan 23 kemampuan sub dan 56 indikator rinci. Qwen-Image-Bench mencakup 1.000 prompt bilingual Cina-Inggris, dengan 500 deskripsi pendek dan 500 deskripsi panjang, rata-rata mengevaluasi lebih dari empat dimensi sekaligus. Untuk evaluasi yang lebih halus, model penilai visual Q-Judger menjalani penilaian buta dan annotasi tiga tahap di bawah pengawasan 80 juri profesional dari sekolah seni, dengan dataset pelatihan yang mencakup lebih dari 130.000 pasangan annotasi ahli bilingual. Model ini menghasilkan skor terstruktur pada 56 dimensi, dengan tingkat kesesuaian hingga 92% terhadap penilaian ahli manusia. Hasil evaluasi awal terhadap 18 model generasi gambar utama menunjukkan bahwa GPT Image 2 memperoleh skor komprehensif tertinggi 64,69 dan berada di peringkat pertama di semua lima dimensi. Nano Banana 2.0 mendapat skor 59,82, GPT Image 1.5 mendapat 59,65, dan Nano Banana Pro mendapat 59,45, masing-masing menempati peringkat dua, tiga, dan empat. Qwen Image 2.0 Pro buatan Alibaba berada di peringkat kelima dengan skor 57,84, sementara GLM Image berada di posisi terbawah dengan skor 48,19. Data menunjukkan bahwa fidelitas dunia nyata dan generasi kreatif adalah indikator kunci yang membedakan tingkatan model. Evaluasi ini juga mengungkapkan tantangan teknis umum di industri saat ini: model gambar AI umumnya sering salah dalam menggambarkan tulang tangan manusia, mengekspresikan hukum fisika seperti gravitasi dan pencahayaan, serta menangani detail seperti objek yang saling tumpang tindih; bahkan model teratas pun mendapat skor di bawah 44 pada dimensi-dimensi ini. (Sumber: BlockBeats)