Qwen-Image-Bench Dibuka Sumber oleh Alibaba, GPT Image 2 Menduduki Puncak Dalam Lima Kategori

ME AI mesej, menurut pemantauan Beating, pasukan Qwen Alibaba mengumumkan pelancaran benchmark penilaian gambar terbuka baru, Qwen-Image-Bench, yang khusus digunakan untuk menilai kemampuan model besar dalam menghasilkan gambar daripada teks (dikenali sebagai T2I, iaitu menghasilkan gambar secara automatik daripada teks). Bersamaan dengan itu, model penilai visual seragam Q-Judger yang dilatih mendalam berdasarkan Qwen3.6-27B juga dilancarkan. Benchmark ini mensimulasikan alur kerja kreatif seni profesional, yang merangkumi lima dimensi utama: kualiti gambar, estetika, keselarasan teks dengan gambar, serta keaslian dunia nyata dan penciptaan kreatif yang baru ditambahkan, dengan 23 kemampuan sub dan 56 indikator halus. Qwen-Image-Bench mengandungi 1,000 petunjuk dwibahasa Cina-Inggeris, dengan 500 petunjuk panjang dan 500 petunjuk pendek, secara purata menilai lebih daripada empat dimensi secara serentak. Untuk penilaian yang tepat, model penilai visual Q-Judger menjalani penilaian buta dan penandaan tiga peringkat di bawah pengawasan 80 penilai profesional dari sekolah seni, dengan set data latihan yang merangkumi lebih daripada 130,000 pasangan penandaan pakar dwibahasa. Model ini mengeluarkan skor terstruktur dalam 56 dimensi, dengan keserasian sebanyak 92% dengan skor yang diberikan oleh pakar manusia. Hasil penilaian awal terhadap 18 model penghasilan gambar utama menunjukkan bahawa GPT Image 2 memperoleh skor komprehensif 64.69 dan menduduki tempat pertama di semua lima dimensi. Nano Banana 2.0 memperoleh skor 59.82, GPT Image 1.5 memperoleh skor 59.65, dan Nano Banana Pro memperoleh skor 59.45, masing-masing menduduki tempat kedua, ketiga, dan keempat. Qwen Image 2.0 Pro buatan sendiri Alibaba menduduki tempat kelima dengan skor 57.84, manakala GLM Image berada di tempat terakhir dengan skor 48.19. Data menunjukkan bahawa keaslian dunia nyata dan penciptaan kreatif adalah indikator utama yang membezakan peringkat model. Penilaian ini juga mengungkapkan cabaran teknikal bersama dalam industri semasa: model penghasilan gambar AI secara umum mudah membuat kesilapan dalam menggambarkan kerangka tangan manusia, mengekspresikan hukum fizikal seperti graviti dan cahaya, serta menangani butiran seperti objek yang saling tembus. Skor model terkemuka dalam dimensi-dimensi ini juga semuanya di bawah 44. (Sumber: BlockBeats)