Qwen-Image-Bench được Alibaba phát hành mã nguồn mở, GPT Image 2 dẫn đầu trong năm danh mục

ME AI tin tức, theo giám sát của Beating, nhóm Qwen của Alibaba đã công bố mở nguồn benchmark đánh giá hình ảnh mới Qwen-Image-Bench, được thiết kế đặc biệt để đánh giá khả năng của các mô hình lớn trong việc tạo hình ảnh từ văn bản (viết tắt là T2I, tức là nhập văn bản để tự động vẽ hình ảnh). Đồng thời, họ cũng ra mắt mô hình đánh giá thị giác thống nhất Q-Judger được huấn luyện sâu dựa trên Qwen3.6-27B. Benchmark này mô phỏng quy trình sáng tạo nghệ thuật chuyên nghiệp, bao gồm 5 chiều: chất lượng hình ảnh, thẩm mỹ, sự căn chỉnh giữa văn bản và hình ảnh, cùng với hai chỉ số mới là độ chân thực trong thế giới thực và khả năng sáng tạo, với 23 năng lực con và 56 chỉ số chi tiết. Qwen-Image-Bench bao gồm 1.000 prompt song ngữ Trung-Anh, với 500 prompt ngắn và 500 prompt dài, trung bình đánh giá đồng thời hơn 4 chiều. Để đánh giá chi tiết, mô hình Q-Judger đã được gán nhãn thông qua đánh giá mù và đánh giá ba lần dưới sự giám sát của 80 chuyên gia từ các trường nghệ thuật, với bộ dữ liệu huấn luyện bao gồm hơn 130.000 cặp gán nhãn chuyên gia song ngữ. Mô hình đầu ra các điểm số cấu trúc theo 56 chiều, đạt độ khớp lên tới 92% so với điểm số do chuyên gia con người đưa ra. Kết quả đánh giá ban đầu trên 18 mô hình tạo hình ảnh phổ biến cho thấy GPT Image 2 dẫn đầu với điểm tổng hợp 64,69 và đứng đầu ở cả 5 chiều. Nano Banana 2.0 đạt 59,82, GPT Image 1.5 đạt 59,65, Nano Banana Pro đạt 59,45, lần lượt xếp hạng hai, ba, bốn; Qwen Image 2.0 Pro do Alibaba tự phát triển xếp thứ năm với 57,84, trong khi GLM Image đứng cuối với 48,19. Dữ liệu cho thấy độ chân thực trong thế giới thực và khả năng sáng tạo là các chỉ số then chốt phân biệt các nhóm mô hình. Đánh giá cũng làm rõ các điểm nghẽn kỹ thuật chung hiện nay trong ngành: các mô hình vẽ AI thường dễ mắc lỗi khi xử lý xương tay người, biểu hiện các quy luật vật lý như trọng lực và ánh sáng, cũng như các chi tiết như vật thể chồng lấn nhau — ngay cả các mô hình hàng đầu cũng đều có điểm số dưới 44 ở các chiều này. (Nguồn: BlockBeats)