Qwen-Image-Bench открыт Alibaba, GPT Image 2 лидирует в пяти категориях

ME AI Новость: согласно мониторингу Beating, команда Qwen от Alibaba объявила об открытии исходного кода нового набора для оценки генерации изображений — Qwen-Image-Bench, специально разработанного для оценки способности крупных моделей генерировать изображения из текста (T2I — текст в изображение). Одновременно был представлен унифицированный визуальный судья Q-Judger, глубоко обученный на основе Qwen3.6-27B. Набор для оценки имитирует профессиональный рабочий процесс художественного творчества и включает пять основных измерений: качество изображения, эстетика, согласованность текста и изображения, а также новые показатели реалистичности в реальном мире и креативной генерации, с 23 подспособностями и 56 детальными метриками. Qwen-Image-Bench содержит 1000 двуязычных (китайский/английский) иерархических промптов, по 500 коротких и длинных описаний каждый, одновременно оценивая в среднем более четырех измерений. Для точной оценки визуальная модель Q-Judger прошла слепую и тройную аннотацию под наблюдением 80 профессиональных рецензентов из художественных учебных заведений; обучающий набор данных включает более 130 000 пар двуязычных экспертных аннотаций. Модель выдает структурированные оценки по 56 измерениям, совпадающие с оценками человеческих экспертов на 92%. Результаты оценки первых 18 основных моделей генерации изображений показали, что GPT Image 2 занял первое место с общим баллом 64.69 и возглавил все пять измерений. Nano Banana 2.0 получил 59.82, GPT Image 1.5 — 59.65, Nano Banana Pro — 59.45, заняв второе, третье и четвертое места соответственно; собственная модель Alibaba Qwen Image 2.0 Pro заняла пятое место с результатом 57.84, а GLM Image замыкает список с 48.19. Данные показывают, что реалистичность в реальном мире и креативная генерация являются ключевыми показателями, определяющими разрыв между уровнями моделей. Оценка также выявила общие технические ограничения отрасли: AI-модели для рисования часто ошибаются при изображении костной структуры рук, передаче физических законов, таких как гравитация и светотень, а также при обработке деталей вроде пересечения объектов; даже топовые модели получили по этим параметрам менее 44 баллов. (Источник: BlockBeats)