Qwen-Image-Bench відкрито Alibaba, GPT Image 2 посідає перше місце у п’яти категоріях

ME AI Новина: за даними моніторингу Beating, команда Qwen Alibaba оголосила про відкритий вихід нового тестового набору для оцінки генерації зображень — Qwen-Image-Bench, який спеціалізується на оцінці здатності великих моделей перетворювати текст на зображення (скорочено T2I — текст до зображення). Разом із цим було запущено уніфіковану візуальну модель-суддю Q-Judger, навчену на основі Qwen3.6-27B. Тестовий набір імітує професійний художній робочий процес і оцінює п’ять основних аспектів: якість зображення, естетика, відповідність тексту та зображення, а також нові показники реалістичності у світі та креативна генерація — з 23 підможливостями та 56 детальними метриками. Qwen-Image-Bench містить 1000 двомовних ієрархічних промптів — по 500 коротких і довгих описів, при цьому в середньому оцінюється більше чотирьох аспектів одночасно. Для точного тестування модель Q-Judger проходила сліпу оцінку та трьохступеневе позначення під наглядом 80 професійних експертів з художніх університетів; навчальний набір даних включає понад 130 000 пар експертних двомовних позначень. Модель видає структуровані оцінки за 56 аспектами, що збігаються з оцінками людських експертів на 92%. У першому раунді оцінки 18 найпопулярніших моделей генерації зображень GPT Image 2 посів перше місце з загальним балом 64,69, зайнявши перше місце у всіх п’яти категоріях. Nano Banana 2.0 отримав 59,82, GPT Image 1.5 — 59,65, Nano Banana Pro — 59,45 — це друге, третє та четверте місця відповідно. Власна модель Alibaba Qwen Image 2.0 Pro посіла п’яте місце з результатом 57,84, а GLM Image зайняла останнє місце з 48,19. Дані свідчать, що реалістичність у світі та креативна генерація є ключовими показниками для розподілу моделей за рівнями. Оцінка також виявила загальну технічну бар’єрну точку галузі: AI-моделі часто помиляються при малюванні кистей рук, передачі фізичних законів — гравітації та світла, а також при обробці деталей, таких як перетин об’єктів; навіть лідери галузі отримали менше 44 балів за цими аспектами. (Джерело: BlockBeats)