Qwen-Image-Bench lanzado como código abierto por Alibaba, GPT Image 2 lidera en cinco categorías

ME AI Noticia: Según el monitoreo de Beating, el equipo Qwen de Alibaba ha anunciado la apertura del nuevo benchmark de evaluación de generación de imágenes Qwen-Image-Bench, diseñado específicamente para evaluar la capacidad de los modelos grandes de generar imágenes a partir de texto (T2I, es decir, generar imágenes automáticamente a partir de texto). Paralelamente, se lanzó el modelo unificado de evaluación visual Q-Judger, entrenado profundamente con Qwen3.6-27B. El benchmark simula un flujo de trabajo de creación artística profesional, incluyendo cinco dimensiones: calidad de la imagen, estética, alineación del texto con la imagen, y las nuevas dimensiones de fidelidad al mundo real y generación creativa, con 23 subcapacidades y 56 métricas detalladas. Qwen-Image-Bench contiene 1,000 prompts bilingües en chino e inglés, con 500 descripciones cortas y 500 largas, evaluando en promedio más de cuatro dimensiones simultáneamente. Para una evaluación precisa, el modelo Q-Judger fue sometido a revisiones ciegas y etiquetado por tres evaluadores bajo la supervisión de 80 expertos de escuelas de arte; el conjunto de datos de entrenamiento incluye más de 130,000 pares etiquetados por expertos bilingües. El modelo genera puntuaciones estructuradas en 56 dimensiones, con una concordancia del 92% respecto a las calificaciones otorgadas por expertos humanos. Los resultados iniciales de la evaluación de 18 modelos principales de generación de imágenes muestran que GPT Image 2 obtuvo la puntuación más alta con 64.69 y lideró en las cinco dimensiones. Nano Banana 2.0 obtuvo 59.82, GPT Image 1.5 obtuvo 59.65 y Nano Banana Pro obtuvo 59.45, ocupando los puestos segundo, tercero y cuarto respectivamente; Qwen Image 2.0 Pro, desarrollado por Alibaba, ocupó el quinto lugar con 57.84, mientras que GLM Image quedó en último lugar con 48.19. Los datos indican que la fidelidad al mundo real y la generación creativa son los indicadores clave que separan los niveles de los modelos. La evaluación también reveló cuellos de botella tecnológicos comunes en la industria: los modelos de generación de imágenes por IA tienden a cometer errores frecuentes en la representación de huesos humanos, la física como la gravedad y la luz, y en detalles como la superposición entre objetos; incluso los modelos líderes obtuvieron puntuaciones inferiores a 44 en estas dimensiones. (Fuente: BlockBeats)