Qwen-Image-Bench lançado como código aberto pela Alibaba, GPT Image 2 lidera em cinco categorias

ME AI Notícia, conforme monitorado pela Beating, a equipe Qwen da Alibaba anunciou a liberação aberta do novo benchmark de avaliação de geração de imagens, Qwen-Image-Bench, projetado especificamente para avaliar a capacidade de grandes modelos de gerar imagens a partir de texto (denominado T2I, ou entrada de texto para geração automática de imagens). Paralelamente, foi lançado o modelo unificado de julgamento visual Q-Judger, treinado profundamente com base no Qwen3.6-27B. O benchmark simula o fluxo de trabalho profissional de criação artística, incluindo cinco dimensões principais: qualidade da imagem, estética, alinhamento entre texto e imagem, além das novas dimensões de fidelidade ao mundo real e geração criativa, com 23 subcapacidades e 56 métricas detalhadas. O Qwen-Image-Bench contém 1.000 prompts bilíngues em chinês e inglês, com 500 descrições curtas e 500 longas, avaliando em média mais de quatro dimensões simultaneamente. Para uma avaliação precisa, o modelo Q-Judger foi submetido a revisão cega e rotulagem triplicada sob a supervisão de 80 especialistas de escolas de arte, com um conjunto de treinamento que abrange mais de 130.000 pares rotulados por especialistas bilíngues. O modelo gera pontuações estruturadas em 56 dimensões, com uma concordância de até 92% com as avaliações humanas. Os resultados iniciais da avaliação de 18 principais modelos de geração de imagens mostram que o GPT Image 2 lidera com uma pontuação geral de 64,69, ocupando o primeiro lugar em todas as cinco dimensões. O Nano Banana 2.0 obteve 59,82, o GPT Image 1.5 obteve 59,65 e o Nano Banana Pro obteve 59,45, ocupando respectivamente os segundos, terceiros e quartos lugares. O Qwen Image 2.0 Pro, desenvolvido internamente pela Alibaba, ficou em quinto lugar com 57,84, enquanto o GLM Image ficou em último lugar com 48,19. Os dados indicam que a fidelidade ao mundo real e a geração criativa são os indicadores-chave que diferenciam os níveis dos modelos. A avaliação também revelou gargalos tecnológicos comuns na indústria atual: modelos de geração de imagens por IA frequentemente erram em detalhes como esqueleto das mãos humanas, representação de leis físicas como gravidade e iluminação, e tratamento de sobreposições entre objetos; mesmo os modelos mais avançados obtiveram pontuações inferiores a 44 nesses aspectos. (Fonte: BlockBeats)