Nucleus-Image disponibilizado como código aberto com 17B parâmetros, 2B ativados por inferência

Notícia da ME, 16 de abril (UTC+8): De acordo com monitoramento da Beating, a equipe Nucleus AI lançou o modelo de geração de imagem a partir de texto Nucleus-Image, disponibilizando simultaneamente os pesos do modelo, o código de treinamento e o conjunto de dados de treinamento sob licença Apache 2.0, permitindo uso comercial. O modelo utiliza uma arquitetura de transformador de difusão com especialistas esparsos (MoE), com um total de 17B parâmetros distribuídos em 64 especialistas de roteamento por camada, ativando apenas cerca de 2B parâmetros durante cada inferência, resultando em custo de inferência significativamente inferior ao de modelos densos com mesma escala de parâmetros. Em três benchmarks padrão, o Nucleus-Image empatou ou superou modelos líderes fechados: pontuação GenEval de 0,87, empatando com o modelo de imagem Qwen; na subcategoria de posição espacial (0,85), lidera todos os modelos comparados; pontuação DPG-Bench de 88,79, em primeiro lugar geral; pontuação OneIG-Bench de 0,522, superando o Google Imagen4 (0,515) e o Recraft V3 (0,502). Todos esses resultados foram obtidos exclusivamente com pré-treinamento, sem DPO, aprendizado por reforço ou otimização baseada em preferências humanas. A Nucleus AI afirma oficialmente que se trata do "primeiro modelo MoE de difusão totalmente aberto nesta faixa de qualidade". Os dados de treinamento foram coletados em larga escala na web, filtrados, removidos duplicatas e avaliados por estética, resultando em 700 milhões de imagens e 1,5 bilhão de pares imagem-texto; o treinamento ocorreu em três estágios, avançando progressivamente da resolução de 256 para 1024, totalizando 1,7 milhão de passos. O codificador de texto utiliza o Qwen3-VL-8B-Instruct, acessado por meio da biblioteca diffusers, com cache KV de texto integrado entre etapas de desruído, reduzindo ainda mais o custo de inferência. Para desenvolvedores que precisam implantar geração de imagens localmente, o design de 17B parâmetros com apenas 2B ativados torna possível a execução em GPUs de consumo. A abertura completa (pesos + código de treinamento + conjunto de dados) é rara — a maioria dos modelos de imagem abertos disponibiliza apenas os pesos, mantendo os conjuntos de dados e detalhes do treinamento fechados, sendo um dos principais gargalos para pesquisas reprodutíveis no campo de geração de imagem a partir de texto. (Fonte: BlockBeats)