Nucleus-Image liberado como código abierto con 17B parámetros, 2B activados por inferencia

Noticias de ME, 16 de abril (UTC+8): según el monitoreo de Beating, el equipo de Nucleus AI lanzó el modelo de generación de imágenes desde texto Nucleus-Image, liberando simultáneamente los pesos del modelo, el código de entrenamiento y el conjunto de datos de entrenamiento bajo la licencia Apache 2.0, apta para uso comercial. El modelo emplea una arquitectura de transformador difusivo de expertos mixtos dispersos (MoE), con un total de 17 mil millones de parámetros distribuidos en 64 expertos de enrutamiento por capa, activando solo aproximadamente 2 mil millones de parámetros durante cada inferencia, lo que reduce significativamente el costo de inferencia en comparación con modelos densos de igual escala de parámetros. En tres benchmarks estándar, Nucleus-Image empató e incluso superó a los modelos líderes cerrados: obtuvo una puntuación GenEval de 0.87, igualando al modelo de imágenes de Qwen, y lideró todos los modelos comparados en el subíndice de posición espacial (0.85); logró una puntuación DPG-Bench de 88.79, ocupando el primer lugar en general; y alcanzó una puntuación OneIG-Bench de 0.522, superando a Google Imagen4 (0.515) y Recraft V3 (0.502). Todos estos resultados provienen únicamente del preentrenamiento, sin ajustes mediante DPO, aprendizaje por refuerzo u optimización basada en preferencias humanas. Nucleus AI afirmó oficialmente que se trata del «primer modelo difusivo MoE completamente abierto de esta calidad». Los datos de entrenamiento se recopilaron a gran escala desde la web, filtrados, eliminados duplicados y evaluados por estética, conservando 700 millones de imágenes y generando 1.5 mil millones de pares imagen-texto; el entrenamiento se llevó a cabo en tres etapas, progresando desde una resolución de 256 hasta 1024, con un total de 1.7 millones de pasos. El codificador de texto utiliza Qwen3-VL-8B-Instruct, invocado a través de la biblioteca diffusers, e incorpora una caché KV de texto entre pasos de desruido para reducir aún más el costo de inferencia. Para desarrolladores que necesiten implementar generación de imágenes localmente, el diseño de 17 mil millones de parámetros con solo 2 mil millones activados permite su ejecución en GPU de consumo. La apertura completa (pesos + código de entrenamiento + conjunto de datos) es relativamente rara —la mayoría de los modelos de imágenes abiertos solo liberan los pesos, manteniendo cerrados los conjuntos de datos y los detalles del entrenamiento—, lo que constituye uno de los principales cuellos de botella en la investigación reproducible en el campo del texto a imagen. (Fuente: BlockBeats)