Nucleus-Image open-source avec 17 milliards de paramètres, 2 milliards activés par inférence

Selon les nouvelles de ME, le 16 avril (UTC+8), selon les données recueillies par Beating, l'équipe Nucleus AI a publié le modèle de génération d'images à partir de texte Nucleus-Image, en open source simultanément les poids du modèle, le code d'entraînement et l'ensemble de données d'entraînement, sous licence Apache 2.0, autorisant une utilisation commerciale. Le modèle utilise une architecture de diffusion Transformer à experts mixtes clairsemés (MoE), avec un total de 17 milliards de paramètres répartis sur 64 experts de routage par couche, n'activant qu'environ 2 milliards de paramètres lors de chaque inférence, ce qui réduit considérablement le coût d'inférence par rapport aux modèles denses de taille équivalente. Sur trois benchmarks standards, Nucleus-Image atteint des performances équivalentes ou supérieures à celles des modèles leaders propriétaires : un score GenEval de 0,87, égal à celui du modèle d'image Qwen ; la sous-catégorie de position spatiale (0,85) est la plus élevée parmi tous les modèles comparés ; un score DPG-Bench de 88,79, classé premier en performance globale ; et un score OneIG-Bench de 0,522, dépassant Google Imagen4 (0,515) et Recraft V3 (0,502). Tous ces résultats proviennent exclusivement d'un entraînement préalable, sans ajustement par DPO, apprentissage par renforcement ou optimisation basée sur les préférences humaines. Nucleus AI affirme officiellement qu'il s'agit du « premier modèle de diffusion MoE entièrement open source à ce niveau de qualité ». Les données d'entraînement ont été collectées en grande quantité sur le web, puis filtrées, dédoublonnées et évaluées pour leur esthétique, conservant 700 millions d'images et générant 1,5 milliard de paires texte-image. L'entraînement s'est déroulé en trois phases, progressant de 256 à 1024 pixels de résolution, pour un total de 1,7 million d'étapes. L'encodeur textuel utilise Qwen3-VL-8B-Instruct, appelé via la bibliothèque diffusers, avec un cache KV textuel intégré entre les étapes de débruitage pour réduire davantage la charge d'inférence. Pour les développeurs souhaitant déployer localement la génération d'images, la conception de 17 milliards de paramètres avec seulement 2 milliards activés rend possible l'exécution sur des GPU grand public. L'open source complet (poids + code d'entraînement + ensemble de données) est rare — la plupart des modèles d'images open source ne publient que les poids, tandis que les ensembles de données et les détails d'entraînement restent fermés, ce qui constitue l'une des principales limites à la reproductibilité des recherches dans le domaine de la génération d'images à partir de texte. (Source : BlockBeats)