Selon les nouvelles de ME, le 16 avril (UTC+8), selon les données recueillies par Beating, l'équipe Nucleus AI a publié le modèle de génération d'images à partir de texte Nucleus-Image, en open source simultanément les poids du modèle, le code d'entraînement et l'ensemble de données d'entraînement, sous licence Apache 2.0, autorisant une utilisation commerciale. Le modèle utilise une architecture de diffusion Transformer à experts mixtes clairsemés (MoE), avec un total de 17 milliards de paramètres répartis sur 64 experts de routage par couche, n'activant qu'environ 2 milliards de paramètres lors de chaque inférence, ce qui réduit considérablement le coût d'inférence par rapport aux modèles denses de taille équivalente. Sur trois benchmarks standards, Nucleus-Image atteint des performances équivalentes ou supérieures à celles des modèles leaders propriétaires : un score GenEval de 0,87, égal à celui du modèle d'image Qwen ; la sous-catégorie de position spatiale (0,85) est la plus élevée parmi tous les modèles comparés ; un score DPG-Bench de 88,79, classé premier en performance globale ; et un score OneIG-Bench de 0,522, dépassant Google Imagen4 (0,515) et Recraft V3 (0,502). Tous ces résultats proviennent exclusivement d'un entraînement préalable, sans ajustement par DPO, apprentissage par renforcement ou optimisation basée sur les préférences humaines. Nucleus AI affirme officiellement qu'il s'agit du « premier modèle de diffusion MoE entièrement open source à ce niveau de qualité ». Les données d'entraînement ont été collectées en grande quantité sur le web, puis filtrées, dédoublonnées et évaluées pour leur esthétique, conservant 700 millions d'images et générant 1,5 milliard de paires texte-image. L'entraînement s'est déroulé en trois phases, progressant de 256 à 1024 pixels de résolution, pour un total de 1,7 million d'étapes. L'encodeur textuel utilise Qwen3-VL-8B-Instruct, appelé via la bibliothèque diffusers, avec un cache KV textuel intégré entre les étapes de débruitage pour réduire davantage la charge d'inférence. Pour les développeurs souhaitant déployer localement la génération d'images, la conception de 17 milliards de paramètres avec seulement 2 milliards activés rend possible l'exécution sur des GPU grand public. L'open source complet (poids + code d'entraînement + ensemble de données) est rare — la plupart des modèles d'images open source ne publient que les poids, tandis que les ensembles de données et les détails d'entraînement restent fermés, ce qui constitue l'une des principales limites à la reproductibilité des recherches dans le domaine de la génération d'images à partir de texte. (Source : BlockBeats)
Nucleus-Image open-source avec 17 milliards de paramètres, 2 milliards activés par inférence
KuCoinFlashPartager






Le 16 avril (UTC+8), Nucleus AI a open-sourcé le modèle Nucleus-Image sous licence Apache 2.0. Ce modèle, construit sur MetaEra, intègre un transformer de diffusion MoE clairsemé de 17 milliards de paramètres, mais seulement 2 milliards sont actifs lors de l'inférence pour réduire les coûts. Il a surpassé ou égalé les meilleurs modèles propriétaires sur trois benchmarks sans entraînement postérieur. Cette initiative s'inscrit dans le contexte d'un intérêt accru pour les actifs risqués et les efforts CFT sur les marchés cryptos mondiaux.
Source:Afficher l'original
Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations.
Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.