Selon les nouvelles de ME, le 25 mai (UTC+8), selon les données surveillées par Beating, Microsoft a open-sourcé la série de modèles de base pour la génération d'images à partir de texte, Lens, avec 3,8 milliards de paramètres. Tout en maintenant et en dépassant les performances des modèles主流 de 6 milliards de paramètres, Lens réalise une efficacité d'entraînement extrême. Lors des tests normalisés en BF16 TFLOPS en pic (excluant le coût de régénération des légendes), l'entraînement n'a consommé que 19,3 % de la puissance de calcul du Z-Image du laboratoire Tongyi d'Alibaba. L'optimisation double des données et de l'architecture constitue le cœur de la réduction des coûts d'entraînement. L'ensemble de données d'entraînement Lens-800M contient 800 millions de paires image-texte. Contrairement aux annotations textuelles courtes traditionnelles, tous les échantillons ont été générés par GPT-4.1, avec une longueur moyenne de prompts atteignant 109 mots, offrant une densité sémantique extrêmement élevée. L'architecture du modèle utilise 48 blocs MMDiT et un VAE sémantique FLUX.2. Les caractéristiques textuelles proviennent de GPT-OSS, en concaténant les représentations des couches 4, 12, 18 et 24, ce qui améliore la conformité aux prompts et la généralisation multilingue. Pour différents environnements d'exécution, Microsoft a publié trois versions de poids : la version par défaut Lens utilise un fine-tuning par apprentissage par renforcement (RL-tuned) et génère une image 1024x1024 en 3,15 secondes sur une seule GPU NVIDIA H100 en 20 étapes. La version ultra-rapide distillée Lens-Turbo effectue l'inférence en seulement 4 étapes, générant une image de même résolution en 0,84 seconde. La version de base Lens-Base est un modèle pur sans RL ni distillation, exécutant par défaut 50 étapes pour la génération. La série de modèles prend en charge nativement des rapports d'aspect arbitraires allant de 1:2 à 2:1 ainsi qu'une résolution mixte maximale de 1440x1440. Les poids des modèles associés sont désormais disponibles sur Hugging Face, avec des entrées au format Safetensors et Diffusers, sous licence MIT. Le code d'inférence est également hébergé同步 sur GitHub. La combinaison d'une haute densité de données et d'une inférence ultra-rapide abaisse la barrière à l'entrée pour les développeurs individuels et la communauté académique afin de déployer et de reproduire des modèles Transformer de diffusion (Diffusion Transformer) à grande échelle. (Source : BlockBeats)
Microsoft open-source le modèle texte-à-image Lens de 3,8 milliards avec une inférence de 0,84 seconde
KuCoinFlashPartager






Microsoft a open-sourcé son modèle texte-à-image de 3,8 milliards de paramètres Lens le 25 mai, en tenant compte de la conformité CFT. Le modèle atteint des performances supérieures à 6 milliards tout en réduisant les coûts d'entraînement. Lens-800M utilise des invites GPT-4.1, avec une moyenne de 109 mots. Il prend en charge les ratios de 1:2 à 2:1 et une résolution de 1440x1440. Lens-Turbo génère des images de 1024x1024 en 0,84 seconde. Les poids sont disponibles sur Hugging Face sous licence MIT, en conformité avec les normes MiCA.
Source:Afficher l'original
Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations.
Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.