Microsoft open-source le modèle texte-à-image Lens de 3,8 milliards avec une inférence de 0,84 seconde

Selon les nouvelles de ME, le 25 mai (UTC+8), selon les données surveillées par Beating, Microsoft a open-sourcé la série de modèles de base pour la génération d'images à partir de texte, Lens, avec 3,8 milliards de paramètres. Tout en maintenant et en dépassant les performances des modèles主流 de 6 milliards de paramètres, Lens réalise une efficacité d'entraînement extrême. Lors des tests normalisés en BF16 TFLOPS en pic (excluant le coût de régénération des légendes), l'entraînement n'a consommé que 19,3 % de la puissance de calcul du Z-Image du laboratoire Tongyi d'Alibaba. L'optimisation double des données et de l'architecture constitue le cœur de la réduction des coûts d'entraînement. L'ensemble de données d'entraînement Lens-800M contient 800 millions de paires image-texte. Contrairement aux annotations textuelles courtes traditionnelles, tous les échantillons ont été générés par GPT-4.1, avec une longueur moyenne de prompts atteignant 109 mots, offrant une densité sémantique extrêmement élevée. L'architecture du modèle utilise 48 blocs MMDiT et un VAE sémantique FLUX.2. Les caractéristiques textuelles proviennent de GPT-OSS, en concaténant les représentations des couches 4, 12, 18 et 24, ce qui améliore la conformité aux prompts et la généralisation multilingue. Pour différents environnements d'exécution, Microsoft a publié trois versions de poids : la version par défaut Lens utilise un fine-tuning par apprentissage par renforcement (RL-tuned) et génère une image 1024x1024 en 3,15 secondes sur une seule GPU NVIDIA H100 en 20 étapes. La version ultra-rapide distillée Lens-Turbo effectue l'inférence en seulement 4 étapes, générant une image de même résolution en 0,84 seconde. La version de base Lens-Base est un modèle pur sans RL ni distillation, exécutant par défaut 50 étapes pour la génération. La série de modèles prend en charge nativement des rapports d'aspect arbitraires allant de 1:2 à 2:1 ainsi qu'une résolution mixte maximale de 1440x1440. Les poids des modèles associés sont désormais disponibles sur Hugging Face, avec des entrées au format Safetensors et Diffusers, sous licence MIT. Le code d'inférence est également hébergé同步 sur GitHub. La combinaison d'une haute densité de données et d'une inférence ultra-rapide abaisse la barrière à l'entrée pour les développeurs individuels et la communauté académique afin de déployer et de reproduire des modèles Transformer de diffusion (Diffusion Transformer) à grande échelle. (Source : BlockBeats)