Microsoft abre el código del modelo de texto a imagen Lens de 3.8 mil millones con inferencia de 0.84 segundos

Noticias de ME: el 25 de mayo (UTC+8), según el monitoreo de Beating, Microsoft ha lanzado como código abierto la serie de modelos base de texto a imagen Lens con 3.8 mil millones de parámetros. Lens logra una eficiencia de entrenamiento extrema, manteniendo y superando el rendimiento de los modelos principales de 6 mil millones de parámetros. En pruebas normalizadas de BF16 TFLOPS pico (excluyendo el costo de regeneración de captions), el entrenamiento consume solo aproximadamente el 19.3% de la capacidad de cómputo del Z-Image del laboratorio Tongyi de Alibaba. La optimización dual en datos y arquitectura es el núcleo para reducir los costos de entrenamiento. El conjunto de datos de entrenamiento Lens-800M contiene 800 millones de pares imagen-texto. A diferencia de las anotaciones de texto corto tradicionales, todas las muestras fueron generadas por GPT-4.1, con una longitud promedio de prompts de 109 palabras, lo que implica una alta densidad semántica. La arquitectura del modelo utiliza 48 bloques MMDiT y un VAE semántico FLUX.2. Las características de texto provienen de GPT-OSS, mejorando la adherencia a los prompts y la generalización multilingüe mediante la concatenación de representaciones de las capas 4, 12, 18 y 24. Microsoft ha lanzado tres versiones de pesos para distintos entornos de ejecución. La versión predeterminada Lens utiliza un ajuste por aprendizaje por refuerzo (RL-tuned) y genera imágenes de 1024x1024 en 20 pasos en una sola GPU NVIDIA H100 en 3.15 segundos. La versión ultra-rápida distilada Lens-Turbo completa la inferencia en solo 4 pasos, generando imágenes de igual resolución en 0.84 segundos. La versión base Lens-Base es un modelo base puro sin RL ni distilación, que por defecto ejecuta 50 pasos para generar imágenes. La serie de modelos admite nativamente relaciones de aspecto arbitrarias entre 1:2 y 2:1, así como resoluciones mixtas hasta 1440x1440. Los pesos del modelo ya están disponibles en Hugging Face, con entradas en formatos Safetensors y Diffusers, bajo licencia MIT. El código de inferencia también se ha subido simultáneamente a GitHub. La combinación de alta densidad de datos e inferencia ultrarrápida reduce la barrera para que desarrolladores individuales y la comunidad académica implementen y reproduzcan modelos grandes de Transformer de difusión (Diffusion Transformer). (Fuente: BlockBeats)