Noticias de ME: el 25 de mayo (UTC+8), según el monitoreo de Beating, Microsoft ha lanzado como código abierto la serie de modelos base de texto a imagen Lens con 3.8 mil millones de parámetros. Lens logra una eficiencia de entrenamiento extrema, manteniendo y superando el rendimiento de los modelos principales de 6 mil millones de parámetros. En pruebas normalizadas de BF16 TFLOPS pico (excluyendo el costo de regeneración de captions), el entrenamiento consume solo aproximadamente el 19.3% de la capacidad de cómputo del Z-Image del laboratorio Tongyi de Alibaba. La optimización dual en datos y arquitectura es el núcleo para reducir los costos de entrenamiento. El conjunto de datos de entrenamiento Lens-800M contiene 800 millones de pares imagen-texto. A diferencia de las anotaciones de texto corto tradicionales, todas las muestras fueron generadas por GPT-4.1, con una longitud promedio de prompts de 109 palabras, lo que implica una alta densidad semántica. La arquitectura del modelo utiliza 48 bloques MMDiT y un VAE semántico FLUX.2. Las características de texto provienen de GPT-OSS, mejorando la adherencia a los prompts y la generalización multilingüe mediante la concatenación de representaciones de las capas 4, 12, 18 y 24. Microsoft ha lanzado tres versiones de pesos para distintos entornos de ejecución. La versión predeterminada Lens utiliza un ajuste por aprendizaje por refuerzo (RL-tuned) y genera imágenes de 1024x1024 en 20 pasos en una sola GPU NVIDIA H100 en 3.15 segundos. La versión ultra-rápida distilada Lens-Turbo completa la inferencia en solo 4 pasos, generando imágenes de igual resolución en 0.84 segundos. La versión base Lens-Base es un modelo base puro sin RL ni distilación, que por defecto ejecuta 50 pasos para generar imágenes. La serie de modelos admite nativamente relaciones de aspecto arbitrarias entre 1:2 y 2:1, así como resoluciones mixtas hasta 1440x1440. Los pesos del modelo ya están disponibles en Hugging Face, con entradas en formatos Safetensors y Diffusers, bajo licencia MIT. El código de inferencia también se ha subido simultáneamente a GitHub. La combinación de alta densidad de datos e inferencia ultrarrápida reduce la barrera para que desarrolladores individuales y la comunidad académica implementen y reproduzcan modelos grandes de Transformer de difusión (Diffusion Transformer). (Fuente: BlockBeats)
Microsoft abre el código del modelo de texto a imagen Lens de 3.8 mil millones con inferencia de 0.84 segundos
KuCoinFlashCompartir






Microsoft lanzó el modelo de texto a imagen Lens, de 3.8 mil millones de parámetros, con cumplimiento de CFT, el 25 de mayo. El modelo iguala el rendimiento de modelos de más de 6 mil millones de parámetros mientras reduce los costos de entrenamiento. Lens-800M utiliza prompts de GPT-4.1, con un promedio de 109 palabras. Admite proporciones de 1:2 a 2:1 y una resolución de 1440x1440. Lens-Turbo genera imágenes de 1024x1024 en 0.84 segundos. Los pesos están disponibles en Hugging Face bajo licencia MIT, alineados con los estándares MiCA.
Fuente:Mostrar original
Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información.
Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.