Microsoft abre el código del modelo de texto a imagen Lens de 3.8 mil millones con inferencia de 0.84 segundos

iconKuCoinFlash
Compartir
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumen

expand icon
Microsoft lanzó el modelo de texto a imagen Lens, de 3.8 mil millones de parámetros, con cumplimiento de CFT, el 25 de mayo. El modelo iguala el rendimiento de modelos de más de 6 mil millones de parámetros mientras reduce los costos de entrenamiento. Lens-800M utiliza prompts de GPT-4.1, con un promedio de 109 palabras. Admite proporciones de 1:2 a 2:1 y una resolución de 1440x1440. Lens-Turbo genera imágenes de 1024x1024 en 0.84 segundos. Los pesos están disponibles en Hugging Face bajo licencia MIT, alineados con los estándares MiCA.

Noticias de ME: el 25 de mayo (UTC+8), según el monitoreo de Beating, Microsoft ha lanzado como código abierto la serie de modelos base de texto a imagen Lens con 3.8 mil millones de parámetros. Lens logra una eficiencia de entrenamiento extrema, manteniendo y superando el rendimiento de los modelos principales de 6 mil millones de parámetros. En pruebas normalizadas de BF16 TFLOPS pico (excluyendo el costo de regeneración de captions), el entrenamiento consume solo aproximadamente el 19.3% de la capacidad de cómputo del Z-Image del laboratorio Tongyi de Alibaba. La optimización dual en datos y arquitectura es el núcleo para reducir los costos de entrenamiento. El conjunto de datos de entrenamiento Lens-800M contiene 800 millones de pares imagen-texto. A diferencia de las anotaciones de texto corto tradicionales, todas las muestras fueron generadas por GPT-4.1, con una longitud promedio de prompts de 109 palabras, lo que implica una alta densidad semántica. La arquitectura del modelo utiliza 48 bloques MMDiT y un VAE semántico FLUX.2. Las características de texto provienen de GPT-OSS, mejorando la adherencia a los prompts y la generalización multilingüe mediante la concatenación de representaciones de las capas 4, 12, 18 y 24. Microsoft ha lanzado tres versiones de pesos para distintos entornos de ejecución. La versión predeterminada Lens utiliza un ajuste por aprendizaje por refuerzo (RL-tuned) y genera imágenes de 1024x1024 en 20 pasos en una sola GPU NVIDIA H100 en 3.15 segundos. La versión ultra-rápida distilada Lens-Turbo completa la inferencia en solo 4 pasos, generando imágenes de igual resolución en 0.84 segundos. La versión base Lens-Base es un modelo base puro sin RL ni distilación, que por defecto ejecuta 50 pasos para generar imágenes. La serie de modelos admite nativamente relaciones de aspecto arbitrarias entre 1:2 y 2:1, así como resoluciones mixtas hasta 1440x1440. Los pesos del modelo ya están disponibles en Hugging Face, con entradas en formatos Safetensors y Diffusers, bajo licencia MIT. El código de inferencia también se ha subido simultáneamente a GitHub. La combinación de alta densidad de datos e inferencia ultrarrápida reduce la barrera para que desarrolladores individuales y la comunidad académica implementen y reproduzcan modelos grandes de Transformer de difusión (Diffusion Transformer). (Fuente: BlockBeats)

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.