A Microsoft lança como código aberto o modelo de texto para imagem Lens de 3,8 bilhões com inferência de 0,84 segundo

Notícia da ME, 25 de maio (UTC+8): De acordo com o monitoramento da Beating, a Microsoft lançou em código aberto a série de modelos base de texto para imagem Lens com 3,8 bilhões de parâmetros. Mantendo e superando o desempenho dos principais modelos de 6 bilhões de parâmetros, o Lens alcançou eficiência de treinamento extrema. Em testes normalizados por BF16 TFLOPS de pico (excluindo o custo de recriação de legendas), o treinamento consumiu apenas cerca de 19,3% da capacidade computacional do Z-Image do Alibaba Tongyi Lab. A otimização dupla de dados e arquitetura é o núcleo da redução de custos de treinamento. O conjunto de dados de treinamento Lens-800M contém 800 milhões de pares imagem-texto. Diferentemente dos rótulos de texto curto tradicionais, todas as amostras foram geradas pelo GPT-4.1, com comprimento médio de prompt de 109 palavras, apresentando alta densidade semântica. A arquitetura do modelo utiliza 48 blocos MMDiT e VAE semântico FLUX.2. Os recursos de texto são provenientes do GPT-OSS, com concatenação das representações das camadas 4, 12, 18 e 24, melhorando a aderência ao prompt e a generalização multilíngue. Para diferentes ambientes de execução, a Microsoft lançou três versões de pesos: a versão padrão Lens utiliza fine-tuning por RL (aprendizado por reforço) e gera imagens de 1024x1024 em 20 passos em uma única GPU NVIDIA H100 em 3,15 segundos. A versão ultra-rápida Lens-Turbo, por meio de distilação, realiza inferência em apenas 4 passos, gerando imagens na mesma resolução em apenas 0,84 segundos. A versão base Lens-Base é o modelo puro sem RL nem distilação, executando por padrão 50 passos para geração. A série de modelos suporta nativamente proporções de largura e altura variáveis entre 1:2 e 2:1, além da geração de resolução mista máxima de 1440x1440. Os pesos dos modelos relacionados já estão disponíveis no Hugging Face, com entradas nos formatos Safetensors e Diffusers, sob licença MIT. O código de inferência também foi hospedado simultaneamente no GitHub. A combinação de alta densidade de dados e inferência ultra-rápida reduz a barreira para desenvolvedores individuais e a comunidade acadêmica implantarem e reproduzirem modelos grandes de Transformer de Difusão (Diffusion Transformer). (Fonte: BlockBeats)