Notícia da ME, 25 de maio (UTC+8): De acordo com o monitoramento da Beating, a Microsoft lançou em código aberto a série de modelos base de texto para imagem Lens com 3,8 bilhões de parâmetros. Mantendo e superando o desempenho dos principais modelos de 6 bilhões de parâmetros, o Lens alcançou eficiência de treinamento extrema. Em testes normalizados por BF16 TFLOPS de pico (excluindo o custo de recriação de legendas), o treinamento consumiu apenas cerca de 19,3% da capacidade computacional do Z-Image do Alibaba Tongyi Lab. A otimização dupla de dados e arquitetura é o núcleo da redução de custos de treinamento. O conjunto de dados de treinamento Lens-800M contém 800 milhões de pares imagem-texto. Diferentemente dos rótulos de texto curto tradicionais, todas as amostras foram geradas pelo GPT-4.1, com comprimento médio de prompt de 109 palavras, apresentando alta densidade semântica. A arquitetura do modelo utiliza 48 blocos MMDiT e VAE semântico FLUX.2. Os recursos de texto são provenientes do GPT-OSS, com concatenação das representações das camadas 4, 12, 18 e 24, melhorando a aderência ao prompt e a generalização multilíngue. Para diferentes ambientes de execução, a Microsoft lançou três versões de pesos: a versão padrão Lens utiliza fine-tuning por RL (aprendizado por reforço) e gera imagens de 1024x1024 em 20 passos em uma única GPU NVIDIA H100 em 3,15 segundos. A versão ultra-rápida Lens-Turbo, por meio de distilação, realiza inferência em apenas 4 passos, gerando imagens na mesma resolução em apenas 0,84 segundos. A versão base Lens-Base é o modelo puro sem RL nem distilação, executando por padrão 50 passos para geração. A série de modelos suporta nativamente proporções de largura e altura variáveis entre 1:2 e 2:1, além da geração de resolução mista máxima de 1440x1440. Os pesos dos modelos relacionados já estão disponíveis no Hugging Face, com entradas nos formatos Safetensors e Diffusers, sob licença MIT. O código de inferência também foi hospedado simultaneamente no GitHub. A combinação de alta densidade de dados e inferência ultra-rápida reduz a barreira para desenvolvedores individuais e a comunidade acadêmica implantarem e reproduzirem modelos grandes de Transformer de Difusão (Diffusion Transformer). (Fonte: BlockBeats)
A Microsoft lança como código aberto o modelo de texto para imagem Lens de 3,8 bilhões com inferência de 0,84 segundo
KuCoinFlashCompartilhar






A Microsoft lançou em 25 de maio, com foco na conformidade com a CFT, seu modelo de texto para imagem de 3,8 bilhões de parâmetros, o Lens. O modelo atinge desempenho superior a 6 bilhões, reduzindo os custos de treinamento. O Lens-800M utiliza prompts do GPT-4.1, com média de 109 palavras. Ele suporta proporções de 1:2 a 2:1 e resolução de 1440x1440. O Lens-Turbo gera imagens de 1024x1024 em 0,84 segundos. Os pesos estão disponíveis no Hugging Face sob licença MIT, alinhados aos padrões MiCA.
Fonte:Mostrar original
Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações.
Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.