ME Haberleri'ne göre, 25 Mayıs'ta (UTC+8), Beating tarafından izlendiğine göre, Microsoft, 3,8 milyar parametreli metinden görsel oluşturma temel model serisi Lens'i açık kaynak hale getirdi. Lens, ana akım 6 milyar parametreli modellerin performansını koruyarak ve aşılarak, aşırı düzeyde verimli bir eğitim sağlıyor. Zirve BF16 TFLOPS hesaplama kapasitesi normalize testinde (başlık yeniden oluşturma maliyeti hariç), eğitim sadece Alibaba Tongyi Laboratuvarları Z-Image'in yaklaşık %19,3'ünü tüketiyor. Eğitim maliyetlerini azaltmanın temel nedeni, veri ve mimari üzerindeki çift optimizasyondur. Eğitim veri seti Lens-800M, 800 milyon görsel-metin çiftini içeriyor. Geleneksel kısa metin etiketlemesinden farklı olarak, tüm örnekler GPT-4.1 tarafından oluşturulmuş olup, ortalama uyarı metni uzunluğu 109 kelimeye ulaşmakta ve çok yüksek bir semantik yoğunluğa sahiptir. Model mimarisi, 48 adet MMDiT bloğu ve FLUX.2 semantik VAE'yi kullanmaktadır. Metin özellikleri GPT-OSS'ten gelmekte olup, 4., 12., 18. ve 24. katman özelliklerinin birleştirilmesiyle uyarı metni takibi ve çok dilli genelleştirme performansı güçlendirilmiştir. Farklı çalışma ortamları için Microsoft, üç farklı ağırlık sürümünü yayınladı. Varsayılan Lens sürümü, RL-tuned güçlendirilmiş öğrenme ince ayarı kullanır ve tek bir NVIDIA H100 GPU üzerinde 1024x1024 görsel üretmek için 20 adımda 3,15 saniye sürer. Öğrenilmiş hızlı sürüm Lens-Turbo, 4 adımda aynı çözünürlükte görsel üretmek için yalnızca 0,84 saniye gerektirir. Temel sürüm Lens-Base ise RL ve öğrenme olmadan saf bir temel modeldir ve varsayılan olarak üretim için 50 adımda çalışır. Seri modeller, doğrudan 1:2 ile 2:1 arasındaki herhangi bir en-boy oranı ve en fazla 1440x1440 karışık çözünürlük üretimi için destek sağlar. İlgili model ağırlıkları Hugging Face'de Safetensors ve Diffusers formatlarında mevcuttur ve MIT lisans anlaşması altında sunulmaktadır. Tahmin kodu aynı zamanda GitHub'da barındırılmaktadır. Yüksek veri yoğunluğu ve hızlı tahmin birlikte, bireysel geliştiricilerin ve akademik dünyada büyük diffusion Transformer modellerini dağıtma ve yeniden üretme maliyetini düşürmektedir. (Kaynak: BlockBeats)
Microsoft, 0,84 saniyelik çıkarım süresiyle Lens adlı 3,8 milyar metin-den-görüntü modelini açık kaynak yapar
KuCoinFlashPaylaş






Microsoft, 25 Mayıs'ta CFT uyumluluğunu göz önünde bulundurarak 3,8 milyar parametreli metinden görsel oluşturma modeli Lens'i açık kaynak hale getirdi. Model, 6 milyar+ performansını karşılarken eğitim maliyetlerini azaltıyor. Lens-800M, ortalama 109 kelime uzunluğunda GPT-4.1 promtlarını kullanıyor. 1:2 ile 2:1 oranlarını ve 1440x1440 çözünürlüğü destekliyor. Lens-Turbo, 1024x1024 görselleri 0,84 saniyede oluşturuyor. Ağırlıklar, MiCA standartlarıyla uyumlu şekilde Hugging Face üzerinde MIT lisansı altında mevcut.
Kaynak:Orijinalini göster
Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir.
Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.