ME Haberleri'ne göre, 29 Mayıs'ta (UTC+8), Beating izleme sistemi tarafından tespit edildiğine göre, Xiaomi büyük model uygulama ekibi, ControlFoley adlı video ses efekti oluşturma çerçevesini yayınladı ve açık kaynak hale getirdi. Önceki AI video seslendirme sistemleri, genellikle görüntüye dayalı olarak sesi tahmin ederdi ve yaratıcılar ses tarzını tam olarak kontrol edemiyorlardı. ControlFoley'in odak noktası "kontrol edilebilirlik"tir: Hem görüntüye göre seslendirme yapabilmekte, hem de metin açıklamalarını veya referans seslerini kabul ederek sesleri yaratıcının niyetine uygun şekilde üretmektedir. Örneğin, kapı çalma sesini "metal çarpma sesi" olarak değiştirmek veya davul sesiyle tenis vuruş hareketini eşleştirmek gibi istekler, modelin ses-görüntü senkronizasyonunu korurken belirtilen tarza tamamen uygun şekilde gerçekleştirmesini sağlar. Temel düzeyde, ControlFoley, CAV-MAE tabanlı bir uzamsal-zamanlı ses-görüntü kodlayıcı kullanır ve "zaman-ses tonu ayrıştırma" stratejisini uygular; sesin oluşma zamanını videoya, ses tonu tarzını ise referans seslere bırakır. Makalede tanımlanan çoklu görev değerlendirmesinde, ControlFoley birçok standart video seslendirme testinde açık kaynak SOTA seviyesine ulaşmıştır. Hatta metin talimatları ile görüntü içeriği arasında güçlü çelişkiler olsa bile, model hem metne uyum hem de zaman senkronizasyonunu korumayı başarıyla sürdürmüştür. Ticari kapalı kaynak sistem Kling-Foley ile karşılaştırıldığında, ControlFoley semantik hizalama, senkronizasyon ve algısal kalite gibi birçok ölçütte rekabetçi performans göstermektedir; ancak Kling-Audio-Eval ve MovieGen-Audio-Bench'teki bazı KL dağılımı uyum ölçümlerinde hâlâ fark bulunmaktadır. Şu anda projenin teknik raporu, kodu, model ağırlıkları ve Demo'su tamamen açık hale getirilmiştir. (Kaynak: BlockBeats)
Xiaomi, Video Ses Üretimi Çerçevesini ControlFoley Olarak Açık Kaynak Hale Getiriyor
KuCoinFlashPaylaş






Xiaomi'nin büyük model ekibi, 29 Mayıs'ta ControlFoley adlı video ses üretimi çerçevesini açık kaynak yaptı. Model, ses stili kontrolü için görsel girdi, metin talimatları veya referans sesi destekliyor. Zaman-çarpım ayrıştırma stratejisi ve değiştirilmiş CAV-MAE kodlayıcısı kullanıyor. Video ses testlerinde performansı en üst düzeyde, ancak KL ayrışımı konusunda hafif geride kalıyor. Açık pozisyon analizi kullanan traderlar, bu gelişmeyi kripto değer yatırımı açısından ilgili bulabilir.
Kaynak:Orijinalini göster
Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir.
Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.