Model AI Misterius HappyHorse Melampaui Seedance 2.0 dalam Peringkat Uji Buta

Tanpa acara peluncuran, tanpa blog teknis, tanpa dukungan perusahaan apa pun—model konversi teks ke video bernama HappyHorse-1.0 secara diam-diam menduduki puncak peringkat AI Video Arena di platform evaluasi AI terkemuka Artificial Analysis, dengan skor Elo lebih tinggi daripada Seedance 2.0, sekaligus meninggalkan para pemain utama seperti Ke Ling dan Tian Gong di belakang, sehingga memicu “kompetisi dekripsi” di kalangan teknis.

Peringkat Artificial Analysis bukan hasil evaluasi parameter teknis, melainkan skor Elo yang dihasilkan dari pengujian buta pengguna nyata, yang mencerminkan persepsi nyata orang biasa setelah melihatnya. Ini membuat peringkat ini lebih sulit dipertanyakan dibandingkan daftar skor biasa, dan membuat pertanyaan "Sebenarnya siapa yang membuat ini?" menjadi sesuatu yang tidak bisa diabaikan.

"Happy Horse" diam-diam menduduki peringkat teratas, memicu kompetisi teka-teki di kalangan dunia teknologi

Prediksi di X muncul dengan cepat. Yang pertama diperhatikan adalah urutan bahasa di situs resmi: Mandarin dan Kantonis berada di depan bahasa Inggris. Untuk produk yang ditujukan bagi pengguna global, urutan ini agak tidak biasa—jika tim yang mengembangkan berasal dari Amerika, bahasa Inggris hampir pasti akan menjadi yang pertama. Tim di baliknya berasal dari Tiongkok, hal ini hampir pasti dapat dikonfirmasi.

Sand.ai

Nama itu sendiri juga petunjuk. Tahun 2026 adalah Tahun Kuda dalam kalender lunar, dan nama "HappyHorse" menyembunyikan permainan kata yang tidak terlalu halus tentang Tahun Kuda—awal tahun ini, "Pony Alpha" juga menggunakan trik serupa. Daftar tersangka pun cepat memanjang: pendiri Tencent dan Alibaba sama-sama bergelar Ma, sehingga secara alami masuk daftar; ada yang menebak Xiaomi, mengingat Lei Jun dikenal rendah hati dan suka mengejutkan dengan mengungkapkan sesuatu secara tiba-tiba; ada pula yang merasa karakternya lebih mirip DeepSeek, mengingat DS sebelumnya pernah secara diam-diam meluncurkan model visual, lalu secara diam-diam menariknya kembali. Berbagai spekulasi ramai bermunculan, tetapi belum ada yang bisa menunjukkan bukti konkret.

Yang benar-benar mengidentifikasi target adalah perbandingan teknis satu per satu. Pengguna X, Vigo Zhao, membandingkan data benchmark publik HappyHorse-1.0 dengan model yang sudah diketahui satu per satu, dan menemukan objek yang sangat cocok: daVinci-MagiHuman, yaitu model open-source "daVinci MagiHuman" yang dirilis di Github pada bulan Maret.

Sand.ai

Kualitas visual 4,80, penyelarasan teks 4,18, konsistensi fisik 4,52, tingkat kesalahan ucapan 14,60%—dua set data ini cocok satu per satu. Struktur situs web juga hampir identik: gaya penyajian deskripsi arsitektur, tabel kinerja, dan video demo, semuanya tampak berasal dari template yang sama. Keduanya menggunakan arsitektur Transformer aliran tunggal, generasi bersama audio-video, dan daftar bahasa yang didukung juga persis sama. Tingkat kesamaan ini sulit dijelaskan sebagai kebetulan.

Kesimpulan yang paling diakui di kalangan teknis saat ini adalah bahwa HappyHorse adalah salah satu pihak pengembang bersama daVinci-MagiHuman, Sand.ai, yang merupakan versi iteratif yang dioptimasi dari model open-source, dengan tujuan utama menguji batas kinerja model di bawah preferensi pengguna yang sebenarnya, sebagai landasan untuk peluncuran komersial selanjutnya.

Sand.ai

daVinci-MagiHuman secara resmi opensource pada 23 Maret 2026, merupakan hasil kolaborasi dua tim muda. Satu tim berasal dari Laboratorium Riset Kecerdasan Buatan Generatif (GAIR), Sekolah Kreatif Shanghai (SII), dipimpin oleh akademisi Liu Pengfei; tim lainnya adalah Sand.ai (San Dai Technology) di Beijing, yang didirikan oleh Cao Yue, yang juga memiliki latar belakang akademis, dengan fokus perusahaan pada model dunia autoregresif.

Model menggunakan Transformer aliran tunggal murni perhatian diri dengan 15 miliar parameter, yang memasukkan semua token dari tiga modalitas—teks, video, dan audio—ke dalam satu urutan yang sama untuk pemodelan bersama—belum ada yang di komunitas open-source sebelumnya yang membangun pelatihan pra-pemrosesan audio-visual bersama dari awal; kebanyakan hanya menggabungkan berdasarkan modalitas tunggal.

Bagaimana model video open-source bisa melakukan kebangkitan dalam dua minggu?

Setelah identitas dipastikan, pertanyaan lain justru lebih sulit dijawab: daVinci-MagiHuman baru opensource akhir Maret, mengapa HappyHorse-1.0 bisa mendapatkan skor Elo lebih tinggi daripada Seedance 2.0 dalam waktu hanya dua minggu?

Berdasarkan informasi yang diungkapkan di situs resmi, HappyHorse tidak melakukan perubahan apa pun pada arsitektur dasarnya; perkiraan yang lebih masuk akal adalah bahwa ia melakukan penyesuaian khusus untuk skenario evaluasi pada strategi generasi defaultnya.

Sistem Elo pada dasarnya adalah akumulasi preferensi pengguna; sedikit meningkatkan aspek-aspek sensitif seperti kestabilan ekspresi karakter, sinkronisasi suara dan gambar, serta keindahan visual, akan membuatnya lebih mudah dipilih dalam pengujian buta. Batas kemampuan model tidak berubah, tetapi "kinerja evaluasi" dapat disempurnakan.

Faktanya, dalam sampel uji buta Artificial Analysis, generasi wajah dan konten narasi lisan menyumbang lebih dari 60%, sedangkan daVinci-MagiHuman fokus pada representasi wajah sejak tahap pelatihan, sehingga secara alami memiliki keunggulan dalam skenario semacam ini—ini juga merupakan alasan utama mengapa tingkat kemenangan uji butanya lebih tinggi; jika sampel uji buta didominasi oleh close-up wajah, model yang ahli dalam wajah akan secara sistematis mendapat keuntungan, yang tidak secara langsung berkaitan dengan kinerja aktualnya dalam skenario kompleks seperti banyak tokoh, gerakan kamera rumit, atau narasi jangka panjang.

Sand.ai

Hasilnya, terdapat perbedaan jelas antara angka di peringkat dan pengalaman nyata, dengan pembicara di X terpecah menjadi dua kelompok. Kelompok skeptis setelah menguji menyimpulkan bahwa HappyHorse-1.0 dan Seedance 2.0 masih menunjukkan perbedaan nyata dalam detail karakter dan kelancaran gerakan, sehingga mempertanyakan representativitas skor Elo.

Sementara pendukungnya memiliki harapan besar terhadap potensi HappyHorse untuk menyelesaikan tantangan industri yaitu "konsistensi kualitas gambar dalam urutan multi-shot", karena ini adalah masalah yang belum berhasil diatasi oleh model video utama saat ini; jika daVinci-MagiHuman benar-benar mencapai terobosan di bidang ini, hal itu mungkin jauh lebih penting daripada peringkat dalam daftar.

Sand.ai

Keterbatasan model itu sendiri juga seharusnya tidak ditutupi oleh angka-angka. Blogger Xiao Hong Shu @JACK's AI World segera menerapkan dan menguji daVinci-MagiHuman secara langsung. Ia menemukan bahwa model ini memerlukan H100, dan hampir tidak mungkin dijalankan pada kartu grafis konsumen biasa. Meskipun komunitas sedang meneliti solusi kuantisasi, dalam jangka pendek, pengguna pribadi masih menghadapi kesulitan dalam menerapkannya secara lokal.

Dalam penggunaannya, saat ini ia lebih unggul dalam satu tokoh saja; ketika ada banyak orang atau adegan menjadi lebih kompleks, kualitasnya akan menurun—ini bukan masalah yang bisa diatasi hanya dengan penyesuaian parameter, melainkan terkait langsung dengan desainnya yang fokus pada potret manusia. Durasi generasi biasanya sekitar 10 detik, semakin panjang maka cenderung menjadi kacau, dan output高清 masih bergantung pada plugin super-resolution untuk memperbaikinya.

Kesimpulan dari AI View @JACK adalah: daVinci-MagiHuman memiliki kemudahan penggunaan yang kurang dibandingkan LTX 2.3, dan perlu menunggu komunitas menyempurnakan kuantifikasi sebelum cocok untuk penggunaan sehari-hari.

Lintasan generasi video, apakah telah menunggu "ikan lele" yang sejati?

Tentu, memimpin dalam satu peringkat tidak banyak berarti. Selanjutnya, HappyHorse masih perlu diuji secara lebih menyeluruh dalam hal stabilitas, kecepatan akses konkuren tinggi, konsistensi lintas skenario, akurasi kontrol peran, serta kemampuan generalisasi di luar kumpulan evaluasi. Inilah yang menjadi indikator inti menentukan apakah sebuah model benar-benar dapat masuk ke dalam alur kerja kreator.

Namun, jika dilihat dari perspektif yang lebih luas mengenai lanskap industri, sinyal yang dikirimkan oleh hal ini sebenarnya sudah cukup jelas.

Model video open-source bukanlah hal baru. Namun, selalu ada jarak nyata dalam kualitas hasil di antara model open-source dan closed-source—dalam skenario yang memerlukan pengiriman kepada pelanggan, kualitas generasi model open-source secara konsisten gagal melampaui ambang dari “dapat digunakan” ke “dapat dikirimkan”. Hak penetapan harga produk closed-source seperti KeLing dan Seedance sebagian besar didirikan atas dasar kesenjangan ini.

Makna kali ini adalah, produk berbasis model open-source pertama kali secara langsung bersaing dengan pesaing closed-source utama saat ini dalam peringkat blind test yang berbasis persepsi pengguna nyata. Tidak peduli seberapa banyak optimasi yang dilakukan untuk skenario evaluasi, bagi produsen closed-source yang membangun daya tawar harga berdasarkan kesenjangan ini, setidaknya ini merupakan sinyal yang patut diperhatikan serius.

Bagi pengembang, titik balik ini memiliki makna yang lebih spesifik. Dalam skenario vertikal seperti potret, avatardigital, dan virtual streamer, sekali kualitas generasi basis open-source mencapai ambang "dapat diserahkan", struktur biaya deploy mandiri akan mengalami perubahan substantif—bukan hanya kompresi biaya pemanggilan API, tetapi lebih penting lagi, mengambil kendali penuh atas data, model, dan rantai inferensi, sehingga memperoleh fleksibilitas yang sulit disediakan oleh solusi tertutup dalam hal kedalaman kustomisasi dan kepatuhan privasi.

HappyHorse-1.0 tidak akan menggoyahkan posisi pasar Seedance 2.0 atau Ke Ling dalam jangka pendek, tetapi begitu pemahaman bahwa model open-source memiliki kinerja yang sebanding dengan model closed-source terbentuk, optimasi kuantitatif, fine-tuning vertikal, dan percepatan inferensi selanjutnya akan terus dikembangkan oleh komunitas dengan kecepatan iterasi jauh lebih cepat daripada produk closed-source.

Di tahun Kuda ini, yang mungkin benar-benar patut diperhatikan bukanlah kuda mana yang paling cepat, melainkan lintasan itu sendiri yang semakin lebar.

Artikel ini berasal dari akun WeChat "AI Value Officer", penulis: Xingye, editor: Mei Qi