रहस्यमयी AI वीडियो मॉडल HappyHorse ब्लाइंड टेस्ट रैंकिंग में Seedance 2.0 को पार कर गया

कोई प्रेस कॉन्फ्रेंस, कोई तकनीकी ब्लॉग, कोई कंपनी का समर्थन नहीं—एक टेक्स्ट-टू-वीडियो मॉडल, हैप्पीहॉर्स-1.0, ने प्रतिष्ठित AI मूल्यांकन प्लेटफॉर्म Artificial Analysis के AI Video Arena रैंकिंग में शीर्ष स्थान प्राप्त किया, Seedance 2.0 को अधिक Elo स्कोर के साथ पीछे छोड़ दिया, और केलिंग, तियानगोंग जैसे कई प्रमुख प्रतियोगियों को भी पीछे छोड़ दिया, जिससे तकनीकी समुदाय में “डिकोडिंग रेस” शुरू हो गई।

Artificial Analysis का रैंकिंग तकनीकी पैरामीटर की समीक्षा नहीं है, बल्कि वास्तविक उपयोगकर्ताओं के अंधे परीक्षण पर आधारित Elo स्कोर का संकलन है, जो सामान्य लोगों के द्वारा देखने के बाद की वास्तविक अनुभूति को दर्शाता है। इससे यह रैंकिंग सामान्य बेंचमार्क सूचियों की तुलना में आसानी से सवाल करने के लिए कम संवेदनशील है, और "यह चीज़ वास्तव में किसने बनाई है?" एक अनदेखा नहीं किया जा सकने वाला सवाल बन जाता है।

"खुश माल" चुपचाप शीर्ष पर पहुंच गया, जिससे टेक सर्कल में पहेली प्रतियोगिता शुरू हो गई

X पर अनुमान जल्दी ही सामने आए। सबसे पहले ध्यान आया कि वेबसाइट की भाषा क्रमबद्धता: मैंडरिन और कैントोनीज़ अंग्रेजी से पहले आ रहे हैं। एक वैश्विक उपयोगकर्ताओं के लिए डिज़ाइन किए गए उत्पाद के लिए, यह क्रम असामान्य है—अगर अमेरिकी टीम ने इसकी नेतृत्व किया होता, तो अंग्रेजी लगभग निश्चित रूप से पहले स्थान पर होता। पीछे की टीम चीन से है, जो लगभग पुष्टि हो गई है।

Sand.ai

नाम खुद एक संकेत है। 2026 वर्ष चीनी राष्ट्रीय कैलेंडर के अनुसार घोड़े का वर्ष है, और "HappyHorse" नामकरण में घोड़े के वर्ष का सीधा इशारा छिपा हुआ है; इसी तरह का तरीका पिछले कुछ महीनों में "Pony Alpha" ने भी अपनाया था। इसलिए संदिग्ध नामों की सूची जल्दी ही लंबी हो गई: टेंसेंट और अलीबाबा के संस्थापक दोनों का फैमिली नाम 'मा' है, इसलिए वे स्वाभाविक रूप से सूची में शामिल हैं; कुछ लोग मिनी की ओर इशारा करते हैं, मानते हुए कि लेई जून आमतौर पर नीचे रहते हैं और अचानक प्रकट होना पसंद करते हैं; कुछ का मानना है कि DeepSeek का स्वभाव अधिक मेल खाता है, क्योंकि DS पहले भी चुपचाप एक विजुअल मॉडल लॉन्च कर चुका है, और बाद में चुपचाप हटा दिया। सभी प्रकार के अनुमान सक्रिय हैं, लेकिन कोई भी साबित करने में सफल नहीं हुआ।

वास्तविक लक्ष्य को तकनीकी स्तर पर प्रत्येक बिंदु की तुलना करके पहचाना गया। X उपयोगकर्ता Vigo Zhao ने HappyHorse-1.0 के खुले बेंचमार्क डेटा को ज्ञात मॉडल के साथ एक-एक करके तुलना की, जिससे एक अत्यधिक मेल खाने वाला ऑब्जेक्ट मिला: daVinci-MagiHuman, जो मार्च में Github पर लॉन्च किया गया ओपन-सोर्स मॉडल "डा विंची मैजिक ह्यूमन" है।

Sand.ai

विजुअल क्वालिटी 4.80, टेक्स्ट अलाइनमेंट 4.18, फिजिकल कंसिस्टेंसी 4.52, स्पीच टेक्स्ट एरर रेट 14.60% — दोनों डेटासेट्स के सभी पॉइंट्स मैच करते हैं। वेबसाइट की संरचना भी लगभग एक जैसी है: आर्किटेक्चर डिस्क्रिप्शन, परफॉरमेंस टेबल, और डेमो वीडियो का प्रस्तुतीकरण शैली, सभी एक ही टेम्पलेट से बनाए गए जैसे दिखते हैं। दोनों एकल स्ट्रीम ट्रांसफॉर्मर आर्किटेक्चर हैं, दोनों ऑडियो-वीडियो को जॉइंटली जनरेट करते हैं, और समर्थित भाषाओं की सूची भी पूरी तरह समान है। इतना अधिक समानता को यादृच्छिकता से समझना मुश्किल है।

वर्तमान में तकनीकी समुदाय में सबसे अधिक मान्यता प्राप्त निष्कर्ष यह है कि HappyHorse, daVinci-MagiHuman के संयुक्त विकासकर्ताओं में से एक Sand.ai द्वारा ओपन सोर्स मॉडल पर आधारित एक अपग्रेडेड संस्करण है, जिसका मुख्य उद्देश्य उपयोगकर्ता के वास्तविक पसंद के अनुसार मॉडल के प्रदर्शन की सीमा की पुष्टि करना है, जिससे भविष्य में व्यावसायिक लागू करने की तैयारी हो।

Sand.ai

daVinci-MagiHuman 2026年3月23日正式启动开源，是两支年轻团队合作的成果。一支来自上海创智学院（SII）生成式人工智能研究实验室（GAIR），由学者刘鹏飞领导；另一支是北京的Sand.ai（三呆科技），创始人曹越同样具有学术背景，公司专注于自回归世界模型。

मॉडल 15 बिलियन पैरामीटर के शुद्ध स्व-ध्यान एकल-स्ट्रीम Transformer का उपयोग करता है, जिसमें टेक्स्ट, वीडियो और ऑडियो तीनों मोडल के टोकन को एक ही अनुक्रम में डालकर संयुक्त रूप से मॉडल किया जाता है—पहले तक ओपन सोर्स समुदाय में किसी ने शून्य से वास्तविक ऑडियो-वीडियो संयुक्त प्री-ट्रेनिंग नहीं की थी; अधिकांश ने केवल एकल-मोडल पर आधारित संयोजन किया था।

एक ओपन सोर्स वीडियो मॉडल, दो हफ्तों में उलटफेर कैसे कर सकता है?

पहचान स्पष्ट होने के बाद, एक और सवाल अधिक कठिन हो जाता है: daVinci-MagiHuman केवल मार्च के अंत में ओपन सोर्स हुआ, तो HappyHorse-1.0 को कैसे दो हफ्तों में Seedance 2.0 से अधिक Elo स्कोर मिल गया?

ऑफिशियल वेबसाइट पर उपलब्ध जानकारी के अनुसार, हैप्पीहॉर्स ने नींव की बनावट में कोई बदलाव नहीं किया है; सबसे तर्कसंगत अनुमान यह है कि इसने मूल्यांकन परिदृश्य के लिए डिफ़ॉल्ट जेनरेशन स्ट्रैटेजी पर विशेष समायोजन किया है।

एलो सिस्टम मूल रूप से उपयोगकर्ता प्राथमिकताओं का संचय है, चरित्र के चेहरे के भाव स्थिर हैं या नहीं, ऑडियो और वीडियो समन्वित हैं या नहीं, और दृश्य सुंदर हैं या नहीं—इन संवेदनशील पहलुओं पर थोड़ा बेहतर काम करने से अंधे परीक्षण में इसे चुना जाने की संभावना बढ़ जाती है। मॉडल की क्षमता की सीमा अपरिवर्तित रहती है, लेकिन "मूल्यांकन प्रदर्शन" को सुधारा जा सकता है।

वास्तव में, Artificial Analysis के अंधे परीक्षण नमूनों में, चेहरे के निर्माण और मौखिक विषयों का अनुपात 60% से अधिक है, और daVinci-MagiHuman ने प्रशिक्षण चरण से ही चेहरे के अभिनय पर ध्यान केंद्रित किया है, जिससे इस प्रकार के संदर्भों में इसका स्वाभाविक लाभ है, जो इसकी अंधी परीक्षण विजय दर का मुख्य कारण है; यदि अंधे परीक्षण नमूने मुख्य रूप से चेहरे के क्लोज-अप पर आधारित हैं, तो चेहरे में कुशल मॉडल प्रणालीगत रूप से लाभान्वित होते हैं, जो इसके बहु-चरित्र, जटिल कैमरा मूवमेंट, लंबे समय की कथा जैसे जटिल संदर्भों में वास्तविक प्रदर्शन से सीधे संबंधित नहीं है।

Sand.ai

परिणामस्वरूप, रैंकिंग पर अंक और वास्तविक परीक्षण अनुभव के बीच स्पष्ट अंतर दिखाई दिया, और X पर चर्चाकर्ता दो वर्गों में बंट गए। संदेह करने वालों ने परीक्षण के बाद महसूस किया कि HappyHorse-1.0 और Seedance 2.0 के बीच चरित्र विवरण और गतिशीलता के मामले में अभी भी स्पष्ट अंतर है, और इससे Elo स्कोर की प्रतिनिधित्व क्षमता पर सवाल उठाया।

हालांकि, समर्थक HappyHorse की क्षमता पर बड़ी उम्मीदें रखते हैं, क्योंकि यह वर्तमान में प्रमुख वीडियो मॉडल द्वारा अभी तक हल नहीं किए गए "मल्टी-शॉट सीक्वेंस में विजुअल कंसिस्टेंसी" की उद्योग-व्यापी चुनौती को हल करने की उम्मीद करते हैं। अगर daVinci-MagiHuman वास्तव में इस क्षेत्र में कोई प्रगति करता है, तो यह एक रैंकिंग सूची से कहीं अधिक महत्वपूर्ण हो सकता है।

Sand.ai

मॉडल की स्वयं की सीमाओं को डिजिटल आंकड़ों से छिपाया नहीं जाना चाहिए। छोटी किताब के ब्लॉगर @JACK के AI विज़न ने daVinci-MagiHuman को तुरंत डिप्लॉय किया और परीक्षण किया। उन्होंने पाया कि इसे चलाने के लिए H100 की आवश्यकता होती है, सामान्य उपभोक्ता स्तर के GPU के साथ इसे चलाना लगभग असंभव है, हालांकि समुदाय ने क्वांटाइजेशन समाधान पर काम शुरू कर दिया है, लेकिन आसन्न भविष्य में व्यक्तिगत उपयोगकर्ता के लिए स्थानीय रूप से डिप्लॉय करना मुश्किल है।

स्थिति के अनुसार, यह वर्तमान में केवल एक व्यक्ति के लिए अच्छा है; जब एक से अधिक लोग दिखाई देते हैं या स्थिति जटिल हो जाती है, तो परिणाम खराब हो जाते हैं—यह एक पैरामीटर ट्यूनिंग की समस्या नहीं है, बल्कि इसकी मानव चित्रण पर केंद्रित डिजाइन दिशा से सीधे संबंधित है। उत्पादन की अवधि आमतौर पर 10 सेकंड के आसपास होती है, इससे अधिक लंबा होने पर यह अव्यवस्थित हो जाता है, और हाई-डी आउटपुट के लिए अभी भी सुपर-रेजोल्यूशन प्लगइन की आवश्यकता होती है।

@JACK के AI विज़न के अनुसार, daVinci-MagiHuman की समग्र उपयोगिता LTX 2.3 की तुलना में कम है, और इसे दैनिक उपयोग के लिए तब तक प्रतीक्षा करनी चाहिए जब तक कि समुदाय ने मापन को अच्छी तरह से तैयार न कर लिया हो।

वीडियो जनरेशन सेगमेंट में, क्या सचमुच की "कैटफिश" आ गई है?

एक बार की शीर्ष स्थिति बहुत कुछ नहीं बताती। अब, HappyHorse को स्थिरता, उच्च समानांतर एक्सेस स्पीड, क्रॉस-सीनेरियो कंसिस्टेंसी, रोल कंट्रोल प्रेसिजन, और एवलुएशन सेट के बाहर की जनरलाइजेशन क्षमता पर अधिक व्यापक परीक्षण का सामना करना होगा। ये ही उस बात का निर्णय करते हैं कि एक मॉडल वास्तव में क्रिएटर्स के वर्कफ्लो में प्रवेश कर सकता है या नहीं।

लेकिन अगर हम दृष्टिकोण को बड़े उद्योग के संदर्भ में फैलाएं, तो इस बात से जो संकेत मिलता है, वह पर्याप्त रूप से स्पष्ट है।

ओपन सोर्स वीडियो मॉडल खुद कोई नयी बात नहीं है। लेकिन ओपन सोर्स और प्राइवेट के बीच हमेशा एक दृश्यमान गुणवत्ता का अंतर रहा है—ग्राहकों को प्रस्तुत करने के मामले में, ओपन सोर्स मॉडल की जेनरेशन क्वालिटी लंबे समय तक “उपयोगयोग्य” से “प्रस्तुतयोग्य” की सीमा पार नहीं कर पाई। केलिंग, सीडेंस जैसे प्राइवेट उत्पादों की मूल्य निर्धारण क्षमता, इस अंतर पर ही काफी हद तक आधारित है।

इसका महत्व यह है कि एक ओपन-सोर्स मॉडल पर आधारित उत्पाद, वास्तविक उपयोगकर्ता अनुभव के आधार पर अंधे परीक्षण रैंकिंग में, पहली बार वर्तमान प्रमुख बंद-सोर्स प्रतिद्वंद्वियों के साथ सीधे प्रतिस्पर्धा कर रहा है। भले ही इसमें परीक्षण परिदृश्य के लिए कितनी भी अनुकूलन की गई हो, इस अंतर पर अपनी मूल्य निर्धारण क्षमता बनाए रखने वाले बंद-सोर्स निर्माताओं के लिए, कम से कम यह एक गंभीरता से लेने योग्य संकेत है।

डेवलपर्स के लिए, इस मोड़ का अर्थ अधिक विशिष्ट है। चेहरे, डिजिटल एवतार, वर्चुअल स्ट्रीमर जैसे विशिष्ट स्थितियों में, जब ओपन-सोर्स बेस मॉडल की उत्पादन गुणवत्ता "उपलब्ध" सीमा तक पहुंच जाती है, तो स्वयं के डिप्लॉयमेंट की लागत संरचना में मौलिक परिवर्तन होता है—न केवल API कॉल लागत में कमी, बल्कि डेटा, मॉडल और इन्फरेंस लाइन को पूरी तरह से अपने नियंत्रण में लाना, जिससे कस्टमाइजेशन की गहराई और प्राइवेसी कॉम्प्लायंस के मामले में क्लोज्ड-सोर्स समाधानों के लिए कठिन होने वाली लचीलापन प्राप्त होता है।

HappyHorse-1.0 शॉर्ट-टर्म में Seedance 2.0 या KeLing की मार्केट पोजीशन को नहीं हिलाएगा, लेकिन जैसे ही ओपन-सोर्स मॉडल की प्रदर्शन क्षमता क्लोज्ड-सोर्स मॉडल्स के बराबर होने की समझ बैठ जाएगी, तो कम्युनिटी द्वारा क्वांटिटेटिव ऑप्टिमाइजेशन, वर्टिकल फाइन-ट्यूनिंग और इन्फरेंस स्पीडअप को क्लोज्ड-सोर्स प्रोडक्ट्स की तुलना में कहीं अधिक तेज़ गति से आगे बढ़ाया जाएगा।

इस घोड़े के वर्ष में, शायद यह नहीं कि कौन सा घोड़ा सबसे तेज़ दौड़ रहा है, बल्कि यह है कि ट्रैक स्वयं चौड़ा हो रहा है।

यह लेख वेचेन ग्रुप "AI Value Officer" से आया है, लेखक: शिन्या, संपादक: मेईकी