رازآلہ AI ویڈیو ماڈل HappyHorse اندھی ٹیسٹ رینکنگز میں Seedance 2.0 کو پیچھے چھوڑ دیتا ہے

کوئی پریس کانفرنس نہیں، کوئی ٹیکنیکل بلاگ نہیں، کوئی کمپنی کی تائید نہیں— ایک ٹیکسٹ توس ویڈیو ماڈل، HappyHorse-1.0، جس نے ادارتی AI جائزہ پلیٹ فارم Artificial Analysis کے AI Video Arena لسٹ میں سر فہرست حاصل کر لیا، Seedance 2.0 کو اپنے بلند Elo اسکور سے پیچھے چھوڑ دیا، اور Keling، Tiangong جیسے دیگر ممتاز کھلاڑیوں کو بھی پیچھے چھوڑ دیا، جس سے ٹیکنالوجی کے دنیا میں “ڈیکوڈنگ ریس” شروع ہو گئی۔

Artificial Analysis کی درجہ بندی ٹیکنیکل پیرامیٹرز کے جائزے نہیں بلکہ حقیقی صارفین کے اندھے ٹیسٹ کے نتائج کا مجموعہ ہے جو Elo اسکور کے ذریعے عام لوگوں کی حقیقی تصورات کو ظاہر کرتی ہے۔ اس سے یہ درجہ بندی عام اسکورنگ لسٹس کے مقابلے میں زیادہ مشکل سے چیلنج کی جا سکتی ہے، اور "یہ چیز بالکل کس نے بنائی؟" ایک نظرانداز نہیں کی جا سکنے والی سوال بن جاتی ہے۔

"خوشحال گھوڑا" خاموشی سے ٹاپ پر پہنچ گیا، جس نے ٹیکنالوجی کے دنیا میں ایک پہیلی کا مقابلہ شروع کر دیا

ایکس پر تخمینے جلدی سے آ رہے ہیں۔ سب سے پہلے نوٹ کیا گیا، ویب سائٹ کی زبانوں کا ترتیب: مینڈرین اور کینٹونیز انگریزی سے آگے ہیں۔ عالمی صارفین کے لیے ایک مصنوعات کے لیے، یہ ترتیب تھوڑی عجیب ہے — اگر امریکی ٹیم نے اس کی قیادت کی ہوتی، تو انگریزی کبھی بھی پہلے نہیں ہوتا۔ پیچھے والی ٹیم چین سے آتی ہے، جو تقریباً تصدیق شدہ ہے۔

سانڈ.ای آئی

نام خود بھی ایک اشارہ ہے۔ 2026ء سنگھ کا سال ہے، اور "HappyHorse" کا نام ایک کم نرم سنگھ کے سال کا کھیل چھپاتا ہے، جسے اس سال کے شروع میں "Pony Alpha" نے بھی اپنایا تھا۔ اس طرح مشکوک افراد کی فہرست فوراً لمبی ہو گئی: تینٹنٹ اور علی بابا کے بانی دونوں مار کے نام کے ہیں، جو خود بخود فہرست میں شامل ہو گئے؛ کچھ لوگ میئو پر تھام لگاتے ہیں، سمجھتے ہیں کہ لی جون ہمیشہ خاموش رہتے ہیں اور اچانک اپنا پتہ ظاہر کرنے کے شوقین ہیں؛ کچھ لوگ سمجھتے ہیں کہ ڈیپسیک جیسا محسوس ہوتا ہے، کیونکہ DS نے پہلے ایک ویژول ماڈل کو خاموشی سے لانچ کیا تھا، اور پھر اسے خاموشی سے ہٹا دیا تھا۔ تمام تر تفصیلات بڑھ رہی ہیں، لیکن کسی کے پاس کوئی مستحکم ثبوت نہیں ہے۔

حقیقی طور پر ہدف کو تکنیکی سطح پر مکمل تفصیلی موازنہ کیا گیا۔ X صارف Vigo Zhao نے HappyHorse-1.0 کے علناً دستیاب بنچ مارک ڈیٹا کو معلوم ماڈلز کے ساتھ ایک ایک کر کے ملا کر دیکھا، جس کے نتیجے میں ایک بہت زیادہ مطابقت رکھنے والا ماڈل ملا: daVinci-MagiHuman، جو مارچ میں Github پر جاری کیا گیا اوپن سورس ماڈل "ڈا ونچی میجک ہیومن" تھا۔

سانڈ.ای آئی

ویژوال کوالٹی 4.80، ٹیکسٹ الائنمنٹ 4.18، فزیکل کنسسٹنسی 4.52، اسپیچ ٹو ٹیکسٹ ایرر ریٹ 14.60% — دونوں ڈیٹا سیٹس کے تمام پوائنٹس میں مطابقت ہے۔ ویب سائٹ کی ساخت بھی تقریباً ایک جیسی ہے: آرکیٹیکچر کی وضاحت، پرفارمنس کی جدول، اور ڈیمو ویڈیوز کا انداز، سب کچھ ایک ہی ٹیمپلیٹ سے بنایا گیا لگتا ہے۔ دونوں ایک ہی سینگل سٹریم ٹرانسفارمر آرکیٹیکچر پر مبنی ہیں، ایک ہی طرح کے آڈیو ویڈیو جوائنٹ جنریشن کو سپورٹ کرتے ہیں، اور زبانوں کی فہرست بھی بالکل ایک جیسی ہے۔ اس درجے کی مطابقت کو صرف اتفاق سے نہیں سمجھا جا سکتا۔

موجودہ ٹیکنالوجی کے دائرے میں سب سے زیادہ تسلیم شدہ نتیجہ یہ ہے کہ HappyHorse، daVinci-MagiHuman کے مشترکہ ترقی دہندہ Sand.ai کا ایک اوپن سورس ماڈل پر مبنی اپ گریڈڈ ورژن ہے، جس کا مرکزی مقصد ماڈل کی صارفین کے حقیقی ترجیحات کے تحت کارکردگی کی حد کی تصدیق کرنا ہے تاکہ بعد میں تجارتی اطلاق کے لیے بنیاد رکھی جا سکے۔

سانڈ.ای آئی

daVinci-MagiHuman 2026ء کے 23 مارچ کو رسمی طور پر اوپن سورس ہوا، جو دو نوجوان ٹیموں کے تعاون کا نتیجہ ہے۔ ایک ٹیم شنگھائی کے شنگھائی انسٹیٹیوٹ آف انٹیلیجنس (SII) کے جنریٹو AI ریسرچ لیب (GAIR) سے ہے، جس کی قیادت اکادمیک لیڈر لیو پینگفی کر رہے ہیں؛ دوسری ٹیم بیجنگ کی Sand.ai (San Dai Technology) ہے، جس کے بانی چاؤ یوئے بھی اکادمک پس منظر رکھتے ہیں اور کمپنی کا فوکس آٹو ریگریسیو ورلڈ مڈل پر ہے۔

یہ ماڈل 15 ارب پیرامیٹرز والے صرف خود توجہ والے ایک لیر ٹرانسفارمر پر مبنی ہے، جس میں متن، ویڈیو اور آڈیو کے تمام ٹوکنز کو ایک ہی ترتیب میں شامل کرکے مشترکہ طور پر ماڈل کیا جاتا ہے — پہلے کبھی کسی نے اوپن سورس دنیا میں آڈیو اور ویڈیو کا حقیقی مشترکہ پری ٹریننگ صفر سے نہیں کیا تھا، زیادہ تر صرف اکیلے ماڈلز کو جوڑ کر کرتے تھے۔

ایک اوپن سورس ویڈیو ماڈل، دو ہفتے میں کیسے اپنی حالت بدل سکا؟

شناخت کے بعد، ایک اور سوال زیادہ مشکل ہو جاتا ہے: daVinci-MagiHuman کا 3 مارچ تک ہی اوپن سورس ہونا تھا، تو HappyHorse-1.0 کو کیسے ممکن ہوا کہ صرف دو ہفتے میں Seedance 2.0 سے زیادہ Elo اسکور حاصل کر لے؟

ویب سائٹ پر شائع کردہ معلومات کے مطابق، ہیپی ہارس نے اپنی بنیادی ساخت میں کوئی تبدیلی نہیں کی ہے؛ زیادہ منطقی اندازہ یہ ہے کہ اس نے جائزہ کے منظر نامے کے لیے ڈیفالٹ جنریشن اسٹریٹجی پر خاص طور پر ترتیب دی ہے۔

ایلوز سسٹم بنیادی طور پر صارفین کی ترجیحات کا مجموعہ ہے، جیسے کہ کردار کے چہرے کی اظہاریات مستقل یا عدم استقلال، آواز اور تصویر کا مطابقت، اور منظر کی خوبصورتی؛ ان حساس احساسات پر تھوڑا سا بہتر بنانے سے اندھی ٹیسٹ میں اسے زیادہ اہمیت دی جاتی ہے۔ ماڈل کی حد تک محدودیت وہی رہتی ہے، لیکن "جائزہ کا عمل" کو بہتر بنایا جا سکتا ہے۔

در حقیقت، Artificial Analysis کے اندھے ٹیسٹ نمونوں میں چہرہ جنریشن اور گفتگو کے مواد کا تناسب 60% سے زیادہ ہے، جبکہ daVinci-MagiHuman تربیت کے مراحل سے ہی چہرہ اداکاری پر توجہ مرکوز کرتا ہے، جس کی وجہ سے اس قسم کے مناظر میں اس کا فطری فائدہ ہے، اور یہی اس کی اندھی فتح کی بنیادی وجہ ہے؛ اگر اندھے ٹیسٹ نمونے چہرے کے کلوز اپ پر مبنی ہوں، تو چہرہ جنریشن میں ماہر ماڈلز کو نظام کے طور پر فائدہ ہوگا، جبکہ یہ ان کی حقیقی صلاحیت کا اندازہ نہیں دیتا جو کہ متعدد کرداروں، پیچیدہ کیمرہ حرکات اور لمبے وقت کے ناول کے پیچیدہ مناظر میں ہوتی ہے۔

سانڈ.ای آئی

نتیجہ یہ ہوا کہ رینکنگ پر نمبرز اور حقیقی تجربے کے درمیان واضح فرق آ گیا، اور ٹویٹر پر بحث کرنے والے دو گروہوں میں تقسیم ہو گئے۔ شک کرنے والوں نے ٹیسٹ کے بعد کہا کہ HappyHorse-1.0 اور Seedance 2.0 کے درمیان کردار کی تفصیلات اور حرکت کی مسلسل صلاحیت میں اب بھی واضح فرق موجود ہے، اور اس کے بنیاد پر انہوں نے Elo اسکور کی نمائندگی پر سوال اٹھایا۔

اسی طرح، حامیوں کی امید ہے کہ HappyHorse صنعت کے ایک بڑے مسئلہ، یعنی "متعدد لینز سیکوئنس میں تصویر کی ایک جیسی معیار" کو حل کرے گا، کیونکہ موجودہ مقبول ویڈیو ماڈل اس مسئلے کو اب تک صحیح طریقے سے حل نہیں کر پائے ہیں۔ اگر daVinci-MagiHuman اس شعبے میں حقیقی ترقی کرے تو یہ کسی رینکنگ کے مقابلے میں زیادہ اہم ہو سکتا ہے۔

سانڈ.ای آئی

ماس کی اپنی محدودیتوں کو ڈیجیٹل نمبروں سے چھپایا نہیں جانا چاہیے۔ چھوٹی کتاب کے بلاگر @JACK کی AI ویو نے daVinci-MagiHuman کو فوری طور پر ڈپلوی اور ٹیسٹ کیا۔ انہوں نے پایا کہ اسے H100 درکار ہے، عام صارفین کے لیے گرافکس کارڈز تقریباً ناامید کن ہیں، حالانکہ کمیونٹی کو مقداری منصوبوں پر کام جاری ہے، لیکن قریبی مستقبل میں ذاتی صارفین کے لیے مقامی طور پر ڈپلوی کرنا مشکل ہے۔

سائنسی طور پر، یہ ابھی تک صرف ایک منفرد شخص کے لیے بہترین کام کرتا ہے؛ جب کئی افراد یا منظر پیچیدہ ہو جائے تو اس کی کارکردگی کم ہو جاتی ہے — یہ صرف پیرامیٹرز کو ترتیب دینے سے حل نہیں ہوتا، بلکہ اس کا تصور صرف چہرے پر مرکوز ہونے سے براہ راست متعلق ہے۔ تخلیق کا معمول عام طور پر صرف 10 سیکنڈ کا ہوتا ہے، اس سے زیادہ لمبا ہونے پر یہ بگڑنے لگتا ہے، اور ہائی ڈیفینشنش آؤٹ پٹ کے لیے اب بھی سپر ریزولوشن پلگ ان کی ضرورت ہوتی ہے۔

@JACK کے AI ویژن کا نتیجہ یہ ہے کہ daVinci-MagiHuman کی مجموعی استعمال کی آسانی LTX 2.3 کے مقابلے میں کم ہے، اور اسے روزمرہ کے استعمال کے لیے صرف اس وقت ہی مناسب سمجھا جائے گا جب کمیونٹی نے کوانتیفکیشن کو بہتر بنالیا ہو۔

ویڈیو جنریشن کے شعبے میں، اصلی "ناکل" کا انتظار ختم ہو گیا؟

بے شک، ایک بار کی ٹاپ لسٹ پر آنا کچھ زیادہ نہیں بتاتا۔ اب، HappyHorse کو استحکام، اعلیٰ کنکرنسی ڈیٹا ٹریفک کی رفتار، مختلف سیناریوز میں ایک جیسی صلاحیت، کردار کنٹرول کی درستگی، اور ایوان کے علاوہ عام کرنے کی صلاحیت پر مزید جانچ کی ضرورت ہے۔ یہی وہ بنیادی معیارات ہیں جو فیصلہ کرتے ہیں کہ ایک ماڈل حقیقی طور پر تخلیق کاروں کے عمل میں داخل ہو سکتا ہے یا نہیں۔

لیکن اگر آپ نے بڑے صنعتی منظر کو دیکھیں، تو یہ بات واضح سیگنل بھیج رہی ہے۔

اوپن سورس ویڈیو ماڈل خود بخود کوئی نئی بات نہیں ہیں۔ لیکن اوپن سورس اور بند سورس کے درمیان ہمیشہ ایک نمایاں کارکردگی کا فرق موجود رہا ہے — صارفین کو پروڈکٹ فراہم کرنے کے معاملات میں، اوپن سورس ماڈلز کی پیداواری معیار لंگھنے میں کامیاب نہیں ہو سکے کہ “قابل استعمال” سے “قابل فراہمی” تک پہنچ جائے۔ کی لِن، سیڈنس وغیرہ جیسے بند سورس پروڈکٹس کی قیمت تعین کرنے کی طاقت، تقریباً اسی فرق پر قائم ہے۔

اس بار کا مطلب یہ ہے کہ ایک اوپن سورس ماڈل پر مبنی پروڈکٹ، حقیقی صارفین کے تجربے کے بنیاد پر بنائے گئے اندھے ٹیسٹ رینکنگ میں، موجودہ مقبول بند سورس مقابلہ کنندگان کے ساتھ پہلی بار سیدھا مقابلہ کر رہا ہے۔ چاہے اس میں ٹیسٹنگ کے مناظر کے لیے کتنی بھی ترتیب ہو، اس فرق پر اپنی قیمت ڈالنے والے بند سورس فرماوں کے لیے، کم از کم یہ ایک ایسا سگنل ہے جس کو سنجیدگی سے لینا چاہیے۔

ڈیولپرز کے لیے، اس موڑ کا مطلب زیادہ واضح ہے۔ چہرے، ڈیجیٹل ایونٹس، اور ورچوئل اسٹریمرز جیسے خاص سینز میں، جب کھلے ماخذ کی بنیادی کوالٹی "ڈیلیوری کے قابل" کی سرحد تک پہنچ جائے، تو خود کنٹرول کرنے کی لاگت کی ساخت میں اہم تبدیلی آ جائے گی — نہ صرف API کالز کی لاگت میں کمی، بلکہ ڈیٹا، ماڈل اور انفرینس لینک کو مکمل طور پر اپنے کنٹرول میں لینا، جس سے کسٹمائزیشن کی گہرائی اور پرائیویسی کمپلائنس کے لحاظ سے بند حلّوں کے مقابلے میں لچک حاصل ہوگی۔

ہیپی ہارس-1.0短期内不会动摇 Seedance 2.0或可灵的市场地位，但开源模型效果可以媲美闭源这一认知一旦确立，后续的量化优化、垂直微调与推理加速将由社区以远超闭源产品的迭代速度持续推进。

اس مار کے سال میں، واقعی قابل توجہ بات شاید یہ نہیں کہ کون سی گھوڑی سب سے تیز دوڑ رہی ہے، بلکہ یہ ہے کہ دوڑ کا راستہ خود ہی چوڑا ہو رہا ہے۔

یہ مضمون ویچن گروپ "AI Value Officer" سے ہے، مصنف: شینو، ایڈیٹر: میکی