কোনো প্রেস কনফারেন্স নেই, কোনো টেকনিক্যাল ব্লগ নেই, কোনো কোম্পানির সমর্থন নেই—HappyHorse-1.0 নামের একটি টেক্সট-টু-ভিডিও মডেল অ্যাডভান্সড এআই মূল্যায়ন প্ল্যাটফর্ম Artificial Analysis-এর AI Video Arena র্যাঙ্কিংয়ে শীর্ষে উঠেছে, Seedance 2.0-এর চেয়ে উচ্চতর Elo স্কোর অর্জন করেছে এবং KuaLin, TianGong সহ অনেকগুলি প্রধান প্রতিযোগীকে পিছনে ফেলেছে, যা টেক কমিউনিটিতে “ডিকোডিং রেস” শুরু করেছে।
Artificial Analysis-এর র্যাঙ্কিং কোনো প্রযুক্তিগত প্যারামিটার পরীক্ষা নয়, বরং বাস্তব ব্যবহারকারীদের অন্ধ পরীক্ষার ফলাফলের সমন্বয়ে গঠিত Elo স্কোর, যা সাধারণ মানুষের দেখার পরের বাস্তব অনুভূতিকে প্রতিফলিত করে। এটি সাধারণ পারফরম্যান্স র্যাঙ্কিংয়ের চেয়ে সহজেই প্রশ্ন করা কঠিন করে তোলে, এবং "এই জিনিসটি কে তৈরি করেছে?"—এই প্রশ্নটিকে উপেক্ষা করা অসম্ভব করে তোলে।
"হ্যাপি হর্স" চুপিচুপি শীর্ষে পৌঁছাল, টেক সম্প্রদায়ে একটি গুটি খেলার সূচনা করল
এক্স-এর অনুমানগুলি দ্রুত আসছে। প্রথমে লক্ষ্য করা হয়েছিল ওয়েবসাইটের ভাষার ক্রম: মান্দারিন এবং ক্যান্টনিজ ইংরেজির আগে আসছে। একটি বিশ্বব্যাপী ব্যবহারকারীকে লক্ষ্য করে তৈরি পণ্যের জন্য, এই ক্রমটি অস্বাভাবিক—যদি মার্কিন দলটি প্রধান হয়, তবে ইংরেজি প্রায় অসম্ভবভাবেই প্রথম হতে পারে না। পিছনের দলটি চীনা, যা প্রায় নিশ্চিত।

নামটিই একটি ইঙ্গিত। ২০২৬ সাল হল চীনা পঞ্জিকা অনুযায়ী ঘোড়ার বছর, এবং "HappyHorse" নামটি একটি খুব স্পষ্ট ঘোড়ার বছরের গেম রাখে, যা এই বছরের শুরুতে "Pony Alpha" নামটিও ব্যবহার করেছিল। তাই সন্দেহভাজনদের তালিকা দ্রুত বাড়তে শুরু করল: টেনসেন্ট এবং আলিবাবার প্রতিষ্ঠাতারা উভয়েই "মা" ফ্যামিলির, তাই তারা স্বাভাবিকভাবেই তালিকায়। কেউ কেউ মিনির উপর বেট বসিয়েছেন, কারণ লেই জুন সাধারণত নীরব, আর হঠাৎ করেই তার কার্ডগুলি ফেলে দেন। আবার কেউ কেউ মনে করছেন, DeepSeek-এর সঙ্গেই এটির মিল বেশি, কারণ DS আগেও একটি ভিজুয়াল মডেলকে চুপচাপভাবে লঞ্চ করেছিল, পরে চুপচাপভাবেই ডিলিটও করেছিল। সবকিছুতেই অনুমানের উত্তালতা, কিন্তু কোনটিই প্রমাণযুক্তভাবে প্রমাণিত হয়নি।
প্রকৃতপক্ষে, লক্ষ্য নির্ণয় করা হয়েছে প্রযুক্তিগত স্তরে প্রতিটি বিস্তারিত তুলনা করে। X ব্যবহারকারী Vigo Zhao হ্যাপি হর্স-1.0-এর পাবলিক বেঞ্চমার্ক ডেটা পরিচিত মডেলগুলির সাথে একে একে মিলিয়ে দেখেন, এবং একটি অত্যন্ত সাদৃশ্যপূর্ণ মডেল খুঁজে পান: daVinci-MagiHuman, যা মার্চে Github-এ প্রকাশিত ওপেন-সোর্স মডেল “ডা ভিঞ্চি ম্যাজিক হিউম্যান”।

দৃশ্য গুণমান 4.80, টেক্সট আলাইনমেন্ট 4.18, ফিজিক্যাল কনসিসটেন্সি 4.52, স্পিচ টেক্সট এরর রেট 14.60% — দুটি ডেটা প্রতিটি পয়েন্টে মিলে যায়। ওয়েবসাইটের স্ট্রাকচারও প্রায় একই: আর্কিটেকচার ডিসক্রিপশন, পারফরম্যান্স টেবিল, ডেমো ভিডিওর প্রেজেন্টেশন স্টাইল—সবই একই টেমপ্লেট থেকে বেরিয়েছে বলে মনে হয়। উভয়ই একক-স্ট্রিম Transformer আর্কিটেকচার, একইভাবে অডিও-ভিডিও জয়েন্ট জেনারেশন সাপোর্ট করে, এবং সমর্থিত ভাষার তালিকাও সম্পূর্ণভাবে একই। এই মাত্রার মিল দুর্ঘটনা দিয়ে ব্যাখ্যা করা কঠিন।
বর্তমানে টেক সম্প্রদায়ে সবচেয়ে বেশি স্বীকৃত সিদ্ধান্ত হলো যে, HappyHorse হলো daVinci-MagiHuman-এর যৌথ উন্নয়নকারী Sand.ai দ্বারা ওপেন-সোর্স মডেলের উপর ভিত্তি করে অপটিমাইজ করা একটি আপডেটেড ভার্সন, যার মূল উদ্দেশ্য হলো ব্যবহারকারীর প্রকৃত পছন্দের অধীনে মডেলের পারফরম্যান্সের সর্বোচ্চ সীমা পরীক্ষা করা এবং পরবর্তী বাণিজ্যিক বাস্তবায়নের জন্য ভিত্তি তৈরি করা।

daVinci-MagiHuman 2026 মার্চ 23 তারিখে অফিসিয়ালি ওপেন সোর্স হয়, যা দুটি যুব দলের সহযোগিতায় তৈরি। একটি হল শাংহাইয়ের শেংজিয়া একাডেমি (SII) জেনারেটিভ এআই গবেষণা ল্যাব (GAIR), যার নেতৃত্বে রয়েছেন পণ্ডিত লিউ পেংফেই; অন্যটি হল বেইজিংয়ের Sand.ai (স্যান্ড.এআই), যার প্রতিষ্ঠাতা কাও ইউয়েও একজন শিক্ষাবিদ, এবং কোম্পানির দিকনির্দেশনা হল অটোরিগ্রেসিভওয়ার্ল্ড মডেল।
এটি 15 বিলিয়ন প্যারামিটারের একটি শুধুমাত্র স্ব-注意力 একক-স্ট্রিম Transformer মডেল ব্যবহার করে, যেখানে টেক্সট, ভিডিও এবং অডিও—এই তিনটি মোডালিটির টোকেনগুলিকে একই সিকোয়েন্সে একত্রিত করে সংযুক্তভাবে মডেলিং করা হয়—পূর্বে ওপেন-সোর্স সম্প্রদায়ে কেউ শূন্য থেকে প্রকৃত অডিও-ভিডিও সংযুক্ত প্রিট্রেইনিং করেননি, বেশিরভাগই একক-মোডালিটির উপর ভিত্তি করে সংযোগ করেছে।
একটি ওপেন-সোর্স ভিডিও মডেল কীভাবে দুই সপ্তাহে বিপ্লব ঘটাল?
আইডেন্টিটি পরিষ্কার হওয়ার পর, অন্য একটি প্রশ্ন আরও কঠিন হয়ে দাঁড়ায়: daVinci-MagiHuman শুধুমাত্র মার্চের শেষে ওপেন-সোর্স হয়েছে, HappyHorse-1.0 কীভাবে মাত্র দুই সপ্তাহে Seedance 2.0-এর চেয়ে বেশি Elo স্কোর পেয়েছে?
ওয়েবসাইটে প্রকাশিত তথ্য অনুযায়ী, হ্যাপি হর্স নিম্নস্তরের আর্কিটেকচারে কোনো পরিবর্তন করেনি, এবং যুক্তিসঙ্গত অনুমান হলো যে এটি মূল্যায়ন পরিস্থিতির জন্য ডিফল্ট জেনারেশন স্ট্র্যাটেজিতে বিশেষভাবে সামঞ্জস্য করেছে।
Elo সিস্টেম মূলত ব্যবহারকারীর পছন্দের সঞ্চয়, চরিত্রের অভিব্যক্তি স্থির কি না, শব্দ ও চিত্র সমন্বিত কি না, এবং চিত্রটি চোখের জন্য আকর্ষণীয় কি না—এই সংবেদনশীল পরামিতিগুলিতে কিছুটা উন্নতি করলে ব্লাইন্ড টেস্টে এটি বেশি বাছাই হয়। মডেলের সর্বোচ্চ ক্ষমতা অপরিবর্তিত থাকে, কিন্তু “মূল্যায়নের পারফরম্যান্স” প্রস্তুত করা যায়।
বাস্তবে, আর্টিফিশিয়াল অ্যানালিসিসের ব্লাইন্ড টেস্ট নমুনার মধ্যে 60% এর বেশি চিত্র এবং মুখ্য কথোপকথন কন্টেন্ট অন্তর্ভুক্ত ছিল, যখন daVinci-MagiHuman প্রশিক্ষণের পর্যায় থেকেই চিত্র অভিনয়ের উপর ফোকাস করেছিল, যা এই ধরনের পরিস্থিতিতে এটিকে প্রাকৃতিকভাবে সুবিধা দেয়, এবং এটিই এটির ব্লাইন্ড টেস্টের বিজয়ের প্রধান কারণ; যদি ব্লাইন্ড টেস্ট নমুনা মুখোশের ক্লোজ-আপের উপর ভিত্তি করে থাকে, তবে চিত্রের সাথে দক্ষ মডেলগুলি পদ্ধতিগতভাবে সুবিধা পাবে, যা এটির একাধিক চরিত্র, জটিল ক্যামেরা মুভমেন্ট, দীর্ঘকালীন গল্পগত বিন্যাসের মতো জটিল পরিস্থিতিতে বাস্তব পারফরম্যান্সের সাথে সরাসরি সম্পর্কিত নয়।

ফলাফল হলো, র্যাঙ্কিংয়ের সংখ্যা এবং বাস্তব পরীক্ষার অভিজ্ঞতার মধ্যে স্পষ্ট পার্থক্য দেখা গেল, এবং X-এর আলোচনাকারীরা দুটি দলে বিভক্ত হয়ে গেল। সন্দেহকারীরা পরীক্ষার পর মনে করেন যে, HappyHorse-1.0 এবং Seedance 2.0-এর মধ্যে চরিত্রের বিস্তারিত এবং গতিশীলতার সামঞ্জস্যতায় এখনও দৃশ্যমান পার্থক্য রয়েছে, এবং এইভাবে Elo স্কোরের প্রতিনিধিত্বমূলকতাকে প্রশ্নবিদ্ধ করছেন।
অনুসারীদের মধ্যে হ্যাপি হর্সের সম্ভাবনার প্রতি বড় আশা রয়েছে, যেহেতু এটি বর্তমানে প্রধান ভিডিও মডেলগুলি সমাধান করতে পারেনি এমন “মাল্টি-শট সিকোয়েন্সের মধ্যে কোয়ালিটি কনসিসটেন্সি” এই শিল্পের চ্যালেঞ্জটি সমাধান করতে পারে। যদি daVinci-MagiHuman এখানে সত্যিই বিপ্লব ঘটায়, তবে এটি একটি র্যাঙ্কিংয়ের চেয়েও অনেক বেশি গুরুত্বপূর্ণ হতে পারে।

মডেলের নিজস্ব সীমাবদ্ধতা সংখ্যার দ্বারা গোপন করা উচিত নয়। ছোট লাল পুস্তিকা ব্লগার @JACK-এর AI দৃশ্য প্রথম সময়ে daVinci-MagiHuman-এর বাস্তবায়ন ও পরীক্ষা করেছিলেন। তিনি দেখেছেন যে এটি H100 প্রয়োজন, সাধারণ ভোক্তা গ্রাফিক্স কার্ডের জন্য প্রায় অসম্ভব, যদিও সম্প্রদায় কোয়ান্টাইজেশন সমাধানের উপর কাজ করছে, তবুও সংক্ষিপ্ত সময়ের মধ্যে ব্যক্তিগত ব্যবহারকারীদের জন্য স্থানীয়ভাবে ডিপ্লয় করা কঠিন।
প্রায়শই এটি শুধুমাত্র একজন ব্যক্তির জন্য ভালো কাজ করে, যখন একাধিক ব্যক্তি বা জটিল পরিবেশ আসে, তখন ফলাফল কমে যায়—এটি প্যারামিটার সেটিংয়ের সমস্যা নয়, বরং এটি মুখচিত্রের উপর ফোকাস করার ডিজাইন পদ্ধতির সঙ্গে সরাসরি সম্পর্কিত। জেনারেশনের সময়সীমা সাধারণত ১০ সেকেন্ডের মতো, তার বেশি হলে বিকৃত হয়ে যায়, এবং হাই-ডিফিনিশন আউটপুটের জন্য অতি-বিভাজন প্লাগইনের সহায়তা লাগে।
@JACK-এর AI দৃষ্টিভঙ্গি অনুসারে, daVinci-MagiHuman-এর সামগ্রিক ব্যবহারযোগ্যতা LTX 2.3-এর চেয়ে কম, এবং কোয়ান্টিফিকেশন কমিউনিটি দ্বারা পরিপূর্ণভাবে উন্নত না হওয়া পর্যন্ত এটি দৈনন্দিন ব্যবহারের জন্য উপযুক্ত নয়।
ভিডিও জেনারেশন সেগমেন্টে, সত্যিকারের "ক্যাটফিশ" এসে গেল?
অবশ্যই, একবার শীর্ষে থাকা বেশি কিছু বোঝায় না। এরপর, HappyHorse-কে স্থিতিশীলতা, উচ্চ সমান্তরাল অ্যাক্সেস গতি, বিভিন্ন পরিস্থিতিতে সামঞ্জস্যতা, চরিত্র নিয়ন্ত্রণের সূক্ষ্মতা এবং মূল্যায়ন সেটের বাইরের সাধারণীকরণ ক্ষমতার উপর আরও পর্যাপ্ত পরীক্ষা করতে হবে। এই বিষয়গুলিই একটি মডেলকে প্রকাশকদের কাজের প্রবাহে প্রবেশের জন্য নির্ণায়ক মাপকাঠি।
কিন্তু যদি আপনি বড় শিল্প প্যাটার্নের দিকে তাকান, তবে এই বিষয়টি প্রেরণ করা সংকেতটি পর্যাপ্ত স্পষ্ট।
ওপেন সোর্স ভিডিও মডেল নিজেই কোনো নতুন বিষয় নয়। কিন্তু ওপেন সোর্স এবং প্রোপ্রাইটারির মধ্যে সবসময় একটি পারফরম্যান্সের দৃশ্যমান ব্যবধান বিদ্যমান ছিল—গ্রাহকদের কাছে ডেলিভারির প্রয়োজনীয়তার ক্ষেত্রে, ওপেন সোর্স মডেলের জেনারেটেড কোয়ালিটি দীর্ঘদিন ধরে “ব্যবহারযোগ্য” থেকে “ডেলিভারযোগ্য”-এর সীমানা পার হতে পারেনি। কেলিং, সিডান্সের মতো প্রোপ্রাইটারি পণ্যগুলির মূল্যনির্ধারণের ক্ষমতা, এই ব্যবধানের উপরই অংশতঃ ভিত্তি করে।
এই ঘটনার গুরুত্ব হলো, একটি ওপেন-সোর্স মডেলের উপর ভিত্তি করে তৈরি পণ্যটি প্রকৃত ব্যবহারকারীর অনুভূতির ভিত্তিতে অনুলিপি পরীক্ষার র্যাঙ্কিংয়ে প্রথমবারের মতো বর্তমান প্রধান বন্ধ সোর্স প্রতিদ্বন্দ্বীদের সাথে সরাসরি প্রতিদ্বন্দ্বিতা করেছে। এই পরীক্ষার পরিস্থিতির জন্য কতটা অপটিমাইজেশন করা হয়েছে, তা নির্বিশেষে, এই ব্যবধানের উপর ভিত্তি করে মূল্যনির্ধারণের ক্ষমতা গড়ে তোলা বন্ধ সোর্স প্রতিষ্ঠানগুলির জন্য, এটি অন্তত একটি গুরুত্বপূর্ণ সংকেত।
ডেভেলপারদের জন্য, এই মোড়ের অর্থ আরও নির্দিষ্ট। চিত্র, ডিজিটাল হিউম্যান, ভার্চুয়াল স্ট্রিমার ইত্যাদি বিশেষ স্কেলে, যখন ওপেন-সোর্স বেস জেনারেশনের গুণগত মান “ডেলিভারেবল” সীমানা ছুঁয়ে ফেলে, তখন স্বয়ংসম্পূর্ণ ডিপ্লয়মেন্টের খরচ কাঠামোতে মৌলিক পরিবর্তন আসে—শুধু API কলের খরচ কমানোই নয়, বরং ডেটা, মডেল এবং ইনফারেন্স লিঙ্ককে সম্পূর্ণভাবে নিজেদের নিয়ন্ত্রণে আনা, যা বন্ধ সোর্স সমাধানগুলির কাছে কাস্টমাইজেশনের গভীরতা এবং প্রাইভেসি কমপ্লায়েন্সের ক্ষেত্রে অপ্রাপ্ত।
হ্যাপিহর্স-1.0 শর্টটার্মে সিড্যান্স 2.0 বা কেলিংয়ের মার্কেট পজিশনকে কোনোভাবেই কমিয়ে দেবে না, কিন্তু ওপেন-সোর্স মডেলের পারফরম্যান্স ক্লোজড-সোর্স মডেলের সমান হওয়ার ধারণা যদি প্রতিষ্ঠিত হয়, তাহলে কমিউনিটি ক্লোজড-সোর্স পণ্যগুলির চেয়ে অনেক বেশি দ্রুত গতিতে কোয়ান্টিটেটিভ অপটিমাইজেশন, ভার্টিক্যাল ফাইন-টিউনিং এবং ইনফারেন্স স্পিড-আপ চালিয়ে যাবে।
এই ঘোড়া বছরে, সম্ভবত যে ঘোড়াটি সবচেয়ে দ্রুত দৌড়াচ্ছে তার চেয়ে বেশি গুরুত্বপূর্ণ হলো দৌড়ের পথটি প্রসারিত হচ্ছে।
এই পোস্টটি ওয়েইচ্যাট গ্রুপ "AI ভ্যালু অফিসার" থেকে এসেছে, লেখক: শিনয়ে, সম্পাদক: মেইকি
