রহস্যময় এআই ভিডিও মডেল হ্যাপিহর্স ব্লাইন্ড টেস্ট র‍্যাঙ্কিংয়ে সিড্যান্স 2.0 কে ছাড়িয়ে গেছে

icon MarsBit
শেয়ার
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconসারাংশ

expand icon
HappyHorse-1.0 নামের একটি টেক্সট-টু-ভিডিও এআই মডেল ব্লাইন্ড টেস্টে Seedance 2.0 কে ছাড়িয়ে এআই ভিডিও আরেনা লিডারবোর্ডে শীর্ষে পৌঁছেছে। কোনো অফিসিয়াল সমর্থন ছাড়াই, এই মডেলটি বাস্তব ব্যবহারকারীদের মূল্যায়নের মাধ্যমে উচ্চতর এলো স্কোর অর্জন করেছে। টেকনিক্যাল ইন্ডিকেটরগুলি এটিকে ওপেন-সোর্স daVinci-MagiHuman মডেলের একটি অপ্টিমাইজড ভার্সন হতে পারে বলে ইঙ্গিত করছে। অন-চেইন বিশ্লেষণ দেখায় যে মানুষের পোর্ট্রেট তৈরিতে এটির শক্তি, তবে জটিল দৃশ্য এবং দীর্ঘ ভিডিও সিকোয়েন্সগুলির সাথে এটির সমস্যা রয়েছে।

কোনো প্রেস কনফারেন্স নেই, কোনো টেকনিক্যাল ব্লগ নেই, কোনো কোম্পানির সমর্থন নেই—HappyHorse-1.0 নামের একটি টেক্সট-টু-ভিডিও মডেল অ্যাডভান্সড এআই মূল্যায়ন প্ল্যাটফর্ম Artificial Analysis-এর AI Video Arena র‍্যাঙ্কিংয়ে শীর্ষে উঠেছে, Seedance 2.0-এর চেয়ে উচ্চতর Elo স্কোর অর্জন করেছে এবং KuaLin, TianGong সহ অনেকগুলি প্রধান প্রতিযোগীকে পিছনে ফেলেছে, যা টেক কমিউনিটিতে “ডিকোডিং রেস” শুরু করেছে।

Artificial Analysis-এর র‍্যাঙ্কিং কোনো প্রযুক্তিগত প্যারামিটার পরীক্ষা নয়, বরং বাস্তব ব্যবহারকারীদের অন্ধ পরীক্ষার ফলাফলের সমন্বয়ে গঠিত Elo স্কোর, যা সাধারণ মানুষের দেখার পরের বাস্তব অনুভূতিকে প্রতিফলিত করে। এটি সাধারণ পারফরম্যান্স র‍্যাঙ্কিংয়ের চেয়ে সহজেই প্রশ্ন করা কঠিন করে তোলে, এবং "এই জিনিসটি কে তৈরি করেছে?"—এই প্রশ্নটিকে উপেক্ষা করা অসম্ভব করে তোলে।

"হ্যাপি হর্স" চুপিচুপি শীর্ষে পৌঁছাল, টেক সম্প্রদায়ে একটি গুটি খেলার সূচনা করল

এক্স-এর অনুমানগুলি দ্রুত আসছে। প্রথমে লক্ষ্য করা হয়েছিল ওয়েবসাইটের ভাষার ক্রম: মান্দারিন এবং ক্যান্টনিজ ইংরেজির আগে আসছে। একটি বিশ্বব্যাপী ব্যবহারকারীকে লক্ষ্য করে তৈরি পণ্যের জন্য, এই ক্রমটি অস্বাভাবিক—যদি মার্কিন দলটি প্রধান হয়, তবে ইংরেজি প্রায় অসম্ভবভাবেই প্রথম হতে পারে না। পিছনের দলটি চীনা, যা প্রায় নিশ্চিত।

Sand.ai

নামটিই একটি ইঙ্গিত। ২০২৬ সাল হল চীনা পঞ্জিকা অনুযায়ী ঘোড়ার বছর, এবং "HappyHorse" নামটি একটি খুব স্পষ্ট ঘোড়ার বছরের গেম রাখে, যা এই বছরের শুরুতে "Pony Alpha" নামটিও ব্যবহার করেছিল। তাই সন্দেহভাজনদের তালিকা দ্রুত বাড়তে শুরু করল: টেনসেন্ট এবং আলিবাবার প্রতিষ্ঠাতারা উভয়েই "মা" ফ্যামিলির, তাই তারা স্বাভাবিকভাবেই তালিকায়। কেউ কেউ মিনির উপর বেট বসিয়েছেন, কারণ লেই জুন সাধারণত নীরব, আর হঠাৎ করেই তার কার্ডগুলি ফেলে দেন। আবার কেউ কেউ মনে করছেন, DeepSeek-এর সঙ্গেই এটির মিল বেশি, কারণ DS আগেও একটি ভিজুয়াল মডেলকে চুপচাপভাবে লঞ্চ করেছিল, পরে চুপচাপভাবেই ডিলিটও করেছিল। সবকিছুতেই অনুমানের উত্তালতা, কিন্তু কোনটিই প্রমাণযুক্তভাবে প্রমাণিত হয়নি।

প্রকৃতপক্ষে, লক্ষ্য নির্ণয় করা হয়েছে প্রযুক্তিগত স্তরে প্রতিটি বিস্তারিত তুলনা করে। X ব্যবহারকারী Vigo Zhao হ্যাপি হর্স-1.0-এর পাবলিক বেঞ্চমার্ক ডেটা পরিচিত মডেলগুলির সাথে একে একে মিলিয়ে দেখেন, এবং একটি অত্যন্ত সাদৃশ্যপূর্ণ মডেল খুঁজে পান: daVinci-MagiHuman, যা মার্চে Github-এ প্রকাশিত ওপেন-সোর্স মডেল “ডা ভিঞ্চি ম্যাজিক হিউম্যান”।

Sand.ai

দৃশ্য গুণমান 4.80, টেক্সট আলাইনমেন্ট 4.18, ফিজিক্যাল কনসিসটেন্সি 4.52, স্পিচ টেক্সট এরর রেট 14.60% — দুটি ডেটা প্রতিটি পয়েন্টে মিলে যায়। ওয়েবসাইটের স্ট্রাকচারও প্রায় একই: আর্কিটেকচার ডিসক্রিপশন, পারফরম্যান্স টেবিল, ডেমো ভিডিওর প্রেজেন্টেশন স্টাইল—সবই একই টেমপ্লেট থেকে বেরিয়েছে বলে মনে হয়। উভয়ই একক-স্ট্রিম Transformer আর্কিটেকচার, একইভাবে অডিও-ভিডিও জয়েন্ট জেনারেশন সাপোর্ট করে, এবং সমর্থিত ভাষার তালিকাও সম্পূর্ণভাবে একই। এই মাত্রার মিল দুর্ঘটনা দিয়ে ব্যাখ্যা করা কঠিন।

বর্তমানে টেক সম্প্রদায়ে সবচেয়ে বেশি স্বীকৃত সিদ্ধান্ত হলো যে, HappyHorse হলো daVinci-MagiHuman-এর যৌথ উন্নয়নকারী Sand.ai দ্বারা ওপেন-সোর্স মডেলের উপর ভিত্তি করে অপটিমাইজ করা একটি আপডেটেড ভার্সন, যার মূল উদ্দেশ্য হলো ব্যবহারকারীর প্রকৃত পছন্দের অধীনে মডেলের পারফরম্যান্সের সর্বোচ্চ সীমা পরীক্ষা করা এবং পরবর্তী বাণিজ্যিক বাস্তবায়নের জন্য ভিত্তি তৈরি করা।

Sand.ai

daVinci-MagiHuman 2026 মার্চ 23 তারিখে অফিসিয়ালি ওপেন সোর্স হয়, যা দুটি যুব দলের সহযোগিতায় তৈরি। একটি হল শাংহাইয়ের শেংজিয়া একাডেমি (SII) জেনারেটিভ এআই গবেষণা ল্যাব (GAIR), যার নেতৃত্বে রয়েছেন পণ্ডিত লিউ পেংফেই; অন্যটি হল বেইজিংয়ের Sand.ai (স্যান্ড.এআই), যার প্রতিষ্ঠাতা কাও ইউয়েও একজন শিক্ষাবিদ, এবং কোম্পানির দিকনির্দেশনা হল অটোরিগ্রেসিভওয়ার্ল্ড মডেল।

এটি 15 বিলিয়ন প্যারামিটারের একটি শুধুমাত্র স্ব-注意力 একক-স্ট্রিম Transformer মডেল ব্যবহার করে, যেখানে টেক্সট, ভিডিও এবং অডিও—এই তিনটি মোডালিটির টোকেনগুলিকে একই সিকোয়েন্সে একত্রিত করে সংযুক্তভাবে মডেলিং করা হয়—পূর্বে ওপেন-সোর্স সম্প্রদায়ে কেউ শূন্য থেকে প্রকৃত অডিও-ভিডিও সংযুক্ত প্রিট্রেইনিং করেননি, বেশিরভাগই একক-মোডালিটির উপর ভিত্তি করে সংযোগ করেছে।

একটি ওপেন-সোর্স ভিডিও মডেল কীভাবে দুই সপ্তাহে বিপ্লব ঘটাল?

আইডেন্টিটি পরিষ্কার হওয়ার পর, অন্য একটি প্রশ্ন আরও কঠিন হয়ে দাঁড়ায়: daVinci-MagiHuman শুধুমাত্র মার্চের শেষে ওপেন-সোর্স হয়েছে, HappyHorse-1.0 কীভাবে মাত্র দুই সপ্তাহে Seedance 2.0-এর চেয়ে বেশি Elo স্কোর পেয়েছে?

ওয়েবসাইটে প্রকাশিত তথ্য অনুযায়ী, হ্যাপি হর্স নিম্নস্তরের আর্কিটেকচারে কোনো পরিবর্তন করেনি, এবং যুক্তিসঙ্গত অনুমান হলো যে এটি মূল্যায়ন পরিস্থিতির জন্য ডিফল্ট জেনারেশন স্ট্র্যাটেজিতে বিশেষভাবে সামঞ্জস্য করেছে।

Elo সিস্টেম মূলত ব্যবহারকারীর পছন্দের সঞ্চয়, চরিত্রের অভিব্যক্তি স্থির কি না, শব্দ ও চিত্র সমন্বিত কি না, এবং চিত্রটি চোখের জন্য আকর্ষণীয় কি না—এই সংবেদনশীল পরামিতিগুলিতে কিছুটা উন্নতি করলে ব্লাইন্ড টেস্টে এটি বেশি বাছাই হয়। মডেলের সর্বোচ্চ ক্ষমতা অপরিবর্তিত থাকে, কিন্তু “মূল্যায়নের পারফরম্যান্স” প্রস্তুত করা যায়।

বাস্তবে, আর্টিফিশিয়াল অ্যানালিসিসের ব্লাইন্ড টেস্ট নমুনার মধ্যে 60% এর বেশি চিত্র এবং মুখ্য কথোপকথন কন্টেন্ট অন্তর্ভুক্ত ছিল, যখন daVinci-MagiHuman প্রশিক্ষণের পর্যায় থেকেই চিত্র অভিনয়ের উপর ফোকাস করেছিল, যা এই ধরনের পরিস্থিতিতে এটিকে প্রাকৃতিকভাবে সুবিধা দেয়, এবং এটিই এটির ব্লাইন্ড টেস্টের বিজয়ের প্রধান কারণ; যদি ব্লাইন্ড টেস্ট নমুনা মুখোশের ক্লোজ-আপের উপর ভিত্তি করে থাকে, তবে চিত্রের সাথে দক্ষ মডেলগুলি পদ্ধতিগতভাবে সুবিধা পাবে, যা এটির একাধিক চরিত্র, জটিল ক্যামেরা মুভমেন্ট, দীর্ঘকালীন গল্পগত বিন্যাসের মতো জটিল পরিস্থিতিতে বাস্তব পারফরম্যান্সের সাথে সরাসরি সম্পর্কিত নয়।

Sand.ai

ফলাফল হলো, র্যাঙ্কিংয়ের সংখ্যা এবং বাস্তব পরীক্ষার অভিজ্ঞতার মধ্যে স্পষ্ট পার্থক্য দেখা গেল, এবং X-এর আলোচনাকারীরা দুটি দলে বিভক্ত হয়ে গেল। সন্দেহকারীরা পরীক্ষার পর মনে করেন যে, HappyHorse-1.0 এবং Seedance 2.0-এর মধ্যে চরিত্রের বিস্তারিত এবং গতিশীলতার সামঞ্জস্যতায় এখনও দৃশ্যমান পার্থক্য রয়েছে, এবং এইভাবে Elo স্কোরের প্রতিনিধিত্বমূলকতাকে প্রশ্নবিদ্ধ করছেন।

অনুসারীদের মধ্যে হ্যাপি হর্সের সম্ভাবনার প্রতি বড় আশা রয়েছে, যেহেতু এটি বর্তমানে প্রধান ভিডিও মডেলগুলি সমাধান করতে পারেনি এমন “মাল্টি-শট সিকোয়েন্সের মধ্যে কোয়ালিটি কনসিসটেন্সি” এই শিল্পের চ্যালেঞ্জটি সমাধান করতে পারে। যদি daVinci-MagiHuman এখানে সত্যিই বিপ্লব ঘটায়, তবে এটি একটি র‍্যাঙ্কিংয়ের চেয়েও অনেক বেশি গুরুত্বপূর্ণ হতে পারে।

Sand.ai

মডেলের নিজস্ব সীমাবদ্ধতা সংখ্যার দ্বারা গোপন করা উচিত নয়। ছোট লাল পুস্তিকা ব্লগার @JACK-এর AI দৃশ্য প্রথম সময়ে daVinci-MagiHuman-এর বাস্তবায়ন ও পরীক্ষা করেছিলেন। তিনি দেখেছেন যে এটি H100 প্রয়োজন, সাধারণ ভোক্তা গ্রাফিক্স কার্ডের জন্য প্রায় অসম্ভব, যদিও সম্প্রদায় কোয়ান্টাইজেশন সমাধানের উপর কাজ করছে, তবুও সংক্ষিপ্ত সময়ের মধ্যে ব্যক্তিগত ব্যবহারকারীদের জন্য স্থানীয়ভাবে ডিপ্লয় করা কঠিন।

প্রায়শই এটি শুধুমাত্র একজন ব্যক্তির জন্য ভালো কাজ করে, যখন একাধিক ব্যক্তি বা জটিল পরিবেশ আসে, তখন ফলাফল কমে যায়—এটি প্যারামিটার সেটিংয়ের সমস্যা নয়, বরং এটি মুখচিত্রের উপর ফোকাস করার ডিজাইন পদ্ধতির সঙ্গে সরাসরি সম্পর্কিত। জেনারেশনের সময়সীমা সাধারণত ১০ সেকেন্ডের মতো, তার বেশি হলে বিকৃত হয়ে যায়, এবং হাই-ডিফিনিশন আউটপুটের জন্য অতি-বিভাজন প্লাগইনের সহায়তা লাগে।

@JACK-এর AI দৃষ্টিভঙ্গি অনুসারে, daVinci-MagiHuman-এর সামগ্রিক ব্যবহারযোগ্যতা LTX 2.3-এর চেয়ে কম, এবং কোয়ান্টিফিকেশন কমিউনিটি দ্বারা পরিপূর্ণভাবে উন্নত না হওয়া পর্যন্ত এটি দৈনন্দিন ব্যবহারের জন্য উপযুক্ত নয়।

ভিডিও জেনারেশন সেগমেন্টে, সত্যিকারের "ক্যাটফিশ" এসে গেল?

অবশ্যই, একবার শীর্ষে থাকা বেশি কিছু বোঝায় না। এরপর, HappyHorse-কে স্থিতিশীলতা, উচ্চ সমান্তরাল অ্যাক্সেস গতি, বিভিন্ন পরিস্থিতিতে সামঞ্জস্যতা, চরিত্র নিয়ন্ত্রণের সূক্ষ্মতা এবং মূল্যায়ন সেটের বাইরের সাধারণীকরণ ক্ষমতার উপর আরও পর্যাপ্ত পরীক্ষা করতে হবে। এই বিষয়গুলিই একটি মডেলকে প্রকাশকদের কাজের প্রবাহে প্রবেশের জন্য নির্ণায়ক মাপকাঠি।

কিন্তু যদি আপনি বড় শিল্প প্যাটার্নের দিকে তাকান, তবে এই বিষয়টি প্রেরণ করা সংকেতটি পর্যাপ্ত স্পষ্ট।

ওপেন সোর্স ভিডিও মডেল নিজেই কোনো নতুন বিষয় নয়। কিন্তু ওপেন সোর্স এবং প্রোপ্রাইটারির মধ্যে সবসময় একটি পারফরম্যান্সের দৃশ্যমান ব্যবধান বিদ্যমান ছিল—গ্রাহকদের কাছে ডেলিভারির প্রয়োজনীয়তার ক্ষেত্রে, ওপেন সোর্স মডেলের জেনারেটেড কোয়ালিটি দীর্ঘদিন ধরে “ব্যবহারযোগ্য” থেকে “ডেলিভারযোগ্য”-এর সীমানা পার হতে পারেনি। কেলিং, সিডান্সের মতো প্রোপ্রাইটারি পণ্যগুলির মূল্যনির্ধারণের ক্ষমতা, এই ব্যবধানের উপরই অংশতঃ ভিত্তি করে।

এই ঘটনার গুরুত্ব হলো, একটি ওপেন-সোর্স মডেলের উপর ভিত্তি করে তৈরি পণ্যটি প্রকৃত ব্যবহারকারীর অনুভূতির ভিত্তিতে অনুলিপি পরীক্ষার র‍্যাঙ্কিংয়ে প্রথমবারের মতো বর্তমান প্রধান বন্ধ সোর্স প্রতিদ্বন্দ্বীদের সাথে সরাসরি প্রতিদ্বন্দ্বিতা করেছে। এই পরীক্ষার পরিস্থিতির জন্য কতটা অপটিমাইজেশন করা হয়েছে, তা নির্বিশেষে, এই ব্যবধানের উপর ভিত্তি করে মূল্যনির্ধারণের ক্ষমতা গড়ে তোলা বন্ধ সোর্স প্রতিষ্ঠানগুলির জন্য, এটি অন্তত একটি গুরুত্বপূর্ণ সংকেত।

ডেভেলপারদের জন্য, এই মোড়ের অর্থ আরও নির্দিষ্ট। চিত্র, ডিজিটাল হিউম্যান, ভার্চুয়াল স্ট্রিমার ইত্যাদি বিশেষ স্কেলে, যখন ওপেন-সোর্স বেস জেনারেশনের গুণগত মান “ডেলিভারেবল” সীমানা ছুঁয়ে ফেলে, তখন স্বয়ংসম্পূর্ণ ডিপ্লয়মেন্টের খরচ কাঠামোতে মৌলিক পরিবর্তন আসে—শুধু API কলের খরচ কমানোই নয়, বরং ডেটা, মডেল এবং ইনফারেন্স লিঙ্ককে সম্পূর্ণভাবে নিজেদের নিয়ন্ত্রণে আনা, যা বন্ধ সোর্স সমাধানগুলির কাছে কাস্টমাইজেশনের গভীরতা এবং প্রাইভেসি কমপ্লায়েন্সের ক্ষেত্রে অপ্রাপ্ত।

হ্যাপিহর্স-1.0 শর্টটার্মে সিড্যান্স 2.0 বা কেলিংয়ের মার্কেট পজিশনকে কোনোভাবেই কমিয়ে দেবে না, কিন্তু ওপেন-সোর্স মডেলের পারফরম্যান্স ক্লোজড-সোর্স মডেলের সমান হওয়ার ধারণা যদি প্রতিষ্ঠিত হয়, তাহলে কমিউনিটি ক্লোজড-সোর্স পণ্যগুলির চেয়ে অনেক বেশি দ্রুত গতিতে কোয়ান্টিটেটিভ অপটিমাইজেশন, ভার্টিক্যাল ফাইন-টিউনিং এবং ইনফারেন্স স্পিড-আপ চালিয়ে যাবে।

এই ঘোড়া বছরে, সম্ভবত যে ঘোড়াটি সবচেয়ে দ্রুত দৌড়াচ্ছে তার চেয়ে বেশি গুরুত্বপূর্ণ হলো দৌড়ের পথটি প্রসারিত হচ্ছে।

এই পোস্টটি ওয়েইচ্যাট গ্রুপ "AI ভ্যালু অফিসার" থেকে এসেছে, লেখক: শিনয়ে, সম্পাদক: মেইকি

দাবিত্যাগ: এই পৃষ্ঠার তথ্য তৃতীয় পক্ষের কাছ থেকে প্রাপ্ত হতে পারে এবং অগত্যা KuCoin এর মতামত বা মতামত প্রতিফলিত করে না। এই বিষয়বস্তু শুধুমাত্র সাধারণ তথ্যগত উদ্দেশ্যে প্রদান করা হয়, কোন ধরনের প্রতিনিধিত্ব বা ওয়ারেন্টি ছাড়াই, বা এটিকে আর্থিক বা বিনিয়োগ পরামর্শ হিসাবে বোঝানো হবে না। KuCoin কোনো ত্রুটি বা বাদ পড়ার জন্য বা এই তথ্য ব্যবহারের ফলে যে কোনো ফলাফলের জন্য দায়ী থাকবে না। ডিজিটাল সম্পদে বিনিয়োগ ঝুঁকিপূর্ণ হতে পারে। আপনার নিজের আর্থিক পরিস্থিতির উপর ভিত্তি করে একটি পণ্যের ঝুঁকি এবং আপনার ঝুঁকি সহনশীলতা সাবধানে মূল্যায়ন করুন। আরও তথ্যের জন্য, অনুগ্রহ করে আমাদের ব্যবহারের শর্তাবলী এবং ঝুঁকি প্রকাশ পড়ুন।