謎のAIビデオモデルHappyHorse、ブラインドテストでSeedance 2.0を上回るランキングを記録

発表会も、技術ブログも、どの企業の後押しがもない——「HappyHorse-1.0」というテキストから動画を生成するモデルが、権威あるAI評価プラットフォームArtificial AnalysisのAI Video Arenaランキングで急上昇し、Seedance 2.0を上回るEloスコアでトップに立った。さらに、可靈や天工など主要な競合を大きく引き離し、技術界に「解読競争」を巻き起こした。

Artificial Analysisのランキングは技術的パラメータの評価ではなく、一般ユーザーのブラインドテスト結果を基に算出されたEloスコアであり、一般ユーザーが見た後の実際の感覚を反映しています。これにより、このランキングは通常のベンチマークランキングよりも簡単に疑われにくく、「この製品は実際に誰が作ったのか」という問いが無視できなくなりました。

「快樂馬」が静かにトップに登り、テクノロジー業界でなぞなぞコンテストが勃発

X上の推測は急速に広がった。最初に注目されたのは、公式サイトの言語順序だった：中国語（簡体）と広東語が英語よりも上位に配置されていた。グローバルユーザーを対象とした製品にとって、この順序はやや異常だ——アメリカのチームが主導しているなら、英語が第一位でないことはあり得ない。この背後には中国のチームがいることがほぼ確実だ。

Sand.ai

名前自体が手がかりでもある。2026年は農暦の馬年であり、「HappyHorse」という名前は控えめでない馬年のダジャレを含んでいる。今年の早々、「Pony Alpha」も同様の手口を用いた。そのため、容疑者リストは急速に長くなった：騰訊とアリババの創業者はどちらも「馬」姓であり、自然とリストに挙がる。また、小米に賭ける人もおり、雷軍は一貫して控えめで、突然牌を出すのが好きだと考えられている。一方で、DeepSeekに似ているという意見もあり、DSは以前、視覚モデルを静かにリリースし、その後また静かに削除したからだ。さまざまな推測が賑わっているが、どれも確実な証拠を提示していない。

真正のターゲット特定は、技術的な項目ごとの比較によるものである。XユーザーのVigo Zhaoは、HappyHorse-1.0の公開ベンチマークデータを既知のモデルと一つずつ照合し、高度に一致する対象を見つけ出した。それは、3月にGitHubに公開されたオープンソースモデル「daVinci-MagiHuman」、すなわち「ダ・ヴィンチ・マジック・ヒューマン」である。

Sand.ai

視覚品質4.80、テキストアライメント4.18、物理的一貫性4.52、音声文字誤り率14.60％——両者のデータは項目ごとに一致している。公式サイトの構成もほぼ同じで、アーキテクチャの説明、パフォーマンステーブル、デモ動画の表示スタイルはすべて同じテンプレートから作成されたように見える。両者はいずれもシングルストリームTransformerアーキテクチャを採用し、音声と動画の統合生成をサポートしており、対応言語のリストも完全に一致している。このような一致度は偶然では説明しがたい。

現在の技術コミュニティで最も広く認められている見解は、HappyHorseがdaVinci-MagiHumanの共同開発者であるSand.aiによって、オープンソースモデルを基に最適化・改良されたバージョンであり、その核心的な目的は、ユーザーの実際の嗜好におけるモデルのパフォーマンス上限を検証し、その後の商業化実装の準備をすることである。

Sand.ai

daVinci-MagiHumanは2026年3月23日に正式にオープンソース化され、二つの若手チームの共同成果である。一つは上海創智学院（SII）の生成的AI研究ラボ（GAIR）で、リーダーは学者の劉鵬飛。もう一つは北京のSand.ai（三呆科技）で、創業者の曹越も学術的背景を持ち、同社の方向性は自己回帰的世界モデルである。

モデルは150億パラメータの純粋な自己注意機構を用いたシングルストリームTransformerであり、テキスト、動画、音声の3つのモダリティのトークンをすべて同じシーケンスに統合して共同でモデリングしています。これまでオープンソース界では、音声と動画の真正な联合プリトレーニングをゼロから実施した例はなく、ほとんどのケースは単一モダリティに基づいて単純に結合したものです。

オープンソースのビデオモデルは、なぜ2週間で逆転を果たしたのか？

身元を確認した後、もう一つの質問の方がはるかに答えにくい：daVinci-MagiHumanは3月末にオープンソースになったばかりなのに、HappyHorse-1.0はたった2週間でSeedance 2.0よりも高いEloスコアを獲得できた理由は何か？

公式サイトに開示された情報によると、HappyHorseは底层アーキテクチャに手を加えていないようであり、評価シナリオに特化してデフォルト生成戦略を調整した可能性が最も妥当な推測である。

Elo体系はユーザーの好みの蓄積である。キャラクターの表情の安定性、音声と映像の同期、画面上の美しさなどの感覚的な要素をわずかに改善すれば、ブラインドテストで選ばれやすくなる。モデルの能力上限は変わらないが、「評価結果」は磨き上げることができる。

実際、Artificial Analysisの盲検サンプルでは、人物生成および口頭説明コンテンツが60％以上を占めており、daVinci-MagiHumanは訓練段階から人物演技に焦点を当てているため、このようなシナリオで自然な優位性を有しており、これがその盲検勝率がリードする主な理由である。盲検サンプルが人物のクローズアップを中心に構成されている場合、人物描写に強いモデルは体系的に有利となり、複数人物や複雑なカメラワーク、長時間の物語展開などの複雑なシナリオにおける実際のパフォーマンスとは直接関係しない。

Sand.ai

結果として、ランキング上の数値と実際の体験の間に明確な差が生じ、X上の議論者たちも二派に分かれました。疑念を抱く側はテスト後に、HappyHorse-1.0とSeedance 2.0の人物の細部や動きの連続性に依然として明確な差があると判断し、Eloスコア自体の代表性に疑問を呈しました。

一方の支持者は、HappyHorseが現在の主要なビデオモデルが十分に解決できていない「マルチショットシーケンスにおける画質の一貫性」という業界の課題を解決できる可能性に大きな期待を寄せている。もしdaVinci-MagiHumanがこの分野で真に突破を遂げた場合、ランキングの順位よりもはるかに重要な意義を持つ可能性がある。

Sand.ai

モデル自体の限界も、数字によって隠されるべきではない。小紅書のブロガー@JACKのAI視界は、daVinci-MagiHumanをすぐに導入して実地テストしたところ、H100が必要であり、一般消費者向けのGPUではほぼ実行不可能であることが判明した。コミュニティでは量子化方案の研究が進められているが、短期間で個人ユーザーがローカルにデプロイするのは依然として困難である。

シーン的には、現在は主に単一の人物に強く、複数人が登場したりシーンが複雑になると、品質が低下します——これはパラメータ調整では解決できない問題であり、人物肖像に特化した設計方針と直接関係しています。生成時間は通常10秒程度で、それ以上長くすると乱れやすくなります。高解像度出力には、スーパーリゾリューションプラグインによる補完が必要です。

@JACKのAI視界の結論によると、daVinci-MagiHumanの総合的な使いやすさはLTX 2.3よりも劣っており、コミュニティが量的分析を整備するまで、日常利用には適していない。

動画生成分野に、本当の「ナマズ」が登場したのか？

もちろん、一度のランキング上位だけでは多くのことを示せません。今後、HappyHorseは、安定性、高並列アクセス速度、シナリオ間の一貫性、ロール制御の精度、および評価セット以外の汎化能力において、より十分な検証を受ける必要があります。これらが、モデルがクリエイターのワークフローに本格的に導入されるかどうかを決定する核心的な指標です。

しかし、より広い業界の構図に視野を広げれば、この出来事が伝えるシグナルはすでに十分に明確である。

オープンソースのビデオモデル自体は新しいことではない。しかし、オープンソースとクローズドソースの間には、常に効果面での明確な差異が存在してきた——顧客に提供する必要があるシナリオにおいて、オープンソースモデルの生成品質は「利用可能」から「提供可能」への壁を長らく超えられていなかった。可靈やSeedanceなどのクローズドソース製品の価格決定権は、この差異に基づいてかなりの程度形成されている。

今回の意義は、オープンソースモデルに基づく製品が、実際のユーザーの感覚を基準としたブラインドテストランキングで、現在の主流なクローズドソース競合製品と初めて正面から対峙した点にある。評価シーン向けにどれほど最適化が施されていようとも、この差異を基に価格決定権を築いてきたクローズドソース企業にとって、少なくともこれは真剣に受け止めるべきシグナルである。

開発者にとって、この転換点の意味はより具体的である。人物、デジタル人間、バーチャル配信者などの垂直分野において、オープンソースベースの生成品質が「納品可能」の基準に達した瞬間、自己デプロイのコスト構造は本質的に変化する——API呼び出しコストの削減だけでなく、データ、モデル、推論パイプラインをすべて自社で制御できるようになり、カスタマイズの深さとプライバシー・コンプライアンスの面で、クローズドソースでは得られない柔軟性を獲得できる。

HappyHorse-1.0は短期的にSeedance 2.0または可靈の市場地位を揺るがすことはないが、オープンソースモデルの性能がクローズドソースモデルと同等であるという認識が定着すれば、以降の定量的最適化、垂直方向の微調整、推論速度の向上は、コミュニティによってクローズドソース製品をはるかに上回る速度で継続的に進展するだろう。

この馬年において、本当に注目すべきは、最も速く走る馬ではなく、競走路自体が広がっていることかもしれません。

本文は微信公众号「AI価値官」より、著者：星野、編集：美圻