神秘 AI 影片模型 HappyHorse 在盲測排名中超越 Seedance 2.0

icon MarsBit
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
一個名為 HappyHorse-1.0 的文字轉視訊 AI 模型在 AI 視訊競技場排行榜上位居榜首,於盲測中超越 Seedance 2.0。該模型在沒有官方支持的情況下,透過真實用戶評估取得了更高的 Elo 分數。技術指標顯示,它可能是開源模型 daVinci-MagiHuman 的優化版本。鏈上分析顯示,其在人像生成方面表現強勁,但在複雜場景和長視訊序列上表現較弱。

沒有發布會,沒有技術部落格,也沒有任何公司背書——一款名為 HappyHorse-1.0 的文字轉影片模型,悄然登頂權威 AI 評測平台 Artificial Analysis 的 AI Video Arena 排行榜,以更高的 Elo 分數壓過 Seedance 2.0,更將可靈、天工等一眾主流玩家甩在身後,一時之間引發了技術圈的「解密競賽」。

Artificial Analysis 的排名並非技術參數評測,而是基於真實用戶盲測結果彙總出的 Elo 分數,反映的是普通人觀看後的真實感知。這使得該排名比常見的跑分榜更難被輕易質疑,也讓「這東西究竟是誰做的」成為一個無法忽視的問題。

“快樂馬”悄然登頂,引發科技圈猜謎競賽

X 上的猜測來得很快。最先被人注意到的,是官網的語言排序:普通話和粵語排在英語前面。對於一個面向全球用戶的產品,這個順序有點反常——如果是美國團隊主導,英語幾乎不可能不是第一位。背後團隊來自中國,基本可以確認。

Sand.ai

名字本身也是線索。2026年是農曆馬年,“HappyHorse”這個命名藏著不太含蓄的馬年梗,今年早些時候“Pony Alpha”也玩過類似套路。於是嫌疑名單迅速拉長:騰訊和阿里的創始人都姓馬,天然在列;有人押注小米,覺得雷軍一貫低調,喜歡突然亮牌;也有人覺得氣質更像DeepSeek,畢竟DS此前曾悄悄上線過視覺模型,後來又悄悄下線了。各路猜測熱鬧非凡,但沒一個拿得出實錘。

真正鎖定目標的,是技術層面的逐條比對。X 用戶 Vigo Zhao 將 HappyHorse-1.0 的公開基準數據與已知模型一一核對,結果找到了一個高度吻合的對象:daVinci-MagiHuman,也就是 3 月上線 Github 的開源模型「達芬奇魔法人類」。

Sand.ai

視覺品質 4.80、文本對齊 4.18、物理一致性 4.52、語音字元錯誤率 14.60%——兩份數據逐項吻合。官網結構也幾乎相同:架構描述、性能表格、示範影片的呈現風格,都像是出自同一套模板。兩者同為單流 Transformer 架構,同為音視訊聯合生成,支援的語言列表也完全一致。這種程度的重合,很難用巧合解釋。

目前技術圈認可度最高的結論是,HappyHorse 是 daVinci-MagiHuman 聯合開發方之一的 Sand.ai 基於開源模型優化的迭代版本,核心目的是驗證模型在用戶真實偏好下的表現上限,為後續的商業化落地做鋪墊。

Sand.ai

daVinci-MagiHuman 於 2026 年 3 月 23 日正式開源,是兩支年輕團隊合作的成果。一支來自上海創智學院(SII)生成式人工智慧研究實驗室(GAIR),負責人為學者劉鵬飛;另一支是北京的 Sand.ai(三呆科技),創始人曹越同樣具有學術背景,公司方向為自迴歸世界模型。

模型採用150億參數的純自注意力單流Transformer,將文本、視頻、音頻三種模態的token全部塞入同一序列中進行聯合建模——開源界此前從未有人從零開始實現真正的音視頻聯合預訓練,大多數方法僅在單模態基礎上進行拼接。

一款開源視頻模型,何以實現兩週逆襲?

身份釐清後,另一個問題反而更難回答:daVinci-MagiHuman 三月底才開源,HappyHorse-1.0 為何能在短短兩週內取得比 Seedance 2.0 更高的 Elo 分數?

根據官網披露的資訊,HappyHorse 並未對底層架構進行任何修改,較合理的猜測是,它在預設生成策略上針對評測場景做了專項調整。

Elo 系統本質上是用戶偏好的累積,在人物表情是否穩定、音畫是否同步、畫面是否賞心悅目等感知敏感項上稍作優化,就更容易在盲測中被選中。模型的能力上限未變,但「評測表現」可以被打磨出來。

事實上,在 Artificial Analysis 的盲測樣本中,人像生成與口播類內容占比超過 60%,而 daVinci-MagiHuman 從訓練階段就專注於人像演繹,在此類場景中天然具備優勢,這也是其盲測勝率領先的核心原因;若盲測樣本以人像特寫為主,擅長人像的模型就會系統性地佔優勢,這與其在多人物、複雜運鏡、長時序敘事等複雜場景下的實際表現並無直接關係。

Sand.ai

結果是,排行榜上的數字與實際體驗之間出現了明顯的落差,X 上的討論者也分成了兩派。懷疑派在測試後認為,HappyHorse-1.0 與 Seedance 2.0 在人物細節、動態連貫性上仍有可見差距,並由此質疑 Elo 評分本身的代表性。

而支持者則對 HappyHorse 的潛力寄予厚望,希望它能夠解決「多鏡頭序列中的畫質一致性」這一行業痛點,因為這是當前主流視頻模型都沒解決好的問題,如果 daVinci-MagiHuman 真的在這裡有所突破,可能要比一個榜單排名重要得多。

Sand.ai

模型本身的局限也不該被數字掩蓋。小紅書博主@JACK的AI視界 曾第一時間部署、實測了 daVinci-MagiHuman。發現它運行需要 H100,普通消費級顯卡基本沒戲,雖然社區在研究量化方案,但短期內個人用戶想本地部署還是有難度。

在場景上,它目前主要擅長單一人像,一旦出現多人或場景變複雜,效果就會下降——這不是靠調參能解決的問題,與其專注人像的設計導向直接相關。生成時長一般約為 10 秒,再長就容易混亂,高清輸出仍需依賴超分插件補強。

@JACK的AI視界得出的結論是:daVinci-MagiHuman 的綜合易用性不如 LTX 2.3,需等待社區完成量化後才適合日常使用。

視頻生成賽道,等來了真正的「鯰魚」?

當然,一次榜單領先並不能說明太多。接下來,HappyHorse 還需要在穩定性、高併發訪問速度、跨場景一致性、角色控制精度,以及評測集之外的泛化能力上接受更充分的檢驗。這些,才是決定一個模型能否真正進入創作者工作流的核心指標。

但如果把視野放到更大的行業格局,這件事傳遞的信號其實已經足夠清晰。

開源視頻模型本身並非新鮮事。但始終橫亙在開源與閉源之間的,是一道效果層面的可見差距——在需要向客戶交付的場景中,開源模型的生成質量長期未能跨越「可用」到「可交付」的門檻。可靈、Seedance 等閉源產品的定價權,在相當程度上正是建立在這一差距之上。

這次的意義在於,一個基於開源模型的產品,首次在以真實用戶感知為基準的盲測排行榜上,正面與當前主流閉源競爭對手齊驅並駕。不論其中包含多少針對評測場景的優化成分,對於依賴這一差距建立定價權的閉源廠商而言,至少這是一個值得認真對待的信號。

對於開發者而言,這個轉折點的含義更為具體。在人像、數字人、虛擬主播等垂直場景中,一旦開源基座的生成質量達到「可交付」的門檻,自主部署的成本結構將發生實質性變化——不僅是 API 調用成本的壓縮,更重要的是將數據、模型與推理鏈路完整地納入自身掌控,在定制化深度與隱私合規層面獲得閉源方案難以提供的靈活性。

HappyHorse-1.0 在短期內不會動搖 Seedance 2.0 或 可靈 的市場地位,但一旦確立開源模型的表現可與閉源模型相媲美的認知,後續的量化優化、垂直微調與推理加速將由社區以遠超閉源產品的迭代速度持續推進。

在這個馬年,真正值得關注的,或許不是哪匹馬跑得最快,而是賽道本身正在變寬。

本文來自微信公眾號「AI價值官」,作者:星野,編輯:美圻

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露