AI 交易模型在實盤測試中表現不佳，大多數系統報告虧損

幣界網報導：

人工智慧正在叩響華爾街交易室的大門，但目前的成績單並不好看。

一系列公開交易競賽的早期結果顯示，主流大型語言模型（LLM）在自主交易中普遍表現欠佳——大多數系統虧損，交易過於頻繁，且在接收相同指令時作出截然不同的決策。這些結果引發了一個核心問題：LLM 與真實市場運作之間，究竟存在多深的鴻溝。

最具代表性的案例來自科技初創公司 Nof1 運營的 Alpha Arena 競賽。該競賽將 Anthropic 的 Claude、谷歌的 Gemini、OpenAI 的 ChatGPT 以及 Elon Musk 的 Grok 等八大前沿 AI 系統投入四輪獨立比賽，每輪賽前各獲 1 萬美元資金，在兩週內自主交易美國科技股。最終，整體投資組合虧損約三分之一，32 組結果中僅有 6 次實現盈利。

Nof1 創辦人 Jay Azhang 直言：「現在把錢直接交給 LLM 讓它自己去交易，這條路還走不通。」

競賽結果：虧損、過度交易與決策分歧

Alpha Arena 的數據揭示了當前 LLM 在交易場景中的多重缺陷。在相同提示詞下，阿里巴巴的 Qwen 在一輪競賽中共執行了 1,418 筆交易，而表現最佳的 Grok 4.20 僅下單 158 筆。Grok 的最佳成績出現於其能夠觀察競爭對手表現的那輪賽事中。

AI 博客 Flat Circle 追蹤了 11 個市場相關競技場，結果顯示，所有競技場中至少有一個模型實現盈利，但僅有兩個競技場的中位模型為正收益，說明大多數模型難以跑贏市場。

各模型之間的決策差異同樣引人關注。據Azhang介紹，在Alpha Arena最新一輪測試中，Claude傾向於做多，Gemini對做空毫無抵觸，而Qwen則樂於使用高槓桿承擔風險。「它們各有『個性』，管理起來幾乎像管理一位人類分析師，」運營LLM驅動基金的Intelligent Alpha負責人Doug Clinton表示，通過告知模型其存在某種偏差，可以在一定程度上改善結果。

能力邊界：LLM 擅長研究，但不擅長擇時

Jay Azhang 指出，LLM 在研究和調用正確工具方面具備優勢，但在交易執行層面存在系統性短板：它們尚不清楚分析師評級、內部人交易、情緒變化等眾多影響股價的變量各自的權重，因而容易出現交易時機錯誤、倉位規模不當以及買賣過於頻繁等問題。

Intelligent Alpha 的基準測試提供了相對積極的參照。該測試為 10 個 AI 模型提供財務文件、分析師預測、財報電話會議記錄、宏觀經濟數據及網路搜尋權限，專注於判斷盈利預測方向。結果顯示，在 2025 年第四季度，OpenAI 的 ChatGPT 正確預測盈利預測方向的準確率達 68%，創下迄今最佳成績。Clinton 表示，隨著每個新版本的發布，模型表現整體呈改善趨勢。

方法論困境：回測失效，實盤測試成為唯一選擇

評估AI交易能力面臨一個根本性的方法論障礙。傳統量化策略依賴歷史回測來驗證有效性，但這一框架對LLM幾乎完全失效——一個在2026年被問及如何交易2020年3月行情的模型，早已「知道」那段歷史的走向。這種被稱為「前瞻偏差」（lookahead bias）的污染問題，迫使研究者只能透過實盤市場對AI進行評估，由此催生了當前各類基準測試和競技場的大量湧現。

Flat Circle 博客作者、前另類數據供應商 YipitData 聯合創始人 Jim Moran 認為，目前大多數公開實驗週期過短、噪音過大，尚不足以支撐確定性結論。這些競技場還存在天然劣勢，包括無法獲取專有股票研究資源以及執行質量較低。「如果把這些競技場裡的某個 AI 代理直接移植到一家頂級對沖基金內部運行，它的表現應該會更好，」他說。

行業前景：真正有效的策略，或將悄然消失於公眾視野

前Coatue Management數據科學主管、現就職於NX1 Capital的Alexander Izydorczyk近期撰文指出，他所追蹤的AI交易機器人中，目前尚無一個展現出持久的超额收益能力。他認為，這些競技場的局限性在於其訓練數據中缺失了秘密交易機構所使用的實用量化技術。

然而，Izydorczyk 也留下了一個耐人尋味的判斷：「初學者有時能看到老手看不到的東西。」他在個人部落格中寫道，「當 LLM 代理交易策略真正開始奏效時，你不會馬上聽到任何消息。」

Nof1 正在籌備 Alpha Arena 第二季，計劃賦予每個 AI 模型網路搜尋、更長的思考時間、更多的資料來源以及多步驟執行能力。但該公司的核心商業模式，是為散戶交易者提供構建 AI 交易代理的系統工具——而非直接將 AI 推上交易席位。這一定位本身，或許已是對當前 AI 交易能力最務實的註腳。