AI 交易表現在實際市場測試中參差不齊

AI 知道很多，但目前「不可依賴」。

文章作者、來源：楊夏，楊夏的萬事屋

最近這段時間，我不是在研究和籌備 Agent Trading 工具麼，

體驗了眾多 AI 交易方法、工具和平台，燒了上億 token 後，

一個核心感受，

AI 知道很多，但目前「不可依賴」。

我知道，很多人在前面龍蝦熱潮的時候，給自己裝上各種金融 skill，

興奮地準備去市場大展身手，

結果聲音漸漸消沉，龍蝦註銷，都14塊一斤了。

如何在真實資本市場中，建構可信任、可執行、可迭代的交易 agent，

過去幾個月踩過的坑，我可以寫出十萬字的一手經驗，

不過，今天，暫且按下不表。

最近在構建 AT 架構知識時，刷到一篇論文，很值得跟大家分享，

尤其當大家都沉浸在 AI 交易的失樂園中時，顯而易見的是，未來必定是 AI 全程參與投資。

《AI-TRADER: BENCHMARKING AUTONOMOUS AGENTS IN REAL-TIME FINANCIAL MARKETS》的作者們提出了 AI-Trader 框架，旨在評估主流 LLM 模型在完全自主、實時運行、數據無污染環境下的金融決策效果。

說白了，就是測試一下 AI 股票交易的效果如何。

實驗選取了美股納斯達克100成分股、A股上證50成分股和10大主流加密資產這三類資產池進行，支援小時級（美股）和日級（A股、加密貨幣）交易頻率。

不同的 AI 模型被封裝到相同的 Agent 中，透過 MCP 調取新聞、資訊、財報和行情數據，可自主完成情緒提取、數值計算和交易指令下達。

6 位參賽者（當時 DS-V4 尚未發佈），

• DeepSeek-v3.1

• MiniMax-M2

• Claude-3.7-Sonnet

• GPT-5

• Qwen3-Max

• Gemini-2.5-Flash

從25年11月到11月7日，真實市場開賽，跑下來的結果，

MiniMax-M2 奪得美股（小時級）、A股（日級）兩個冠軍，

DS-V3.1 則奪得加密組第 1 名。

然而殘酷的是，

大多數模型在真實市場中表現不佳，收益低且風險控制薄弱。

These flaws cannot be reflected in benchmark evaluations across major model categories.

同樣的模型，在不同市場，風格大不相同，

例如冠軍 MINIMAX，在美股追求收益，在 A 股轉為防守（低波動、低回撤），看來訓練語料中對兩個市場的差異有充分認識。

在美股中，多個模型可以跑贏 QQQ，

在A股中，無一跑贏上證50，即使你巴菲特來了，最強AI來了，在我大A，依然要跪。

即使是由本土培育、具備量化血統的 DeepSeek，

在美股和加密市場表現好，也無法在A股表現出色。

美國的 Gemini，在美股平均交易 3.79，到了 A 股瘋狂操作到 4.74，咋的說，入鄉隨俗啊。

裡面有一些成功案例，

例如，DS 於 10 月 10 日透過 Search 工具獲取特朗普關於「對華加徵關稅」的新聞，推斷出科技股風險較高，並執行了防禦策略：

科技股倉位從 99% 降至 70%

增加消費必需品（PEP）和公用事業（AEP）

保留 17.3% 現金

成功減少損失，表現優於多數模型

同樣，DS 也犯了全天下所有 AI 都會犯的錯，

被單一信源坑了，

收到「結構性慢牛」新聞後，未進行交叉驗證

錯誤加倉傳統能源和銀行股，錯過市場主升浪

暴露了智能體在資訊驗證和動態糾錯方面的不足

在良好的資訊介面和數據對齊環境下，AI 並沒有犯普遍意義上的「幻覺」錯誤，

真正的「實戰缺陷」在於，

要麼分析不當（假資訊），

要么頻繁操作（無效交易），

要麼風控失敗（踩雷）。

這也是過去幾個月，我在 AI 實驗中親身感受到的幾個天然缺陷，

不過，這些問題都有解決方法。

原文中的幾位作者，

同時也建立了一個網站，專門用於追蹤和發展後續的人機交易協作實驗，

還可以直接安裝他們現成的 skill，來一場交易競賽。