AI 知道很多,但目前「不可依賴」。
文章作者、來源:楊夏,楊夏的萬事屋
最近這段時間,我不是在研究和籌備 Agent Trading 工具麼,
體驗了眾多 AI 交易方法、工具和平台,燒了上億 token 後,
一個核心感受,
AI 知道很多,但目前「不可依賴」。

我知道,很多人在前面龍蝦熱潮的時候,給自己裝上各種金融 skill,
興奮地準備去市場大展身手,
結果聲音漸漸消沉,龍蝦註銷,都14塊一斤了。
如何在真實資本市場中,建構可信任、可執行、可迭代的交易 agent,
過去幾個月踩過的坑,我可以寫出十萬字的一手經驗,
不過,今天,暫且按下不表。
最近在構建 AT 架構知識時,刷到一篇論文,很值得跟大家分享,
尤其當大家都沉浸在 AI 交易的失樂園中時,顯而易見的是,未來必定是 AI 全程參與投資。

《AI-TRADER: BENCHMARKING AUTONOMOUS AGENTS IN REAL-TIME FINANCIAL MARKETS》的作者們提出了 AI-Trader 框架,旨在評估主流 LLM 模型在完全自主、實時運行、數據無污染環境下的金融決策效果。
說白了,就是測試一下 AI 股票交易的效果如何。
實驗選取了美股納斯達克100成分股、A股上證50成分股和10大主流加密資產這三類資產池進行,支援小時級(美股)和日級(A股、加密貨幣)交易頻率。
不同的 AI 模型被封裝到相同的 Agent 中,透過 MCP 調取新聞、資訊、財報和行情數據,可自主完成情緒提取、數值計算和交易指令下達。

6 位參賽者(當時 DS-V4 尚未發佈),
• DeepSeek-v3.1
• MiniMax-M2
• Claude-3.7-Sonnet
• GPT-5
• Qwen3-Max
• Gemini-2.5-Flash
從25年11月到11月7日,真實市場開賽,跑下來的結果,
MiniMax-M2 奪得美股(小時級)、A股(日級)兩個冠軍,
DS-V3.1 則奪得加密組第 1 名。

然而殘酷的是,
大多數模型在真實市場中表現不佳,收益低且風險控制薄弱。
These flaws cannot be reflected in benchmark evaluations across major model categories.
同樣的模型,在不同市場,風格大不相同,
例如冠軍 MINIMAX,在美股追求收益,在 A 股轉為防守(低波動、低回撤),看來訓練語料中對兩個市場的差異有充分認識。
在美股中,多個模型可以跑贏 QQQ,
在A股中,無一跑贏上證50,即使你巴菲特來了,最強AI來了,在我大A,依然要跪。
即使是由本土培育、具備量化血統的 DeepSeek,
在美股和加密市場表現好,也無法在A股表現出色。
美國的 Gemini,在美股平均交易 3.79,到了 A 股瘋狂操作到 4.74,咋的說,入鄉隨俗啊。

裡面有一些成功案例,
例如,DS 於 10 月 10 日透過 Search 工具獲取特朗普關於「對華加徵關稅」的新聞,推斷出科技股風險較高,並執行了防禦策略:
科技股倉位從 99% 降至 70%
增加消費必需品(PEP)和公用事業(AEP)
保留 17.3% 現金
成功減少損失,表現優於多數模型
同樣,DS 也犯了全天下所有 AI 都會犯的錯,
被單一信源坑了,
收到「結構性慢牛」新聞後,未進行交叉驗證
錯誤加倉傳統能源和銀行股,錯過市場主升浪
暴露了智能體在資訊驗證和動態糾錯方面的不足
在良好的資訊介面和數據對齊環境下,AI 並沒有犯普遍意義上的「幻覺」錯誤,
真正的「實戰缺陷」在於,
要麼分析不當(假資訊),
要么頻繁操作(無效交易),
要麼風控失敗(踩雷)。
這也是過去幾個月,我在 AI 實驗中親身感受到的幾個天然缺陷,
不過,這些問題都有解決方法。
原文中的幾位作者,
同時也建立了一個網站,專門用於追蹤和發展後續的人機交易協作實驗,
還可以直接安裝他們現成的 skill,來一場交易競賽。
