AI取引の実市場テストでのパフォーマンスは芳しくない

AIは非常に多くのことを知っていますが、現在は「信頼できません」。

著者、出典：楊夏、楊夏の万事屋

最近、私はAgent Tradingツールの研究と準備をしていましたが、

数多くのAI取引方法、ツール、プラットフォームを体験し、上億のトークンを消費した後、

一つの核心的な感想

AIは非常に多くのことを知っていますが、現在は「信頼できません」。

我知道、多くの人が以前のロブスター・ブームの際に、さまざまな金融スキルを身につけました。

市場で大活躍する準備をワクワクしながらしています

結果、音が次第に沈み、ロブスターが削除され、もう1斤14元になった。

実際の資本市場で、信頼可能で実行可能、かつ継続的に改善可能なトレーディングエージェントを構築するには

過去数ヶ月で踏んだ坑は、10万字の実体験を書き下ろせるほどだ。

しかし、今日は、いったん置いておきましょう。

ATアーキテクチャの知識を構築している最中に、共有する価値のある論文を見つけました。

特に皆がAI取引の失楽園に浸っている中、未来はAIが投資に完全に参加することが明らかである。

『AI-TRADER: BENCHMARKING AUTONOMOUS AGENTS IN REAL-TIME FINANCIAL MARKETS』の著者たちは、AI-Traderフレームワークを提案し、主要なLLLMモデルが完全に自律的でリアルタイムかつデータが汚染されていない環境下で金融意思決定を行う能力を評価することを目的としています。

要言いますと、AIの株式投資の効果を試してみるだけです。

実験では、米国株式市場のナスダック100構成銘柄、中国株式市場の上海証券取引所50構成銘柄、および主要な10種類の暗号資産の3つの資産プールを対象とし、米国株式には時間単位、中国株式および暗号資産には日単位の取引頻度をサポートしています。

異なるAIモデルを同じエージェントにパッケージ化し、MCPを用いてニュース、情報、財務報告、市場データを呼び出し、感情抽出、数値計算、取引指示の発行を自律的に実行できます。

6人の参加者（当時DS-V4はリリースされていませんでした）

• DeepSeek-v3.1

• MiniMax-M2

• Claude-3.7-Sonnet

• GPT-5

• Qwen3-Max

• Gemini-2.5-Flash

25年11月から11月7日まで、リアルマーケットが開催され、その結果は以下の通りです。

MiniMax-M2が米国株（時間単位）および中国A株（日単位）の両方で優勝

DS-V3.1は暗号通貨部門で第1位を獲得しました。

しかし残酷なことに、

多くのモデルは実際の市場でパフォーマンスが低く、収益が少なく、リスク管理が弱いです。

これらの欠点は、さまざまなモデルベンチマーク評価では示されません。

同じモデルでも、異なる市場ではスタイルが大きく変わる

たとえばチャンピオンのMINIMAXは、米国株ではリターンを追求し、中国株では防御戦略（低ボラティリティ、低下落）に切り替えており、訓練データには両市場の差異に対する十分な認識が反映されているようだ。

米国株式市場では、複数のモデルがQQQを上回ることができます。

A株市場では、上証50に勝てるものはない。あなたがバフェットでも、最強のAIでも、このA株市場では依然として屈服せざるを得ない。

土着で量的取引の血を引くDeepSeekでさえ、

米国株式市場と暗号資産市場で好調でも、A株市場では勝てない。

アメリカのGeminiは米国株で平均取引価格が3.79ですが、A株では急激に4.74まで操作されています。やはり、現地に合わせるというわけです。

いくつかの成功事例があります。

例えば、DSは10月10日にSearchツールを使用して、トランプによる「対中国関税引き上げ」に関するニュースを取得し、テクノロジー株のリスクが高まると判断して防御策を実行しました：

テクノロジー株のポジションを99％から70％に減らす

消費必需品（PEP）と公共事業（AEP）を追加

現金を17.3%保持

損失を削減し、大多数のモデルを上回るパフォーマンス

同様に、DSもすべてのAIが犯す間違いを犯しました。

単一の情報源に騙された

「構造的慢牛」のニュースを受け、クロスバリデーションを行わなかった

伝統的なエネルギー株や銀行株に誤って追加ポジションを取ってしまい、市場の主要な上昇相場を見逃しました

エージェントの情報検証および動的修正能力の不足が露呈しました

良好な情報インターフェースとデータアライメントの環境下では、AIは一般的な「幻覚」エラーを犯していません。

真の「実戦的な欠陥」は、

または不適切な分析（偽情報）

頻繁に取引する（無効な取引）

リスク管理が失敗する（雷を踏む）。

これは過去数か月にわたり、私がAI実験で実際に感じ取ったいくつかの自然な欠陥です。

しかし、これらの問題には解決策があります。

原文の複数の著者

また、人間と機械の取引協力実験を追跡し、今後の展開を行うための専用ウェブサイトを構築しました。

そのまま彼らの既存のスキルをインストールして、取引コンテストを楽しもう。