AIトレーディングモデルが実市場テストで苦戦、多数のシステムが損失を報告

CoinGapeが報道：

人工知能がウォールストリートの取引室のドアを叩いているが、現在の成績は芳しくない。

公開取引コンテストの初期結果によると、主要な大規模言語モデル（LLM）は自律取引において一般的にパフォーマンスが劣っており、ほとんどのシステムが損失を出し、取引が過剰であり、同じ指示を受けた際に全く異なる決定を下している。これらの結果は、LLMと実際の市場の動作の間には、どの程度の隔たりがあるのかという核心的な問いを生み出している。

最も代表的な事例は、テクノロジー系スタートアップのNof1が運営するAlpha Arenaコンテストである。このコンテストでは、AnthropicのClaude、GoogleのGemini、OpenAIのChatGPT、Elon MuskのGrokなど8つの先進的なAIシステムを、4ラウンドの独立した競技に投入した。各ラウンドでは、事前に1万ドルの資金を与えられ、2週間の期間中に米国テクノロジー株を自立して取引した。最終的に、全体の投資ポートフォリオは約3分の1の損失を出し、32組の結果のうち利益を上げたのは6回のみだった。

Nof1の創設者Jay Azhangは明言した：「今、お金を直接LLMに渡して自分で取引させるという道はまだ通じない。」

コンテスト結果：損失、過剰取引、意思決定の不一致

Alpha Arenaのデータは、現在のLLMが取引シナリオにおいて複数の欠陥を抱えていることを示している。同じプロンプト条件下で、アリババのQwenは1ラウンドのコンテストで合計1,418回の取引を実行したのに対し、最も優れたGrok 4.20はわずか158回の注文しか行わなかった。Grokの最高成績は、競合のパフォーマンスを観察できたラウンドで達成された。

AIブログFlat Circleは11の市場関連アリーナを追跡したところ、すべてのアリーナで少なくとも1つのモデルが利益を上げたが、中位モデルが正の収益を記録したのは2つのアリーナのみであり、大多数のモデルが市場を上回るのが難しいことを示している。

各モデル間の意思決定の差異も注目されている。Azhangによると、Alpha Arenaの最新ラウンドのテストでは、Claudeはロングポジションを好む傾向があり、Geminiはショートポジションに全く抵抗せず、Qwenは高レバレッジを用いてリスクを取ることを好むという。「それぞれに『個性』があり、管理するのは人間のアナリストを管理するようにほぼ同じだ」と、LLM駆動ファンドを運営するIntelligent Alphaの責任者であるDoug Clintonは述べ、モデルにそのバイアスが存在することを伝えることで、結果を一定程度改善できるという。

能力の限界：LLMは研究に強いですが、タイミング選択には弱いです

Jay Azhangは、LLMが研究と適切なツールの呼び出しにおいて優位性を持つ一方で、取引実行の面ではシステム的な欠陥があると指摘した。それらは、アナリスト評価、内部者取引、感情の変化など、株価に影響を与える多数の変数のそれぞれの重みを理解していないため、取引タイミングの誤り、ポジションサイズの不適切さ、および売買の過剰頻度などの問題が生じやすい。

Intelligent Alphaのベンチマークは、比較的前向きな基準を提供しています。このテストでは、10のAIモデルに財務文書、アナリスト予測、決算電話会議の記録、マクロ経済データ、およびウェブ検索のアクセスを提供し、利益予測の方向性を判断することに焦点を当てました。その結果、2025年第4四半期において、OpenAIのChatGPTは利益予測の方向性を正確に予測する精度が68％に達し、これまでで最高の成績を記録しました。Clintonは、新しいバージョンがリリースされるたびに、モデルのパフォーマンスは全体的に改善していると述べています。

方法論の課題：バックテストが無効になり、実盤テストが唯一の選択肢に

AIの取引能力を評価するには、根本的な方法論的障壁が存在する。従来のクオンツ戦略は、履歴バックテストによって有効性を検証するが、この枠組みはLLMに対してほぼ完全に機能しない。2026年に2020年3月の市場動向をどう取引するか問われたモデルは、すでにその歴史的な展開を「知っている」からである。このような「先見バイアス」（lookahead bias）という汚染問題により、研究者はAIの評価を実際の市場での運用に限定せざるを得ず、その結果、現在さまざまなベンチマークや競技場が次々と登場している。

フラットサークルのブログ投稿者で、元の代替データプロバイダーYipitDataの共同創業者であるジム・モランは、現在のほとんどの公開実験は期間が短すぎ、ノイズが多すぎて、確実な結論を導くには不十分であると述べている。これらの競技場には、独自の株式研究リソースへのアクセスが不可能であることや、実行品質が低いといった天然の不利な点がある。「これらの競技場内のいずれかのAIエージェントを、トップレベルのヘッジファンド内に直接移設すれば、そのパフォーマンスはさらに向上するだろう」と彼は言う。

業界の見通し：真正の効果のある戦略は、公の視界から静かに消え去る可能性がある

以前Coatue Managementのデータサイエンス責任者を務め、現在NX1 Capitalに在籍するAlexander Izydorczykは、最近の記事で、自身が追跡しているAI取引ボットのうち、現在のところいずれも持続的なアルファ収益を示していないと指摘した。彼は、これらの競技場の制限要因は、秘密の取引機関が使用する実用的なクオンツ技術がトレーニングデータに欠けていることにあると考えている。

しかし、Izydorczykは次のような興味深い判断も残している。「初心者には、ベテランが見逃すものを見つけることができる場合がある。」彼は個人ブログで書いている。「LLMエージェントの取引戦略が本格的に効果を発揮し始めたとき、あなたはすぐにどんな情報も耳にすることはない。」

Nof1はAlpha Arena第2シーズンの準備を進めており、各AIモデルにネット検索機能、より長い思考時間、より多くのデータソース、および複数ステップの実行能力を付与する予定です。しかし、同社の核心的なビジネスモデルは、AIを直接取引席に送り込むのではなく、一般投資家がAI取引エージェントを構築するためのシステムツールを提供することにあります。この位置づけ自体が、現在のAI取引能力に対する最も現実的な評価であるかもしれません。