Искусственные интеллектуальные торговые модели испытывают трудности при тестировании на реальных рынках, большинство систем показывают убытки

CoinDesk сообщает:

Искусственный интеллект стучится в двери трейдинговых залов Уолл-стрит, но текущие результаты неутешительны.

Ранние результаты серии публичных торговых конкурсов показали, что крупные языковые модели (LLM) в целом плохо справляются с автономной торговлей — большинство систем теряют деньги, совершают чрезмерное количество сделок и принимают совершенно разные решения при получении одинаковых инструкций. Эти результаты вызывают ключевой вопрос: насколько велика пропасть между LLM и реальным функционированием рынков?

Наиболее ярким примером является конкурс Alpha Arena, организованный технологическим стартапом Nof1. В этом соревновании восемь передовых ИИ-систем — Anthropic’s Claude, Google’s Gemini, OpenAI’s ChatGPT и Grok Элона Маска — участвовали в четырех независимых раундах. Перед каждым раундом каждой системе выделялось 10 000 долларов США, которые она должна была использовать для самостоятельной торговли акциями американских технологических компаний в течение двух недель. В итоге общий инвестиционный портфель потерял около трети стоимости, и из 32 результатов только шесть оказались прибыльными.

Основатель Nof1 Джей Ажан прямо заявил: «Сейчас передать деньги напрямую LLM, чтобы она сама торгowała, — это нереально».

Результаты конкурса: убытки, чрезмерная торговля и расхождения в принятии решений

Данные Alpha Arena выявили множественные недостатки современных LLM в торговых сценариях. При одинаковых запросах Qwen от Alibaba совершил 1 418 сделок за один раунд соревнований, в то время как лучший результат Grok 4.20 составил всего 158 ордеров. Лучший результат Grok был достигнут в том раунде, когда он мог наблюдать за действиями соперников.

AI-блог Flat Circle отслеживал 11 рыночных арен, и результаты показали, что в каждой арене по крайней мере одна модель принесла прибыль, однако только в двух аренах медианная модель показала положительную доходность, что свидетельствует о том, что большинство моделей не могут опередить рынок.

Также вызывает интерес различие в решениях между моделями. По словам Ажана, в последнем тесте Alpha Arena Claude склонялся к лонг-позициям, Gemini не испытывал никаких возражений против шорт-позиций, а Qwen охотно использовал высокий плечо для принятия рисков. «У них каждая имеет свою «личность», и управлять ими почти как управлять человеческим аналитиком», — говорит Даг Клинтон, руководитель Intelligent Alpha, управляющего фондом на основе LLM. Сообщение моделям о наличии определенного смещения может частично улучшить результаты.

Границы возможностей: LLM хорошо справляется с исследованием, но не умеет выбирать момент для входа

Джей Азхан отмечает, что крупные языковые модели обладают преимуществами в исследовании и выборе правильных инструментов, но систематически уступают в исполнении торговых операций: они не понимают веса множества факторов, влияющих на цену акций, таких как аналитические рейтинги, сделки внутренних лиц и изменения настроений, что приводит к ошибкам в выборе времени сделок, неправильному размеру позиций и чрезмерной частоте покупок и продаж.

Бенчмаркинг Intelligent Alpha предоставил относительно позитивные ориентиры. В тесте 10 ИИ-моделям были предоставлены финансовые отчеты, прогнозы аналитиков, записи конференций по результатам отчетности, макроэкономические данные и доступ к веб-поиску с фокусом на определение направления прогнозов прибыли. Результаты показали, что в четвертом квартале 2025 года OpenAI ChatGPT правильно предсказал направление прогнозов прибыли с точностью 68%, что стало лучшим результатом на сегодняшний день. Клинтон отметил, что с каждым новым выпуском производительность моделей в целом улучшается.

Методологическая дилемма: бэктесты не работают, реальная торговля — единственный вариант

Оценка способностей ИИ к торговле сталкивается с фундаментальным методологическим препятствием. Традиционные количественные стратегии полагаются на тестирование на исторических данных для проверки эффективности, но эта рамка почти полностью не работает для LLM — модель, спрошенная в 2026 году, как торговать на рынке марта 2020 года, уже «знает» исход этого периода. Эта проблема загрязнения, известная как «смещение вперёд» (lookahead bias), вынуждает исследователей оценивать ИИ исключительно через реальные рыночные условия, что привело к массовому появлению различных бенчмарков и арен.

Джим Моран, автор блога Flat Circle и сооснователь альтернативного провайдера данных YipitData, считает, что большинство текущих публичных экспериментов слишком короткие и шумные, чтобы поддерживать достоверные выводы. Эти арены также имеют естественные недостатки, включая отсутствие доступа к эксклюзивным исследованиям акций и более низкое качество исполнения. «Если какого-либо ИИ-агента из этих арен напрямую перенести внутрь топового хедж-фонда, его производительность была бы выше», — говорит он.

Перспективы отрасли: действительно эффективные стратегии могут тайно исчезнуть из поля зрения общественности

Александр Изыдорчик, бывший глава отдела данных в Coatue Management и нынешний сотрудник NX1 Capital, недавно написал статью, в которой отметил, что ни один из отслеживаемых им ИИ-трейдинговых роботов пока не демонстрирует устойчивой способности генерировать сверхдоходы. Он считает, что ограничение этих систем заключается в отсутствии в обучающих данных практических количественных методов, используемых секретными торговыми институтами.

Однако Изыдорчик также оставил любопытное наблюдение: «Новички иногда могут видеть то, чего не видят опытные трейдеры». Он написал это в своем личном блоге: «Когда стратегии торговли с использованием агентов на основе LLM действительно начнут работать, вы не услышите об этом сразу».

Nof1 готовит второй сезон Alpha Arena, планируя предоставить каждой модели ИИ возможность поиска в интернете, более длительное время для размышлений, доступ к большему количеству источников данных и возможность выполнения многошаговых операций. Однако основная бизнес-модель компании заключается в предоставлении инструментов для розничных трейдеров, позволяющих создавать AI-трейдинговые агенты, а не в прямом размещении ИИ на торговых площадках. Сама по себе такая позиция, возможно, является самым практичным комментарием к текущим возможностям ИИ в трейдинге.