Моделі AI мають труднощі при тестуванні на реальних ринках, більшість систем повідомляють про збитки

CoinDesk повідомляє:

Штучний інтелект стукає у двері трейдингових кімнат Уолл-стріт, але наразі його результати не дуже втішні.

Ранні результати серії публічних торгівельних конкурсів показали, що основні великі мовні моделі (LLM) загалом погано впоралися з автономною торгівлею — більшість систем зазнали збитків, здійснювали надмірну кількість угод і приймали різноманітні рішення при отриманні однакових інструкцій. Ці результати викликали ключове питання: якою глибокою є розрив між LLM і реальним функціонуванням ринків?

Найбільш відомим прикладом є змагання Alpha Arena, організоване технологічним стартапом Nof1. У змаганні брали участь вісім передових AI-систем, зокрема Claude від Anthropic, Gemini від Google, ChatGPT від OpenAI та Grok від Elon Musk. Кожна система отримала по 10 000 доларів США перед кожним із чотирьох раундів і протягом двох тижнів самостійно торгувала акціями американських технологічних компаній. У підсумку загальний портфель зазнав збитків приблизно на третину, і лише 6 із 32 результатів принесли прибуток.

Засновник Nof1 Джей Азханг прямо сказав: "Зараз не вдається просто передати гроші LLM і дозволити йому торгувати самостійно."

Результати конкурсу: збитки, надмірна торгівля та розбіжності у прийнятті рішень

Дані Alpha Arena виявили кілька недоліків сучасних LLM у торгівельних сценаріях. При однакових запитах Qwen від Alibaba виконав 1 418 угод за один раунд, тоді як найкращий результат Grok 4.20 — лише 158 замовлень. Найкращий результат Grok був досягнутий у тому раунді, коли він міг спостерігати за виступом суперників.

AI-блог Flat Circle прослідкував 11 ринкових арен, і результати показали, що в кожній арені принаймні одна модель отримала прибуток, але лише в двох аренах медіанна модель мала позитивний дохід, що свідчить про те, що більшість моделей важко перевершити ринок.

Також варто звернути увагу на відмінності у прийнятті рішень між моделями. За словами Azhang, у найновішому тесті Alpha Arena Claude схильний до довгих позицій, Gemini не має жодних застережень щодо коротких позицій, а Qwen охоче використовує високий плече для прийняття ризиків. «Вони кожна має власну «особистість», і керувати ними майже як керувати людським аналітиком», — сказав Даг Клінтон, керівник Intelligent Alpha, який керує фондом на основі LLM. Інформування моделей про наявність певних упереджень може частково покращити результати.

Межі здібностей: LLM добре впорається з дослідженнями, але не впорається з вибором часу для угоди

Джей Азхан зазначає, що великі мовні моделі мають переваги у дослідженні та використанні правильних інструментів, але мають системні недоліки на рівні виконання угод: вони ще не розуміють вагу багатьох факторів, що впливають на ціну акцій, таких як аналітичні оцінки, угоди внутрішніх осіб, зміни настроїв тощо, що призводить до неправильного вибору моменту для угод, невідповідного розміру позицій та надмірної частоти купівлі-продажу.

Бенчмарки Intelligent Alpha надають відносно позитивний контекст. У цьому тесті 10 моделей ШІ отримали доступ до фінансових документів, прогнозів аналітиків, транскриптів конференцій з результатами, макроекономічних даних та інтернет-пошуку, зосереджуючись на визначенні напрямку прогнозів прибутку. Результати показали, що у четвертому кварталі 2025 року ChatGPT від OpenAI правильно передбачив напрямок прогнозів прибутку з точністю 68%, що є найкращим результатом на сьогодні. Клінтон зазначив, що з кожним новим випуском продукту загальна продуктивність моделей покращується.

Методологічна дилема: історичне тестування не працює, реальне тестування — єдиний варіант

Оцінка здатності ШІ до торгівлі стикається з фундаментальною методологічною перешкодою. Традиційні квантифікаційні стратегії залежать від перевірки ефективності за допомогою історичного бектестингу, але ця рамка майже повністю не працює для ВМ — модель, якій у 2026 році запитують, як торгувати ринком березня 2020 року, вже «знає» напрямок цієї історії. Цей проблемний ефект, відомий як «передбачувальний упередження» (lookahead bias), змушує дослідників оцінювати ШІ лише через реальні ринкові умови, що призвело до масового з’явлення різноманітних тестових стандартів та арен.

Джим Моран, автор блогу Flat Circle та співзасновник YipitData, колишнього постачальника альтернативних даних, вважає, що більшість поточних публічних експериментів мають надто короткий цикл та надто багато шуму, щоб підтримувати впевнені висновки. Ці арени також мають природні недоліки, зокрема неможливість отримати власні дослідження акцій та нижчу якість виконання. «Якщо будь-який із цих AI-агентів із цих арен безпосередньо перенести до внутрішнього використання в топовому хедж-фонді, його продуктивність була б кращою», — сказав він.

Перспективи галузі: справжні ефективні стратегії можуть тихо зникнути з поля зору громадськості

Олександр Ізидорчік, колишній керівник наукових даних Coatue Management, що зараз працює в NX1 Capital, недавно написав, що жоден з відстежуваних ним AI-трейдингових роботів не продемонстрував стійкої здатності до отримання надприбутковості. Він вважає, що обмеження цих арен полягають у відсутності практичних квантових технологій, які використовуються таємними торговими інституціями, у навчальних даних.

Однак Izydorczyk також залишив дивне спостереження: «Початківці іноді бачать те, чого не бачать досвідчені». Він написав у своєму особистому блозі: «Коли стратегії торгівлі з використанням LLM-агентів справді почнуть працювати, ви негайно не почуєте ніяких новин».

Nof1 готує другий сезон Alpha Arena, плануючи надати кожній моделі ШІ можливості пошуку в інтернеті, більш тривалого часу на міркування, більше джерел даних та здатність виконувати багатокрокові дії. Однак основна бізнес-модель компанії полягає у наданні інструментів для розробки ШІ-трейдерів для роздрібних трейдерів — а не у прямому виведенні ШІ на торгівельну арену. Саме таке позиціонування, можливо, є найбільш практичною оцінкою поточних можливостей ШІ в торгівлі.