Моделі AI мають труднощі при тестуванні на реальних ринках, більшість систем повідомляють про збитки

icon币界网
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
Останні тестування на реальних ринках показали, що AI-торгові моделі важко генерувати прибуток. У конкурсі Alpha Arena вісім систем, включаючи Claude, Gemini та ChatGPT, керували кожна $10 000 у торгівлі акціями технологічних компаній США. З 32 результатів лише шість показали зростання, а загальний портфель знизився приблизно на 33%. Надмірна активність торгівлі та поганий таймінг погіршили результати. Високий обсяг торгівлі не призвів до прибутку, що виявило розрив між можливостями AI та реальними ринковими умовами.
CoinDesk повідомляє:

Штучний інтелект стукає у двері трейдингових кімнат Уолл-стріт, але наразі його результати не дуже втішні.

Ранні результати серії публічних торгівельних конкурсів показали, що основні великі мовні моделі (LLM) загалом погано впоралися з автономною торгівлею — більшість систем зазнали збитків, здійснювали надмірну кількість угод і приймали різноманітні рішення при отриманні однакових інструкцій. Ці результати викликали ключове питання: якою глибокою є розрив між LLM і реальним функціонуванням ринків?

Найбільш відомим прикладом є змагання Alpha Arena, організоване технологічним стартапом Nof1. У змаганні брали участь вісім передових AI-систем, зокрема Claude від Anthropic, Gemini від Google, ChatGPT від OpenAI та Grok від Elon Musk. Кожна система отримала по 10 000 доларів США перед кожним із чотирьох раундів і протягом двох тижнів самостійно торгувала акціями американських технологічних компаній. У підсумку загальний портфель зазнав збитків приблизно на третину, і лише 6 із 32 результатів принесли прибуток.

Засновник Nof1 Джей Азханг прямо сказав: "Зараз не вдається просто передати гроші LLM і дозволити йому торгувати самостійно."

Результати конкурсу: збитки, надмірна торгівля та розбіжності у прийнятті рішень

Дані Alpha Arena виявили кілька недоліків сучасних LLM у торгівельних сценаріях. При однакових запитах Qwen від Alibaba виконав 1 418 угод за один раунд, тоді як найкращий результат Grok 4.20 — лише 158 замовлень. Найкращий результат Grok був досягнутий у тому раунді, коли він міг спостерігати за виступом суперників.

AI-блог Flat Circle прослідкував 11 ринкових арен, і результати показали, що в кожній арені принаймні одна модель отримала прибуток, але лише в двох аренах медіанна модель мала позитивний дохід, що свідчить про те, що більшість моделей важко перевершити ринок.

Також варто звернути увагу на відмінності у прийнятті рішень між моделями. За словами Azhang, у найновішому тесті Alpha Arena Claude схильний до довгих позицій, Gemini не має жодних застережень щодо коротких позицій, а Qwen охоче використовує високий плече для прийняття ризиків. «Вони кожна має власну «особистість», і керувати ними майже як керувати людським аналітиком», — сказав Даг Клінтон, керівник Intelligent Alpha, який керує фондом на основі LLM. Інформування моделей про наявність певних упереджень може частково покращити результати.

Межі здібностей: LLM добре впорається з дослідженнями, але не впорається з вибором часу для угоди

Джей Азхан зазначає, що великі мовні моделі мають переваги у дослідженні та використанні правильних інструментів, але мають системні недоліки на рівні виконання угод: вони ще не розуміють вагу багатьох факторів, що впливають на ціну акцій, таких як аналітичні оцінки, угоди внутрішніх осіб, зміни настроїв тощо, що призводить до неправильного вибору моменту для угод, невідповідного розміру позицій та надмірної частоти купівлі-продажу.

Бенчмарки Intelligent Alpha надають відносно позитивний контекст. У цьому тесті 10 моделей ШІ отримали доступ до фінансових документів, прогнозів аналітиків, транскриптів конференцій з результатами, макроекономічних даних та інтернет-пошуку, зосереджуючись на визначенні напрямку прогнозів прибутку. Результати показали, що у четвертому кварталі 2025 року ChatGPT від OpenAI правильно передбачив напрямок прогнозів прибутку з точністю 68%, що є найкращим результатом на сьогодні. Клінтон зазначив, що з кожним новим випуском продукту загальна продуктивність моделей покращується.

Методологічна дилема: історичне тестування не працює, реальне тестування — єдиний варіант

Оцінка здатності ШІ до торгівлі стикається з фундаментальною методологічною перешкодою. Традиційні квантифікаційні стратегії залежать від перевірки ефективності за допомогою історичного бектестингу, але ця рамка майже повністю не працює для ВМ — модель, якій у 2026 році запитують, як торгувати ринком березня 2020 року, вже «знає» напрямок цієї історії. Цей проблемний ефект, відомий як «передбачувальний упередження» (lookahead bias), змушує дослідників оцінювати ШІ лише через реальні ринкові умови, що призвело до масового з’явлення різноманітних тестових стандартів та арен.

Джим Моран, автор блогу Flat Circle та співзасновник YipitData, колишнього постачальника альтернативних даних, вважає, що більшість поточних публічних експериментів мають надто короткий цикл та надто багато шуму, щоб підтримувати впевнені висновки. Ці арени також мають природні недоліки, зокрема неможливість отримати власні дослідження акцій та нижчу якість виконання. «Якщо будь-який із цих AI-агентів із цих арен безпосередньо перенести до внутрішнього використання в топовому хедж-фонді, його продуктивність була б кращою», — сказав він.

Перспективи галузі: справжні ефективні стратегії можуть тихо зникнути з поля зору громадськості

Олександр Ізидорчік, колишній керівник наукових даних Coatue Management, що зараз працює в NX1 Capital, недавно написав, що жоден з відстежуваних ним AI-трейдингових роботів не продемонстрував стійкої здатності до отримання надприбутковості. Він вважає, що обмеження цих арен полягають у відсутності практичних квантових технологій, які використовуються таємними торговими інституціями, у навчальних даних.

Однак Izydorczyk також залишив дивне спостереження: «Початківці іноді бачать те, чого не бачать досвідчені». Він написав у своєму особистому блозі: «Коли стратегії торгівлі з використанням LLM-агентів справді почнуть працювати, ви негайно не почуєте ніяких новин».

Nof1 готує другий сезон Alpha Arena, плануючи надати кожній моделі ШІ можливості пошуку в інтернеті, більш тривалого часу на міркування, більше джерел даних та здатність виконувати багатокрокові дії. Однак основна бізнес-модель компанії полягає у наданні інструментів для розробки ШІ-трейдерів для роздрібних трейдерів — а не у прямому виведенні ШІ на торгівельну арену. Саме таке позиціонування, можливо, є найбільш практичною оцінкою поточних можливостей ШІ в торгівлі.

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.