Nakakaranas ng mga pagkabigo ang AI Trading Models sa mga pagsusulit sa aktwal na merkado, at ang karamihan sa mga sistema ay nagrereport ng mga pagkawala

Inilathala ng CoinDesk:

Ang artificial intelligence ay humihinga sa pinto ng mga trading room ng Wall Street, ngunit ang kanilang record hanggang sa ngayon ay hindi mabuti.

Ang mga early results ng isang serye ng open trading competitions ay nagpapakita na ang mga pangunahing malalaking language models (LLM) ay karaniwang nagkakaroon ng mahinang pagganap sa autonomous trading—ang karamihan sa mga sistema ay nagkakaroon ng loss, sobrang madalas ang pagtrading, at gumagawa ng magkakaibang desisyon sa pagtanggap ng parehong utos. Ang mga resultang ito ay nagtatanong sa isang pangunahing tanong: Ano ang kalaliman ng pagkakaiba sa pagitan ng LLM at ang tunay na paggana ng merkado?

Ang pinakamakapangyarihang kaso ay mula sa Alpha Arena competition na pinamamahalaan ng tech startup na Nof1. Ang kompetisyon ay nagpapalaban ng walong modernong AI system tulad ng Claude mula sa Anthropic, Gemini mula sa Google, ChatGPT mula sa OpenAI, at Grok mula kay Elon Musk sa apat na hiwalay na round, kung saan bawat isa ay nakuha ang $10,000 bago bawat round at nagtrabaho nang sarili nila sa pagtrading ng mga tech stock sa Amerika sa loob ng dalawang linggo. Sa huli, ang kabuuang portfolio ay nawalan ng halos isang-katlo, at sa 32 resulta, lamang ang anim ang nakamit ng kita.

Sinabi ng founder ng Nof1, Jay Azhang: "Hindi pa posible ang pagbibigay ng pera nang direkta sa LLM para mag-trade nang sarili ito."

Mga resulta ng kompetisyon: Pagkawala, sobrang pagtrading, at pagkakaiba-iba sa desisyon

Ang mga data ng Alpha Arena ay nagpapakita ng maraming kakulangan ng kasalukuyang LLM sa mga trading scenario. Sa parehong prompt, nag-execute ang Qwen ng Alibaba ng 1,418 na trade sa isang round ng kompetisyon, habang ang pinakamahusay na Grok 4.20 ay nag-order lamang ng 158 na order. Ang pinakamahusay na resulta ng Grok ay nangyari sa round kung saan nakakakita ito ng performance ng mga kalaban.

Tinatayo ng AI blog na Flat Circle ang 11 na market-related arenas, at ang resulta ay nagpapakita na sa lahat ng arenas, mayroong kahit isang model na nakamit ng kita, ngunit ang median model ay may positibong return lamang sa dalawang arenas, na nagpapakita na ang karamihan sa mga model ay mahirap makalampas sa market.

Ang mga pagkakaiba sa desisyon sa pagitan ng mga modelo ay kakaibang tandaan din. Ayon kay Azhang, sa pinakabagong pagsubok ng Alpha Arena, ang Claude ay nakatuon sa pagbili, ang Gemini ay walang pagtutol sa pagbenta, habang ang Qwen ay handang gamitin ang mataas na leverage para tanggapin ang panganib. "Mayroon silang sariling 'pagkatao,' at ang pagpaplano sa kanila ay parang pagpaplano sa isang tao na analista," sabi ni Doug Clinton, pangulo ng Intelligent Alpha na nagpapatakbo ng isang pondo na dinisenyo ng LLM, na ang pagpapahayag sa mga modelo ng kanilang pagkakaiba ay maaaring mapabuti ang resulta sa ilang antas.

Mga hangganan ng kakayahan: Ang LLM ay mahusay sa pag-aaral, ngunit hindi mahusay sa pagpili ng oras

Ipinahihiwatig ni Jay Azhang na ang LLM ay may kakayahan sa pag-aaral at paggamit ng tamang mga kasangkapan, ngunit may sistematisong kahinaan sa pagpapatupad ng mga transaksyon: hindi pa sila lubos na nakakaunawa sa timbang ng maraming mga variable na nakakaapekto sa presyo ng mga aktibo tulad ng mga rating ng analista, mga transaksyon ng loob, at pagbabago ng emosyon, kaya madalas silang nagkakaroon ng maling pagkakataon sa pagtinda, hindi angkop na laki ng posisyon, at sobrang madalas na pagbili at pagbenta.

Ang benchmark ng Intelligent Alpha ay nagbibigay ng relatibong positibong pagsusuri. Ang pagsubok ay nagbibigay ng akses sa mga pampinansyal na dokumento, mga pagtataya ng analista, mga transkripsyon ng telekonperensya sa mga pagsasalaysay, mga makroekonomikong datos, at paghahanap sa web para sa 10 AI model, na nakatuon sa paghuhusga ng direksyon ng pagtataya ng kita. Ang mga resulta ay ipinakita na ang OpenAI’s ChatGPT ay nakamit ang 68% na tamang paghuhusga sa direksyon ng pagtataya ng kita noong ikaapat na kwarter ng 2025, na naging pinakamataas na resulta hanggang sa kasalukuyan. Sinabi ni Clinton na ang pagganap ng model ay may pangkabuuang pagpapabuti habang ipinapalabas ang bawat bagong bersyon.

Paghaharap sa metodolohiya: Nabigo ang backtesting, ang real-time testing ang tanging opsyon

Ang pagtataya sa kakayahan ng AI sa pagtrabaho ay nagtatagpo sa isang pundamental na hadlang sa metodolohiya. Ang tradisyonal na mga quant strategy ay nakasalalay sa backtesting ng kasaysayan upang patunayan ang kanilang epektibidad, ngunit ang framework na ito ay halos ganap na hindi epektibo para sa LLM—isang modelo na tanungin sa 2026 kung paano traduhin ang market sa Marso 2020 ay nakaalam na ng direksyon ng kasaysayan na iyon. Ang problema sa polusyon na tinatawag na "lookahead bias" ay nagpapakailangan sa mga mananaliksik na tanging gamitin ang real-market trading upang tayaan ang AI, na nagresulta sa malaking bilang ng mga benchmark at arena na lumitaw ngayon.

Si Jim Moran, isang blogger sa Flat Circle at co-founder ng dating alternative data provider na YipitData, ay naniniwala na ang karamihan sa kasalukuyang publikong eksperimento ay sobrang maikli ang panahon at sobrang ingay, kaya hindi pa sapat para sa isang tiyak na konklusyon. Mayroon din itong likas na kahinaan, kabilang ang kakulangan sa pag-access sa proprietary na stock research at mas mababang kalidad ng pagpapatupad. "Kung i-transfer mo ang isang AI agent mula sa mga arena na ito at i-run ito sa loob ng isang top hedge fund, mas magiging mas mahusay ang kanyang performance," sabi niya.

Pangarap ng industriya: Ang mga totoong epektibong estratehiya ay maaaring mawala nang tahimik sa paningin ng publiko

Kasalukuyang data science head ng Coatue Management at kasalukuyang empleyado ng NX1 Capital, si Alexander Izydorczyk, ay isinulat na walang anumang AI trading bot na kanyang sinusubaybayan ay nagpapakita ng matatag na kakayahang magdala ng labis na kita. Naniniwala siya na ang limitasyon ng mga kompetisyon na ito ay ang kakulangan ng mga praktikal na quantitatibong teknik na ginagamit ng mga lihim na trading institusyon sa kanilang mga datos para sa pagtuturo.

Gayunpaman, iniwan ni Izydorczyk ang isang nakakapaniwala na pagsusuri: "Ang mga baguhan ay minsan ay nakikita ang mga bagay na hindi nakikita ng mga karanasan." Isinulat niya sa kanyang personal na blog, "Hindi ka agad makakarinig ng anumang balita kapag ang mga LLM agent trading strategy ay talagang nagsisimulang magtrabaho."

Nof1 ay naghahanda para sa Season 2 ng Alpha Arena, na may plano na bigyan ang bawat AI model ng kakayahan sa paghahanap sa web, mas mahabang oras para sa pag-iisip, mas maraming pinagkukunan ng datos, at maraming hakbang na pagsasagawa. Gayunpaman, ang pangunahing negosyo ng kumpanya ay ang pagbibigay ng mga sistemang tool para sa mga retail trader upang bumuo ng AI trading agents—hindi direktang ilagay ang AI sa trading floor. Ang pagkakakilanlan na ito, maaaring ang pinakamakatotohanang pagsusuri sa kasalukuyang kakayahan ng AI sa pagtrading.