Kecerdasan buatan sedang mengetuk pintu ruang perdagangan Wall Street, tetapi rekodnya saat ini tidak baik.
Hasil awal daripada siri pertandingan perdagangan terbuka menunjukkan bahawa model bahasa besar (LLM) utama secara umum berprestasi lemah dalam perdagangan autonomi—kebanyakan sistem mengalami kerugian, melakukan terlalu banyak transaksi, dan membuat keputusan yang sangat berbeza apabila menerima arahan yang sama. Hasil-hasil ini menimbulkan soalan utama: sejauh manakah jurang antara LLM dan cara pasaran sebenar beroperasi?
Kes kes paling mewakili datang daripada pertandingan Alpha Arena yang dioperasikan oleh syarikat mula teknologi Nof1. Pertandingan ini mempertandingkan lapan sistem AI terkini seperti Claude daripada Anthropic, Gemini daripada Google, ChatGPT daripada OpenAI, dan Grok daripada Elon Musk dalam empat pusingan pertandingan berasingan, dengan setiap pusingan bermula dengan dana US$10,000, dan secara autonomi memperdagangkan saham teknologi Amerika dalam tempoh dua minggu. Pada akhirnya, portfolio keseluruhan mengalami kerugian sebanyak kira-kira sepertiga, dengan hanya 6 daripada 32 hasil yang berjaya mendapat keuntungan.
Pendiri Nof1, Jay Azhang, secara terus terang berkata: "Sekarang ini, memberikan wang secara langsung kepada LLM untuk berdagang sendiri masih tidak mungkin dilakukan."
Keputusan pertandingan: Kerugian, perdagangan berlebihan, dan perbezaan keputusan
Data dari Alpha Arena mengungkapkan beberapa kelemahan berulang pada LLM dalam skenario perdagangan. Dengan petunjuk yang sama, Qwen dari Alibaba menjalankan 1.418 perdagangan dalam satu babak kompetisi, sementara Grok 4.20 yang paling unggul hanya memesan 158 perdagangan. Prestasi terbaik Grok muncul pada babak di mana ia mampu mengamati kinerja pesaingnya.
Blog AI Flat Circle memantau 11 arena berkaitan pasaran, dan hasilnya menunjukkan bahawa sekurang-kurangnya satu model dalam setiap arena mencapai keuntungan, tetapi hanya dua arena yang memiliki model median dengan keuntungan positif, menunjukkan bahawa kebanyakan model sukar mengalahkan pasaran.
Perbezaan keputusan antara model-model juga menarik perhatian. Menurut Azhang, dalam ujian terkini Alpha Arena, Claude cenderung membeli panjang, Gemini tidak keberatan dengan posisi pendek, sementara Qwen bersedia menggunakan leverage tinggi untuk mengambil risiko. "Mereka masing-masing mempunyai 'peribadi' sendiri, mengurusnya hampir seperti mengurus seorang analis manusia," kata Doug Clinton, ketua Intelligent Alpha yang mengurus dana yang didorong oleh LLM, dengan memberitahu model tentang kecenderungan tertentu yang dimilikinya, hasilnya boleh diperbaiki dalam tahap tertentu.
Sempadan kemampuan: LLM mahir dalam penyelidikan, tetapi tidak mahir dalam menentukan masa untuk membeli atau menjual
Jay Azhang menunjukkan bahawa LLM mempunyai kelebihan dalam penyelidikan dan pemanggilan alat yang betul, tetapi mempunyai kelemahan sistematik pada peringkat pelaksanaan perdagangan: mereka masih tidak memahami berat masing-masing pelbagai pemboleh ubah yang mempengaruhi harga saham, seperti penilaian analis, perdagangan orang dalam, dan perubahan emosi, sehingga mudah mengalami masalah seperti masa perdagangan yang salah, saiz posisi yang tidak tepat, dan terlalu kerap membeli dan menjual.
Ujian rujukan Intelligent Alpha memberikan rujukan yang relatif positif. Ujian ini memberikan akses kepada 10 model AI terhadap dokumen kewangan, ramalan analis, rekod mesyuarat telekonferen laporan keuntungan, data ekonomi makro, dan carian web, dengan fokus pada penilaian arah ramalan keuntungan. Hasilnya menunjukkan bahawa pada Q4 2025, ChatGPT daripada OpenAI mencapai ketepatan 68% dalam meramal arah ramalan keuntungan, mencatatkan pencapaian terbaik sejauh ini. Clinton menyatakan bahawa dengan setiap pelancaran versi baharu, prestasi model secara keseluruhan menunjukkan trend peningkatan.
Masalah metodologi: Ujian lalu gagal, ujian sebenar menjadi satu-satunya pilihan
Menilai kemampuan AI dalam perdagangan menghadapi halangan metodologi mendasar. Strategi kuantitatif tradisional bergantung pada pengujian historis untuk memverifikasi keberkesanannya, tetapi kerangka ini hampir sepenuhnya gagal berlaku terhadap LLM—sebuah model yang ditanya bagaimana cara berdagang pasar Maret 2020 pada tahun 2026, sudah "mengetahui" arah masa lalu tersebut. Masalah pencemaran yang dikenal sebagai "lookahead bias" memaksa para peneliti untuk hanya menilai AI melalui pasaran nyata, yang mendorong munculnya sejumlah besar ujian patokan dan arena saat ini.
Jim Moran, penulis blog Flat Circle dan salah seorang pendiri YipitData, penyedia data alternatif sebelumnya, berpendapat bahawa kebanyakan eksperimen awam semasa ini mempunyai tempoh yang terlalu singkat dan terlalu banyak gangguan, sehingga belum mencukupi untuk menyokong kesimpulan yang pasti. Arena-arena ini juga menghadapi kelemahan semula jadi, termasuk ketidakmampuan untuk mendapatkan sumber penyelidikan saham eksklusif dan kualiti pelaksanaan yang rendah. "Jika agen AI tertentu dari arena ini dipindahkan secara langsung untuk beroperasi di dalam sebuah dana hedge terkemuka, ia sepatutnya akan berprestasi lebih baik," katanya.
Prospek industri: Strategi yang benar-benar efektif mungkin lenyap secara diam-diam dari pandangan awam
Alexander Izydorczyk, bekas ketua sains data Coatue Management dan kini bekerja di NX1 Capital, baru-baru ini menulis bahawa tiada satu pun robot perdagangan AI yang beliau teliti menunjukkan keupayaan keuntungan berterusan. Beliau percaya bahawa keterbatasan dalam arena ini terletak pada ketiadaan teknik kuantitatif praktikal yang digunakan oleh institusi perdagangan rahsia dalam data latihan mereka.
Namun, Izydorczyk juga meninggalkan satu penilaian yang menarik: "Pemula kadang-kadang dapat melihat perkara yang tidak dilihat oleh pakar." Beliau menulis dalam blog peribadinya, "Apabila strategi perniagaan agen LLM benar-benar mulai berkesan, anda tidak akan segera mendengar sebarang berita."
Nof1 sedang mempersiapkan Musim Kedua Alpha Arena, dengan perancangan untuk memberikan setiap model AI kemampuan carian web, masa berfikir yang lebih panjang, sumber data yang lebih banyak, serta kemampuan melaksanakan langkah berbilang. Namun, model perniagaan inti syarikat ini ialah menyediakan alat sistem kepada peniaga eceran untuk membina agen perniagaan AI—bukan secara langsung meletakkan AI ke atas meja perniagaan. Posisi ini sendiri mungkin merupakan catatan paling pragmatis terhadap kemampuan perniagaan AI semasa ini.
