Model perdagangan AI kesulitan dalam uji pasar langsung, sebagian besar sistem melaporkan kerugian

Berita CoinWorld:

Kecerdasan buatan sedang mengetuk pintu ruang perdagangan Wall Street, tetapi catatan kinerjanya saat ini tidak baik.

Hasil awal dari serangkaian kompetisi perdagangan terbuka menunjukkan bahwa model bahasa besar (LLM) utama secara umum berkinerja buruk dalam perdagangan otonom—sebagian besar sistem mengalami kerugian, terlalu sering melakukan perdagangan, dan membuat keputusan yang sangat berbeda meskipun menerima instruksi yang sama. Hasil-hasil ini memunculkan pertanyaan inti: seberapa dalam kesenjangan antara LLM dan cara kerja pasar sebenarnya.

Kasus paling representatif berasal dari kompetisi Alpha Arena yang dioperasikan oleh perusahaan rintisan teknologi Nof1. Kompetisi ini menempatkan delapan sistem AI mutakhir, termasuk Claude dari Anthropic, Gemini dari Google, ChatGPT dari OpenAI, dan Grok dari Elon Musk, dalam empat putaran kompetisi independen. Setiap tim memperoleh dana sebesar $10.000 sebelum setiap putaran dan secara mandiri melakukan perdagangan saham teknologi AS selama dua minggu. Pada akhirnya, portofolio investasi secara keseluruhan mengalami kerugian sekitar sepertiga, dengan hanya 6 dari 32 hasil yang menghasilkan keuntungan.

Pendiri Nof1, Jay Azhang, secara langsung mengatakan: "Saat ini, jalan untuk langsung memberikan uang kepada LLM agar ia melakukan perdagangan sendiri belum bisa ditempuh."

Hasil kompetisi: Kerugian, perdagangan berlebihan, dan perbedaan keputusan

Data Alpha Arena mengungkapkan berbagai kelemahan LLM saat ini dalam skenario perdagangan. Dengan prompt yang sama, Qwen dari Alibaba melakukan 1.418 transaksi dalam satu babak kompetisi, sementara Grok 4.20 yang paling unggul hanya melakukan 158 pesanan. Hasil terbaik Grok muncul pada babak di mana ia mampu mengamati kinerja pesaingnya.

AI blog Flat Circle melacak 11 arena terkait pasar, dan hasilnya menunjukkan bahwa setidaknya satu model di setiap arena mencapai keuntungan, tetapi hanya dua arena yang memiliki model median dengan keuntungan positif, menunjukkan bahwa sebagian besar model kesulitan mengungguli pasar.

Perbedaan keputusan antar model juga menarik perhatian. Menurut Azhang, dalam uji coba terbaru Alpha Arena, Claude cenderung membeli, Gemini tidak memiliki keberatan terhadap posisi jual pendek, sementara Qwen senang menggunakan leverage tinggi untuk mengambil risiko. "Mereka masing-masing memiliki 'kepribadian' sendiri, mengelolanya hampir seperti mengelola seorang analis manusia," kata Doug Clinton, kepala Intelligent Alpha yang mengelola dana yang didorong oleh LLM, dengan memberi tahu model tentang adanya bias tertentu, hasilnya dapat diperbaiki hingga batas tertentu.

Batas kemampuan: LLM unggul dalam penelitian, tetapi kurang unggul dalam pemilihan waktu

Jay Azhang menunjukkan bahwa LLM memiliki keunggulan dalam penelitian dan pemanggilan alat yang tepat, tetapi memiliki kelemahan sistematis pada tahap eksekusi perdagangan: mereka belum memahami bobot berbagai variabel yang memengaruhi harga saham, seperti peringkat analis, transaksi insider, dan perubahan sentimen, sehingga rentan mengalami kesalahan waktu perdagangan, ukuran posisi yang tidak tepat, serta terlalu sering membeli dan menjual.

Uji coba Intelligent Alpha memberikan acuan yang relatif positif. Uji coba ini memberikan akses kepada 10 model AI terhadap dokumen keuangan, prediksi analis, transkrip rapat laporan keuangan, data makroekonomi, dan kemampuan pencarian web, dengan fokus pada penilaian arah prediksi laba. Hasilnya menunjukkan bahwa pada kuartal keempat 2025, ChatGPT dari OpenAI mencapai akurasi 68% dalam memprediksi arah prediksi laba, mencatat pencapaian terbaik hingga saat ini. Clinton menyatakan bahwa seiring rilis setiap versi baru, kinerja model secara keseluruhan menunjukkan tren perbaikan.

Kesulitan metodologis: Backtest gagal, uji coba langsung menjadi satu-satunya pilihan

Mengevaluasi kemampuan perdagangan AI menghadapi hambatan metodologis mendasar. Strategi kuantitatif tradisional bergantung pada pengujian historis untuk memvalidasi efektivitasnya, tetapi kerangka ini hampir sepenuhnya gagal untuk LLM—sebuah model yang ditanya bagaimana cara berdagang pasar Maret 2020 pada tahun 2026 sudah "mengetahui" arah masa lalu tersebut. Masalah kontaminasi yang disebut "lookahead bias" ini memaksa para peneliti untuk hanya mengevaluasi AI melalui pasar nyata, yang mendorong munculnya sejumlah besar benchmark dan arena saat ini.

Jim Moran, penulis blog Flat Circle dan co-founder penyedia data alternatif sebelumnya YipitData, berpendapat bahwa sebagian besar eksperimen publik saat ini terlalu singkat dan terlalu penuh noise untuk mendukung kesimpulan yang pasti. Arena-arena ini juga memiliki kelemahan alami, termasuk ketidakmampuan untuk mengakses sumber daya riset saham eksklusif dan kualitas eksekusi yang lebih rendah. "Jika agen AI tertentu dari arena-arena ini langsung dipindahkan untuk beroperasi di dalam hedge fund top, kinerjanya seharusnya akan lebih baik," katanya.

Prospek industri: Strategi yang benar-benar efektif mungkin akan menghilang secara diam-diam dari pandangan publik

Alexander Izydorczyk, mantan kepala ilmu data di Coatue Management dan kini bekerja di NX1 Capital, baru-baru ini menulis bahwa tidak ada satu pun robot perdagangan AI yang ia lacak yang menunjukkan kemampuan menghasilkan keuntungan berkelanjutan. Ia berpendapat bahwa keterbatasan arena ini terletak pada kurangnya teknik kuantitatif praktis yang digunakan oleh lembaga perdagangan rahasia dalam data pelatihan mereka.

Namun, Izydorczyk juga meninggalkan sebuah penilaian yang menarik: "Pemula terkadang dapat melihat hal-hal yang tidak terlihat oleh para ahli." Tulisnya di blog pribadinya, "Ketika strategi perdagangan agen LLM benar-benar mulai berjalan, Anda tidak akan langsung mendengar kabar apa pun."

Nof1 sedang mempersiapkan musim kedua Alpha Arena, dengan rencana memberikan setiap model AI kemampuan pencarian web, waktu berpikir lebih lama, lebih banyak sumber data, dan kemampuan eksekusi multi-langkah. Namun, model bisnis inti perusahaan adalah menyediakan alat sistem bagi trader ritel untuk membangun agen perdagangan AI—bukan langsung menempatkan AI di kursi perdagangan. Posisi ini sendiri mungkin merupakan catatan paling pragmatis terhadap kemampuan perdagangan AI saat ini.