Prestasi Perdagangan AI Bercampur dalam Ujian Pasaran Sebenar

AI mengetahui banyak perkara, tetapi pada masa ini 'tidak boleh dipercayai'.

Penulis artikel, sumber: Yang Xia, Yang Xia's Everything Shop

Dalam tempoh terakhir ini, bukankah saya sedang menyelidik dan bersiap sedia alat Agent Trading?

Setelah mencuba pelbagai kaedah, alat, dan platform perdagangan AI, dan menghabiskan miliaran token,

Satu perasaan utama,

AI mengetahui banyak perkara, tetapi pada masa ini 'tidak boleh dipercayai'.

Saya tahu, ramai orang memasang pelbagai kemahiran kewangan semasa gelombang udang karang sebelum ini,

Bersiap dengan bersemangat untuk menguasai pasaran,

Suara akhirnya meredup, lobster dibatalkan, harganya sudah RM14 sekilogram.

Bagaimana untuk membina agen perdagangan yang boleh dipercayai, boleh dilaksanakan, dan boleh diulang semula dalam pasaran modal sebenar,

Dalam beberapa bulan terakhir, saya boleh menulis pengalaman langsung sebanyak 100,000 patah perkataan,

Namun, hari ini, mari kita tangguhkan pembahasan ini terlebih dahulu.

Semasa membina pengetahuan arsitektur AT baru-baru ini, saya terjumpa sebuah kertas kerja yang sangat patut dibahagikan dengan anda,

Terutamanya apabila semua orang tenggelam dalam kehilangan syurga perdagangan AI, jelas kelihatan bahawa masa depan pasti akan melibatkan AI sepenuhnya dalam pelaburan.

Penulis artikel berjudul "AI-TRADER: BENCHMARKING AUTONOMOUS AGENTS IN REAL-TIME FINANCIAL MARKETS" mengusulkan kerangka AI-Trader dengan tujuan menilai keberkesanan model LLM utama dalam membuat keputusan kewangan secara sepenuhnya autonom, beroperasi secara masa nyata, dalam persekitaran tanpa pencemaran data.

Secara ringkas, ia adalah ujian terhadap keberkesanan AI dalam perdagangan saham.

Eksperimen ini memilih kumpulan aset dari saham-saham komponen Nasdaq 100 AS, saham-saham komponen Shanghai SSE 50 Tiongkok, dan 10 aset kripto utama, dengan menyokong frekuensi perdagangan per jam (saham AS) dan harian (saham Tiongkok dan kripto).

Model AI yang berbeza, diwadahkan ke dalam Agent yang sama, menggunakan MCP untuk mengambil berita, maklumat, laporan kewangan, dan data pasaran, boleh secara autonomi menyelesaikan ekstraksi emosi, pengiraan nombor, dan penghantaran arahan perdagangan.

6 peserta (DS-V4 belum dikeluarkan pada masa itu),

• DeepSeek-v3.1

• MiniMax-M2

• Claude-3.7-Sonnet

• GPT-5

• Qwen3-Max

• Gemini-2.5-Flash

Dari 25 November hingga 7 November, pasaran sebenar bermula, hasil yang diperoleh,

MiniMax-M2 memenangi dua juara, pasaran saham AS (jam-an) dan pasaran saham A (hari-an),

DS-V3.1 memenangi tempat pertama dalam kategori kripto.

Namun, yang kejamnya,

Kebanyakan model berprestasi lemah di pasaran sebenar, dengan pulangan rendah dan pengurusan risiko yang lemah.

Kelemahan-kelemahan ini tidak dapat ditunjukkan dalam penilaian piawai model kelas utama.

Model yang sama, di pasaran yang berbeza, gaya berbeza besar,

Sebagai contoh, juara MINIMAX mengejar keuntungan di pasaran AS, tetapi beralih ke pertahanan (volatiliti rendah, penurunan rendah) di pasaran A, nampaknya data latihan memahami perbezaan antara dua pasaran ini dengan baik.

Di pasaran saham AS, beberapa model mampu mengalahkan QQQ,

Di pasaran saham A, tiada satu pun yang mampu mengalahkan SSE 50; sekalipun Warren Buffett atau AI terkuat datang, di pasaran A kami, mereka tetap akan tunduk.

Walaupun DeepSeek yang berasal dari tempatan dan memiliki darah kuantitatif,

Performing well in US stocks and crypto markets, but still can't compete in A-shares.

Gemini di Amerika Syarikat, purata perdagangan di pasaran saham AS ialah 3.79, tetapi di pasaran A, ia dipergunakan secara gila-gilaan hingga 4.74, bagaimana pun, ikut adat tempatan lah.

Ada beberapa kes berjaya di dalamnya,

Sebagai contoh, pada 10 Oktober, DS menggunakan alat Carian untuk mendapatkan berita mengenai Trump mengenai “peningkatan cukai terhadap China”, menyimpulkan bahawa saham teknologi mempunyai risiko tinggi, dan melaksanakan strategi pertahanan:

Posisi saham teknologi turun dari 99% ke 70%

Tambah keperluan harian (PEP) dan utiliti (AEP)

Simpan 17.3% tunai

Berjaya mengurangkan kerugian, berprestasi lebih baik daripada kebanyakan model

Demikian juga, DS telah melakukan kesilapan yang sama seperti semua AI di dunia ini,

Diperalak oleh sumber tunggal

Menerima berita "bull market perlahan berstruktur" tanpa melakukan pengesilan silang

Kesilapan menambah posisi dalam saham tenaga tradisional dan perbankan, serta melepas gelombang utama pasaran

Mendedahkan kekurangan agen dalam pengesahan maklumat dan pembaikan dinamik

Dalam persekitaran antaramuka maklumat yang baik dan selarasan data, AI tidak membuat kesilapan "halusinasi" secara am,

Cacat sebenar "praktikal" terletak pada,

atau analisis yang salah (maklumat palsu),

atau sering melakukan transaksi (transaksi tidak berkesan),

Either risk control fails (steps on a landmine).

Ini juga merupakan beberapa kelemahan semula jadi yang saya rasakan secara langsung dalam eksperimen AI saya dalam beberapa bulan terakhir,

Namun, semua masalah ini mempunyai penyelesaian.

Beberapa penulis dalam teks asal,

Sekaligus membina laman web khas untuk mengikuti dan membangunkan eksperimen kerjasama perdagangan manusia-mesin seterusnya,

Anda juga boleh secara langsung memasang skill yang sudah siap sedia untuk menyertai pertandingan perdagangan.