Kinerja Perdagangan AI Beragam dalam Uji Pasar Nyata

AI tahu sangat banyak, tetapi saat ini 'tidak dapat diandalkan'.

Penulis artikel, sumber: Yang Xia, Yang Xia's Everything Shop

Belakangan ini, bukankah saya sedang meneliti dan mempersiapkan alat Agent Trading?

Setelah menguji berbagai metode, alat, dan platform AI trading, menghabiskan ratusan juta token,

Sebuah perasaan inti,

AI tahu sangat banyak, tetapi saat ini 'tidak dapat diandalkan'.

Saya tahu, banyak orang memasang berbagai keterampilan keuangan saat gelombang lobster sebelumnya,

Bersiap antusias untuk menguasai pasar,

Hasilnya suara perlahan meredup, lobster dibatalkan, harganya sudah 14 yuan per jin.

Bagaimana membangun agen perdagangan yang dapat dipercaya, dapat dieksekusi, dan dapat diiterasi di pasar modal nyata,

Beberapa bulan terakhir, saya bisa menulis pengalaman langsung sepanjang 100.000 kata,

Namun, hari ini, mari kita tunda pembahasannya terlebih dahulu.

Baru-baru ini, saat membangun pengetahuan arsitektur AT, saya menemukan sebuah paper yang sangat layak dibagikan dengan Anda,

Terutama ketika semua orang tenggelam dalam paradiso hilang dari perdagangan AI, jelas terlihat bahwa masa depan pasti akan melibatkan AI sepenuhnya dalam investasi.

Para penulis makalah berjudul "AI-TRADER: BENCHMARKING AUTONOMOUS AGENTS IN REAL-TIME FINANCIAL MARKETS" mengusulkan kerangka AI-Trader untuk mengevaluasi kinerja keputusan keuangan dari model LLM utama dalam lingkungan yang sepenuhnya otonom, berjalan secara real-time, dan bebas kontaminasi data.

Secara sederhana, ini adalah uji coba seberapa baik AI dalam berdagang saham.

Eksperimen memilih tiga kelompok aset: saham komponen Nasdaq 100 AS, saham komponen Shanghai SSE 50 Tiongkok, dan 10 aset kripto utama, dengan frekuensi perdagangan jam-an (saham AS) dan harian (saham Tiongkok dan aset kripto).

Berbagai model AI yang dibungkus dalam agen yang sama, menggunakan MCP untuk mengambil berita, informasi, laporan keuangan, dan data pasar, dapat secara mandiri mengekstraksi sentimen, melakukan perhitungan numerik, dan mengirimkan perintah perdagangan.

6 peserta (pada saat itu DS-V4 belum dirilis),

• DeepSeek-v3.1

• MiniMax-M2

• Claude-3.7-Sonnet

• GPT-5

• Qwen3-Max

• Gemini-2.5-Flash

Dari 25 November hingga 7 November, pasar nyata dimulai, hasil yang diperoleh,

MiniMax-M2 memenangkan dua gelar, pasar saham AS (per jam) dan pasar saham Tiongkok (per hari),

DS-V3.1 memenangkan peringkat pertama di grup kripto.

Namun yang kejam adalah,

Sebagian besar model berkinerja buruk di pasar nyata, dengan penghasilan rendah dan manajemen risiko lemah.

Kekurangan-kekurangan ini tidak dapat terlihat dalam berbagai evaluasi benchmark model.

Model yang sama, di pasar yang berbeda, gayanya sangat berbeda,

Misalnya, juara MINIMAX, yang mengejar imbal hasil di pasar saham AS dan beralih ke strategi defensif di pasar saham Tiongkok (volatilitas rendah, drawdown rendah), tampaknya memahami perbedaan antara kedua pasar tersebut dengan baik dalam data pelatihannya.

Di pasar saham AS, beberapa model dapat mengungguli QQQ,

Di pasar saham Tiongkok, tidak ada yang mampu mengalahkan SSE 50; bahkan jika Warren Buffett datang atau AI terkuat pun datang, di pasar A kami, tetap harus tunduk.

Bahkan DeepSeek, yang lahir dan tumbuh dengan darah kuantitatif,

Performa baik di pasar saham AS dan kripto, tapi tidak bisa bersaing di pasar saham A.

Gemini di AS, rata-rata perdagangan di pasar saham AS sebesar 3,79, tetapi di pasar saham Tiongkok operasi liar mencapai 4,74, bagaimana katakan lagi, ikuti adat setempat.

Ada beberapa kasus sukses di dalamnya,

Misalnya, pada 10 Oktober, DS menggunakan alat Search untuk mendapatkan berita tentang Trump mengenai "pemungutan tarif tambahan terhadap Tiongkok", menyimpulkan bahwa saham teknologi berisiko tinggi, dan menjalankan strategi defensif:

Posisi saham teknologi turun dari 99% menjadi 70%

Tambahkan kebutuhan pokok konsumen (PEP) dan utilitas (AEP)

Simpan 17,3% kas

Berhasil mengurangi kerugian, kinerja lebih baik daripada sebagian besar model

Demikian pula, DS juga melakukan kesalahan yang sama dengan semua AI di dunia,

Tertipu oleh satu sumber saja,

Menerima berita "bull market struktural lambat" tanpa melakukan verifikasi silang

Salah menambah posisi pada saham energi tradisional dan perbankan, melewatkan gelombang utama pasar

Mengungkapkan kekurangan agen dalam verifikasi informasi dan koreksi dinamis

Dalam lingkungan antarmuka informasi yang baik dan penyelarasan data yang tepat, AI tidak membuat kesalahan "halusinasi" secara umum,

Kekurangan sebenarnya dalam "praktik langsung" terletak pada,

atau analisis yang salah (informasi palsu),

atau sering melakukan transaksi (transaksi tidak efektif),

Atau risiko kontrol gagal (terkena ranjau).

Ini juga beberapa kelemahan alami yang saya rasakan langsung dalam eksperimen AI selama beberapa bulan terakhir,

Namun, semua masalah ini memiliki solusi.

Beberapa penulis dalam teks asli,

Juga membangun situs web khusus untuk melacak dan mengembangkan eksperimen kolaborasi perdagangan manusia-mesin selanjutnya,

Anda juga bisa langsung menginstal skill yang sudah siap pakai untuk mengikuti kompetisi perdagangan.