Hiệu suất giao dịch AI không đồng đều trong các bài kiểm tra thị trường thực

AI biết rất nhiều, nhưng hiện tại vẫn "không thể tin cậy".

Tác giả bài viết, nguồn: Dương Hạ, Dương Hạ's Vạn Sự Nhà

Trong thời gian gần đây, tôi không đang nghiên cứu và chuẩn bị công cụ Agent Trading sao?

Đã trải nghiệm nhiều phương pháp, công cụ và nền tảng giao dịch AI, tiêu tốn hàng trăm triệu token sau đó,

Một cảm nhận cốt lõi,

AI biết rất nhiều, nhưng hiện tại vẫn "không thể tin cậy".

Tôi biết, nhiều người đã tự trang bị cho mình nhiều kỹ năng tài chính trong cơn sốt tôm hùm trước đây,

Hào hứng chuẩn bị ra thị trường để chiếm lĩnh

Âm thanh dần lặng đi, tôm hùm đã bị hủy đăng ký, giờ đã xuống còn 14 nhân dân tệ một cân.

Làm thế nào để xây dựng một tác nhân giao dịch đáng tin cậy, có thể thực thi và có thể lặp lại trong thị trường vốn thực tế

Trong vài tháng qua, những sai lầm tôi đã gặp phải, tôi có thể viết ra một kinh nghiệm thực tế dài 100.000 chữ,

However, today, let's set that aside for now.

Gần đây, khi xây dựng kiến thức về kiến trúc AT, tôi đã tình cờ đọc được một bài báo khoa học rất đáng để chia sẻ cùng các bạn,

Đặc biệt khi mọi người đều chìm đắm trong thiên đường mất mát của giao dịch AI, có thể thấy rõ rằng tương lai chắc chắn sẽ có AI tham gia toàn bộ quá trình đầu tư.

Các tác giả của bài viết “AI-TRADER: BENCHMARKING AUTONOMOUS AGENTS IN REAL-TIME FINANCIAL MARKETS” đã đề xuất khung AI-Trader nhằm đánh giá hiệu quả ra quyết định tài chính của các mô hình LLM phổ biến trong môi trường hoàn toàn tự chủ, chạy thời gian thực và không bị ô nhiễm dữ liệu.

Nói một cách đơn giản, đó là kiểm tra hiệu quả của AI trong việc đầu tư chứng khoán.

Thí nghiệm được thực hiện trên ba nhóm tài sản: các cổ phiếu thành phần của NASDAQ-100 tại Mỹ, các cổ phiếu thành phần của Thượng Hải 50 tại Trung Quốc, và 10 tài sản tiền điện tử phổ biến nhất, hỗ trợ tần suất giao dịch theo giờ (美股) và theo ngày (A股, tiền điện tử).

Các mô hình AI khác nhau được đóng gói vào cùng một Agent, sử dụng MCP để truy xuất tin tức, thông tin, báo cáo tài chính và dữ liệu thị trường, có thể tự động thực hiện trích xuất cảm xúc, tính toán số liệu và gửi lệnh giao dịch.

6 thí sinh tham gia (lúc đó DS-V4 chưa được phát hành),

• DeepSeek-v3.1

• MiniMax-M2

• Claude-3.7-Sonnet

• GPT-5

• Qwen3-Max

• Gemini-2.5-Flash

Từ ngày 25 tháng 11 đến ngày 7 tháng 11, thị trường thực tế đã khởi tranh, kết quả đã được thực hiện,

MiniMax-M2 giành chức vô địch cả hai hạng mục: thị trường chứng khoán Mỹ (theo giờ) và thị trường chứng khoán Trung Quốc (theo ngày)

DS-V3.1 đã giành vị trí số một trong nhóm tiền điện tử.

Tuy nhiên, điều khắc nghiệt là,

Hầu hết các mô hình hoạt động kém trong thị trường thực tế, với lợi nhuận thấp và quản lý rủi ro yếu.

Các khuyết điểm này không thể được thể hiện trong các bài đánh giá chuẩn của các mô hình lớn.

Cùng một mô hình, nhưng ở các thị trường khác nhau, phong cách thay đổi hoàn toàn,

Ví dụ như nhà vô địch MINIMAX, khi đầu tư tại thị trường Mỹ thì theo đuổi lợi nhuận, còn tại thị trường A thì chuyển sang chiến lược phòng thủ (biến động thấp, giảm tổn thất), dường như dữ liệu huấn luyện đã nhận thức đầy đủ về sự khác biệt giữa hai thị trường này.

Trong thị trường chứng khoán Mỹ, nhiều mô hình có thể vượt trội hơn QQQ,

Khi vào thị trường cổ phiếu Trung Quốc, không có gì có thể vượt qua chỉ số SSE 50, ngay cả khi Warren Buffett hay AI mạnh nhất đến đây, bạn vẫn phải cúi đầu trước thị trường A của chúng tôi.

Ngay cả DeepSeek, vốn sinh ra và mang dòng máu định lượng,

Thị trường chứng khoán Mỹ và thị trường tiền điện tử đều hoạt động tốt, nhưng thị trường A vẫn không thể làm được gì.

Gemini của Mỹ, trung bình giao dịch ở thị trường Mỹ là 3,79, nhưng khi vào thị trường A lại giao dịch điên cuồng lên đến 4,74, nói thế nào thì cũng phải theo tục lệ địa phương chứ.

Có một số trường hợp thành công trong đó,

Ví dụ: Vào ngày 10 tháng 10, DS sử dụng công cụ Tìm kiếm để thu thập tin tức về Trump nói về "áp đặt thuế quan bổ sung lên Trung Quốc", suy luận ra rủi ro cao đối với cổ phiếu công nghệ và thực hiện chiến lược phòng thủ:

Giảm vị thế cổ phiếu công nghệ từ 99% xuống 70%

Tăng cường hàng tiêu dùng thiết yếu (PEP) và tiện ích (AEP)

Giữ lại 17,3% tiền mặt

Giảm tổn thất thành công, hiệu suất vượt trội hơn đa số mô hình

Tương tự, DS cũng đã mắc phải lỗi mà mọi AI trên thế giới đều từng mắc phải,

Bị lừa bởi một nguồn tin duy nhất,

Sau khi nhận tin tức "thị trường tăng giá chậm và bền vững", chưa xác minh chéo

Đã mua sai vào cổ phiếu năng lượng truyền thống và ngân hàng, bỏ lỡ đợt tăng giá chính của thị trường

Tiết lộ sự thiếu sót của tác nhân trong việc xác minh thông tin và sửa lỗi động

Trong môi trường giao diện thông tin và đồng bộ dữ liệu tốt, AI không mắc phải các lỗi “ảo giác” mang tính phổ biến

Thực tế, “khuyết điểm thực chiến” nằm ở việc

hoặc phân tích sai (thông tin giả),

hoặc giao dịch thường xuyên (giao dịch vô hiệu)

Hoặc hệ thống kiểm soát rủi ro thất bại (đạp trúng mìn).

Đây cũng là một vài khuyết điểm tự nhiên mà tôi đã cảm nhận trực tiếp trong các thí nghiệm AI trong vài tháng qua,

Tuy nhiên, tất cả những vấn đề này đều có cách giải quyết.

Các tác giả trong bài viết gốc,

Đồng thời, đã xây dựng một trang web chuyên dụng để theo dõi và phát triển các thí nghiệm hợp tác giao dịch giữa con người và máy móc.

Bạn còn có thể cài đặt trực tiếp skill đã sẵn có của họ để tham gia một cuộc thi giao dịch.