Trí tuệ nhân tạo đang gõ cửa các phòng giao dịch ở Wall Street, nhưng thành tích hiện tại chưa mấy ấn tượng.
Các kết quả ban đầu từ chuỗi cuộc thi giao dịch công khai cho thấy các mô hình ngôn ngữ lớn (LLM) phổ biến thường hoạt động kém trong giao dịch tự chủ—hầu hết các hệ thống đều thua lỗ, giao dịch quá thường xuyên và đưa ra các quyết định hoàn toàn khác nhau khi nhận cùng một lệnh. Những kết quả này đặt ra một câu hỏi cốt lõi: Khoảng cách giữa LLM và cách thức hoạt động thực tế của thị trường thực sự sâu đến mức nào?
Trường hợp tiêu biểu nhất đến từ cuộc thi Alpha Arena do công ty khởi nghiệp công nghệ Nof1 tổ chức. Cuộc thi đưa tám hệ thống AI tiên tiến nhất, bao gồm Claude của Anthropic, Gemini của Google, ChatGPT của OpenAI và Grok của Elon Musk, vào bốn vòng thi độc lập, mỗi vòng trước khi thi đều nhận 10.000 USD vốn, tự do giao dịch cổ phiếu công nghệ Mỹ trong vòng hai tuần. Cuối cùng, tổng danh mục đầu tư thua lỗ khoảng một phần ba, trong 32 kết quả chỉ có 6 lần đạt lợi nhuận.
Người sáng lập Nof1, Jay Azhang, thẳng thắn nói: "Hiện tại, việc đưa tiền trực tiếp cho LLM để nó tự giao dịch vẫn chưa khả thi."
Kết quả cuộc thi: Thua lỗ, giao dịch quá mức và sự khác biệt trong quyết định
Dữ liệu từ Alpha Arena tiết lộ nhiều điểm yếu của các LLM hiện tại trong bối cảnh giao dịch. Với cùng một prompt, Qwen của Alibaba đã thực hiện 1.418 giao dịch trong một vòng thi, trong khi Grok 4.20 dẫn đầu chỉ đặt 158 lệnh. Thành tích tốt nhất của Grok xảy ra trong vòng thi mà nó có thể quan sát hiệu suất của đối thủ.
AI blog Flat Circle đã theo dõi 11 sân chơi liên quan đến thị trường, kết quả cho thấy trong tất cả các sân chơi, ít nhất một mô hình đã tạo lợi nhuận, nhưng chỉ có hai sân chơi có mô hình trung vị mang lợi nhuận dương, cho thấy đa số mô hình khó có thể vượt trội hơn thị trường.
Sự khác biệt trong quyết định giữa các mô hình cũng đáng chú ý. Theo Azhang, trong vòng kiểm tra mới nhất của Alpha Arena, Claude có xu hướng mua vào, Gemini không hề e ngại việc bán khống, trong khi Qwen sẵn sàng sử dụng đòn bẩy cao để chấp nhận rủi ro. "Chúng mỗi cái có một 'tính cách' riêng, việc quản lý chúng gần như giống như quản lý một nhà phân tích con người," Doug Clinton, người đứng đầu Intelligent Alpha – quỹ được điều hành bởi LLM – cho biết, bằng cách thông báo cho các mô hình về sự thiên lệch của chúng, có thể cải thiện phần nào kết quả.
Giới hạn năng lực: LLM giỏi trong nghiên cứu nhưng không giỏi trong việc lựa chọn thời điểm giao dịch
Jay Azhang chỉ ra rằng, các mô hình ngôn ngữ lớn (LLM) có ưu thế trong việc nghiên cứu và gọi đúng công cụ, nhưng lại có điểm yếu hệ thống ở khâu thực hiện giao dịch: chúng vẫn chưa hiểu rõ trọng số của nhiều biến số ảnh hưởng đến giá cổ phiếu như đánh giá của chuyên gia phân tích, giao dịch của người nội bộ, sự thay đổi tâm lý thị trường, v.v., do đó dễ gặp phải các vấn đề như chọn sai thời điểm giao dịch, quy mô vị thế không phù hợp và giao dịch quá thường xuyên.
Bài kiểm tra của Intelligent Alpha cung cấp một tham chiếu tương đối tích cực. Bài kiểm tra này cấp quyền truy cập vào các tài liệu tài chính, dự báo của nhà phân tích, bản ghi cuộc gọi báo cáo kết quả kinh doanh, dữ liệu vĩ mô và tìm kiếm trên web cho 10 mô hình AI, tập trung vào việc xác định hướng dự báo lợi nhuận. Kết quả cho thấy, trong quý 4 năm 2025, ChatGPT của OpenAI đạt độ chính xác 68% trong việc dự đoán đúng hướng dự báo lợi nhuận, ghi nhận thành tích tốt nhất từ trước đến nay. Clinton cho biết, hiệu suất của mô hình nói chung có xu hướng cải thiện sau mỗi phiên bản mới.
Khó khăn về phương pháp luận: Kiểm tra ngược không còn hiệu lực, kiểm tra thực tế trở thành lựa chọn duy nhất
Việc đánh giá khả năng giao dịch của AI gặp phải một rào cản phương pháp luận cơ bản. Các chiến lược định lượng truyền thống dựa vào kiểm tra ngược quá khứ để xác minh tính hiệu quả, nhưng khung này gần như hoàn toàn không áp dụng được cho các LLM—một mô hình được hỏi cách giao dịch thị trường tháng 3 năm 2020 vào năm 2026 đã “biết” trước diễn biến của giai đoạn đó. Vấn đề ô nhiễm được gọi là “thiên lệch hướng tới tương lai” (lookahead bias) buộc các nhà nghiên cứu phải đánh giá AI thông qua thị trường thực tế, từ đó thúc đẩy sự trỗi dậy của hàng loạt bài kiểm tra chuẩn và sân chơi hiện nay.
Jim Moran, tác giả blog Flat Circle và đồng sáng lập công ty cung cấp dữ liệu thay thế trước đây YipitData, cho rằng hầu hết các thí nghiệm công khai hiện nay có chu kỳ quá ngắn và quá nhiều nhiễu, chưa đủ để đưa ra kết luận chắc chắn. Các sân chơi này còn tồn tại những nhược điểm tự nhiên, bao gồm khả năng không tiếp cận được các nguồn nghiên cứu cổ phiếu độc quyền và chất lượng thực hiện thấp. “Nếu đưa một đại lý AI từ bất kỳ sân chơi nào trong số này vào vận hành bên trong một quỹ phòng hộ hàng đầu, hiệu suất của nó sẽ tốt hơn,” ông nói.
Triển vọng ngành: Các chiến lược thực sự hiệu quả có thể dần biến mất khỏi tầm nhìn công chúng
Alexander Izydorczyk, cựu trưởng bộ phận khoa học dữ liệu của Coatue Management và hiện đang làm việc tại NX1 Capital, gần đây đã viết bài chỉ ra rằng trong số các robot giao dịch AI mà ông theo dõi, hiện chưa có robot nào thể hiện khả năng sinh lợi vượt trội bền vững. Ông cho rằng hạn chế của các sân chơi này nằm ở việc dữ liệu huấn luyện thiếu các kỹ thuật định lượng thực tế mà các tổ chức giao dịch bí mật đang sử dụng.
Tuy nhiên, Izydorczyk cũng để lại một phán đoán đáng suy ngẫm: "Người mới bắt đầu đôi khi có thể nhìn thấy những điều mà các chuyên gia không thấy." Ông viết trên blog cá nhân, "Khi các chiến lược giao dịch của đại lý LLM thực sự bắt đầu phát huy hiệu quả, bạn sẽ không nghe thấy bất kỳ tin tức nào ngay lập tức."
Nof1 đang chuẩn bị cho Mùa 2 của Alpha Arena, với kế hoạch trang bị cho mỗi mô hình AI khả năng tìm kiếm trên web, thời gian suy nghĩ dài hơn, nhiều nguồn dữ liệu hơn và khả năng thực hiện đa bước. Tuy nhiên, mô hình kinh doanh cốt lõi của công ty là cung cấp các công cụ hệ thống để các nhà giao dịch lẻ xây dựng đại lý giao dịch AI—thay vì trực tiếp đưa AI lên vị trí giao dịch. Chính định vị này, có lẽ, đã là ghi chú thực tế nhất về năng lực giao dịch AI hiện tại.
