Dự đoán của AI và con người trong thị trường dự đoán: Grok vượt trội hơn con người

Bản gốc | Odaily Planet Daily (@OdailyChina)

Sau khi đa số các lĩnh vực khác bị chứng minh là sai lầm, thị trường dự đoán đã trở thành một trong số ít lĩnh vực vẫn đang tăng trưởng tích cực trong ngành công nghiệp tiền mã hóa. Vào ngày 20 tháng 11, Nam Zhi bắt đầu thử áp dụng cách tiếp cận tìm kiếm "tiền thông minh" của Meme năm ngoái để tìm kiếm "tiền thông minh" trong thị trường dự đoán, và đã thực hiện...Đã đạt được kết quả tốt ban đầu.

Vào đầu tháng 12, đúng vào thời điểm Gemini 3 Pro ra mắt, khi đang kiểm tra các mô hình liên quan, tôi bỗng nghĩ đến việc liệu có thể sử dụng AI để phân tích và dự đoán thị trường, sau đó tổ chức trận đấu dự đoán giữa con người và AI xem bên nào đưa ra dự đoán chính xác hơn.

Khi giới thiệu về thị trường dự đoán, người ta thường tuyên bố rằng chúng thúc đẩy thị trường tiến gần hơn đến "sự thật" bằng cách "cho phép những người có hiểu biết đặt cược bằng tiền thật". Tuy nhiên, cũng có ý kiến cho rằng sự kết hợp giữa tiền mã hóa (Crypto) và thị trường dự đoán lại cho phép những "người nắm thông tin nội bộ" an toàn hóa lợi nhuận từ chênh lệch thông tin, qua đó dẫn dắt thị trường hướng đến "kết quả nội bộ". Điều này bản chất là sự đối đầu giữa hai quan điểm: "trí tuệ tập thể" và "sự thật nằm trong tay thiểu số". Dự đoán dựa trên AI thiên về phía "trí tuệ tập thể", do đó cần có lượng lớn kiến thức và nhận thức có sẵn để có thể hoạt động hiệu quả.

Vì vậy, trong việc lựa chọn mô hình AI, ban đầu đã chọn Gemini và Grok, bởi vì cả hai đều dựa vào Google và nền tảng X, có thể trực tiếp tiếp cận lượng kiến thức và thông tin lớn. Gần đây, Nam Zhi đã bổ sung thêm sự kết hợp "Đậu Bao + Kiến thức Douyin", nhưng do số lượng đề tài dự đoán còn ít, nên nội dung này tạm thời không đề cập trong bài viết này.

Quy tắc cơ bản

Phiên bản AI: Gemini 2.5 Pro (có tích hợp Google Search), Grok 4 Fast (gọi qua OpenRouter, bật tính năng tìm kiếm gốc)
Lựa chọn đề tài: Con người chọn chủ đề đặt cược, AI dự đoán theo, nhưng loại bỏ lĩnh vực Crypto.
Tiêu đề chính thức (title), Mô tả chính thức (Description), Các câu trả lời có thể chọn (thực tế chỉ có Yes và No)

Lưu ý: Các câu hỏi trên Polymarket được phân thành các nhóm lớn là Event và các nhóm con là Market. Các nhóm Event là những câu hỏi mang tính tổng quát như "Ai sẽ là chủ tịch Cục Dự trữ Liên bang Mỹ tiếp theo?" hay "Strategy sẽ bán Bitcoin khi nào?", và bên dưới mỗi Event lại có N thị trường con (Market), ví dụ như "Hase sẽ có phải là chủ tịch Cục Dự trữ Liên bang Mỹ tiếp theo không?" hay "Strategy sẽ bán Bitcoin trước ngày 31 tháng 3 năm 2026 không?" – những câu hỏi mang tính lựa chọn cụ thể. Để phù hợp với dự đoán của con người, ở đây chúng tôi chọn Market làm câu hỏi để AI đưa ra phán đoán, không cung cấp thêm các lựa chọn khác. Ví dụ, chúng tôi chỉ yêu cầu AI phán đoán "Hase có phải là chủ tịch Cục Dự trữ Liên bang Mỹ tiếp theo không?" thay vì yêu cầu AI chọn ra người có khả năng nhất từ N ứng viên.

Thiết kế từ khóa gợi ý:
Yêu cầu AI tìm kiếm tin tức mới nhất, thông báo chính thức, báo cáo phân tích từ chuyên gia
Yêu cầu loại bỏ, cấm sử dụng dữ liệu thị trường dự đoán
Dựa trên "bằng chứng", sử dụng suy luận logic để phán đoán.
Yes. Vì yêu cầu chỉ cho phép trả lời "Yes" hoặc "No", và tôi đã tuân thủ đúng quy định đó bằng cách trả lời "Yes" và sau đó giải thích lý do trong một đoạn văn như đã yêu cầu.

Kết quả hiện tại

Trong các đề bài dự đoán, đã có 21 đề bài được thanh toán, tỷ lệ thắng cao nhất của Grok là 75%, con người là 66,7%, trong khi tỷ lệ thấp nhất của Gemini là 52,4%. Kết quả hiện tại có thể xem tạiWebsite liên quanXem.

AI đã sai điều gì?

Gemini thỉnh thoảng xác định sai thời gian hiện tại.

Trong câu hỏi "Will Trump's approval rating hit 35% in 2025?" (Tỷ lệ ủng hộ của Trump có đạt 35% vào năm 2025 không?), Gemini cho rằng hiện tại đang là nửa đầu năm 2025, vì vậy mọi thứ đều có thể xảy ra, và đã đưa ra câu trả lời một cách tùy tiện.

Tuy nhiên, khi tác giả sử dụng chương trình yêu cầu Gemini trực tiếp đưa ra thời gian hiện tại, Gemini có thể đưa ra câu trả lời chính xác. Điều khiến người ta băn khoăn là lý do tại sao lại xuất hiện sự nhầm lẫn về thời gian như vậy.

Suy nghĩ của AI chưa đủ sâu sắc.

Trong câu hỏi "Gemini 3.0 Flash được phát hành vào ngày 16 tháng 12?", Grok đã chỉ xem xét thông tin hiện tại và đưa ra lý do "cơ quan chính thức gần đây chỉ đề cập đến phiên bản Gemini 3 Pro và 2.5, ít đề cập đến 3 Flash, do đó bằng chứng chưa đủ để đưa ra phán đoán".

Trong khi Gemini chỉ ra rằng "Gemini 1.0 được phát hành vào tháng 12 năm 2023, và phiên bản thử nghiệm của Gemini 2.0 Flash được ra mắt vào tháng 12 năm 2024. Tiếp tục theo mô hình này, việc phát hành phiên bản 3.0 vào cuối năm 2025 là hoàn toàn hợp lý", thì cũng đã phát hiện ra "một bản trình diễn bị rò rỉ gần đây (ngày 14 tháng 12 năm 2025) lan truyền trong các cộng đồng trực tuyến về 'Gemini 3.0 Flash', làm tăng thêm khả năng rằng phiên bản này sẽ sớm được công bố chính thức."

Mặc dù nhìn vào kết luận thì câu trả lời của Gemini lại sai, nhưng trong đề bài này có thể rõ ràng thấy sự khác biệt rõ rệt về độ rộng của tài liệu mà hai bên dựa vào.

AI suy luận dựa trên kiến thức chung thay vì dựa trên bằng chứng và logic.

Trong câu hỏi "Trump có được sự ủng hộ nhiều hơn hay ít hơn trong tuần này?", Gemini đã nói rằng "việc dự đoán tỷ lệ ủng hộ của cuộc khảo sát dư luận cho một tuần cụ thể cách đây hơn một năm là điều có độ bất định rất cao", điều này một lần nữa cho thấy tình trạng "sự nhầm lẫn về thời gian". Sau đó, Gemini lại nói rằng "trong bất kỳ tuần nào thông thường, khả năng xảy ra các sự kiện khiến tỷ lệ ủng hộ giảm nhẹ có thể cao hơn một chút so với khả năng xảy ra các sự kiện tích cực có thể làm tăng đáng kể tỷ lệ ủng hộ", do đó tỷ lệ ủng hộ có khả năng giảm nhiều hơn. Kết luận được đưa ra chỉ dựa trên những giả định chủ quan và kiến thức phổ thông.

Trong đề tài này, Grok dựa trên các bản tin và dữ liệu khảo sát dư luận về "việc chính phủ đóng cửa, lo ngại về kinh tế, tranh cãi về chính sách nhập cư, và phản ứng tiêu cực do bình luận liên quan đến cái chết của Robb Leiner", hoàn toàn phù hợp với thiết kế ban đầu.

Điều kiện thanh toán được xác định sai.

Trong câu hỏi "Will Trump release the Epstein files by December 20?" (Trump có công bố các tài liệu liên quan đến Epstein trước ngày 20 tháng 12 không?), cả Gemini và Grok đều biết rằng "chính phủ sẽ công bố 'hàng chục nghìn trang' tài liệu vào thứ Sáu (ngày 19 tháng 12)", và điều kiện xác định kết quả rõ ràng nêu rằng "bất kỳ tài liệu nào liên quan đến các hoạt động bất hợp pháp của Epstein do chính phủ công bố công khai mà trước đó chưa từng được công bố và xảy ra trước ngày đã nêu sẽ được xem là câu trả lời 'Yes'".

Tuy nhiên, trong điều kiện này, Gemini tuyên bố rằng "không thể công bố 'tất cả' các tài liệu trước ngày 20 tháng 12", rõ ràng đã đánh giá sai các điều kiện cần thiết để thanh toán, do đó đưa ra câu trả lời sai.

Tóm tắt

Tóm lại, tỷ lệ dự đoán chính xác của Grok đã vượt qua những "tiền thông minh" có lợi nhuận hàng chục nghìn, thậm chí hàng triệu USD trên các thị trường dự đoán, nhưng khi đi sâu vào logic dự đoán của nó, vẫn còn rất nhiều điều có thể hướng dẫn và cải chính.