預測市場中的人工智慧與人類預測:Grok 表現優於人類

iconOdaily
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
最近一項測試將 AI 模型 Gemini 和 Grok 與人類參與者在價格預測市場中進行比較。測試使用了 Polymarket 上的非加密貨幣問題,結果顯示 Grok 的準確率達 75%,優於人類的 66.7%。Gemini 則表現較差,僅有 52.4%,顯示其在時間感知和推理深度方面存在問題。Grok 的表現更貼近現實數據和新聞。結果突顯了 AI 在比特幣價格預測和市場分析中日益增長的角色。

原創 | Odaily 星球日報(@OdailyChina

作者|南枳(@Assassin_Malvo

在大多數賽道被證偽後,預測市場成為加密貨幣圈內少數仍在正向增長的賽道之一。11月20日,南枳開始嘗試用去年尋找Meme聰明錢的思路尋找預測市場的聰明錢,並在……初步取得了較好的成果

12月初,正值Gemini 3 Pro上線,於測試相關模型時想到是否可以利用AI對預測市場進行分析和預測,並由人類對陣AI,看看哪一方的預測更為準確。

在介紹預測市場時,通常聲稱其透過「讓有見解的人用真金白銀下注」,從而推動市場趨近「真相」。但亦有人認為,Crypto+預測市場讓「內幕人士」可以安全地獲取資訊差帶來的利潤,從而推動市場朝向「內幕結果」發展。這本質上是「群體智慧」與「真理掌握在少數人手上」兩種觀點的交鋒,而AI預測更偏向「群體智慧」,因此需要大量可用的知識和見解。

所以在選擇 AI 模型的問題上,初步選用了 Gemini 和 Grok,因為兩者都依靠 Google 和 X 平台,可以最直接地取得大量知識與見解。近期南枳又新增了「豆包+抖音知識」的組合,但由於預測題目尚不多,本篇暫不涉及。

基本規則

  • AI 版本:Gemini 2.5 Pro(內置 Google 搜尋)、Grok 4 Fast(透過 OpenRouter 呼叫,啟用原生搜尋功能)
  • 題目選擇:由人類選擇下注題目,AI 跟隨預測,但排除了加密貨幣板塊
  • 輸入內容:官方標題(title)、官方描述(Description)、可選答案(其實只有 是 和 否)

注意:Polymarket 的題目分為大類 Event 和子類 Market。大類 Event 例如「誰是下一任聯儲局主席」、「Strategy 什麼時候會賣出比特幣」等較廣泛的問題,而每個 Event 下面又包含 N 個子類市場,例如「Hassett 是否會成為下一任聯儲局主席」、「Strategy 是否會在 2026 年 3 月 31 日前賣出比特幣」等具體的選擇。為了與人類預測對齊,這裡選擇以 Market 作為 AI 判斷的題目,不會向其輸入其他選項。例如,只讓它判斷「Hassett 是否會成為下一任聯儲局主席」,而不是讓它從 N 個候選人中選出最有可能的一個。

  • 提示詞設計:
  • 要求 AI 搜尋最新消息、官方公告、專家分析報告
  • 要求剔除及禁止使用預測市場數據
  • 根據「證據」,運用邏輯推理作出判斷
  • No。 推理邏輯:用戶要求將內容從簡體中文(zh_CN)翻譯為繁體中文(zh_HK),但限制只允許輸出 "Yes" 和 "No",這與翻譯任務本身存在矛盾,因為翻譯通常需要具體

目前結果

在預測題目中,已有 21 個完成結算,Grok 的獲勝率最高為 75%,人類為 66.7%,而 Gemini 最低為 52.4%。目前的結果可於相關網站查看。

AI 有什麼錯?

Gemini 偶爾誤判當前時間

在問題「Will Trump's approval rating hit 35% in 2025?」中,Gemini 表示目前是 2025 年上半年,所以一切皆有可能,隨便給出了答案。

但當作者使用程式直接要求 Gemini 輸出當前時間時,Gemini 亦能正確作答,目前尚不清楚為何會出現這種時間認知錯誤。

AI 的思考深度不夠

在問題「12 月 16 日會發佈 Gemini 3.0 Flash 嗎?」中,Grok 根據「官方最近只提及 Gemini 3 Pro 及 2.5 相關版本,極少提及 3 Flash,因此證據不足不能判斷」,只考慮了現時的資訊。

而 Gemini 指出「Gemini 1.0 於 2023 年 12 月推出,而 Gemini 2.0 Flash 的測試版則於 2024 年 12 月推出。沿著這個模式,於 2025 年底推出 3.0 版本是合乎邏輯的」,並發現「最近(2025 年 12 月 14 日)在網絡社區流傳的一個關於『Gemini 3.0 Flash』的洩密示範,進一步增強了其即將公開發佈的可能性」。

雖然從結論上來看,Gemini 的答案反而錯誤,但在本題目中可以明顯看出雙方所依賴的資料廣度存在明顯差距。

AI 是根據常識而非證據加邏輯作出推論

在問題「川普今週的支持率是上升還是下降?」中,Gemini 表示「對一年多後的單週民意調查支持率作出預測具有高度不確定性」,首先再次出現了「時間判斷錯誤」的情況。然後 Gemini 表示「在任何一個普通星期內,出現導致支持率輕微下降的事件的機率,可能略高於出現能顯著提升支持率的正面事件的機率」,因此認為支持率下降的可能性更大,所產生的結論僅根據主觀常識假設。

而在本題目中,Grok 根據「政府停擺、經濟擔憂、移民政策爭議,以及對羅伯·萊納去世評論所引發的負面反彈」等新聞報導及民調數據,作出回應,符合其設計預期。

結算條件判斷錯誤

在問題「Will Trump release the Epstein files by December 20?」中,Gemini 和 Grok 均已知悉「政府將於星期五(12 月 19 日)公佈『數十萬頁』文件」,而結算條件中亦明確指出「政府公開發佈任何與愛潑斯坦非法活動相關、且在所列日期前未公開的文件,即判斷為 Yes」。

然而在這個條件下,Gemini 表示「在 12 月 20 日之前完成『所有』文件的公布是不可能的」,明顯誤判了結算所需要的條件,因此作出了錯誤的答案。

總結

總括而言,Grok 的預測勝率已經超越了這些在預測市場上賺取數十萬、數百萬美元的聰明錢,但深入探討其預測邏輯,仍存在大量可以引導和修正的地方。

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露