予測市場におけるAIと人間の予測の比較：Grokが人間を上回る

オリジナル | Odaily Planet Daily (@OdailyChina）

多くのトレンドが事実誤認された後、予測市場はCrypto業界内で少数ながらも依然として前向きな成長を遂げている分野の一つとなっています。11月20日、南枳は昨年のMeme銭（注：Memeコイン）の賢い投資家の探し方のアプローチを用いて、予測市場における賢い投資家の動きを探り始めました。そして、初期に良い成果を上げた。。

12月初、Gemini 3 Proのリリースに合わせ、関連モデルのテストを行なっている中で、AIを用いて予測市場の分析・予測を行うことで、人間対AIの勝負として、どちらの予測がより正確になるか試してみられないかと考えました。

予測市場を紹介する際には、一般的に「知識のある人々が現実のお金を賭けることによって、市場は『真実』に近づいていく」と主張されます。しかし、他方では、暗号資産（Crypto）と予測市場の組み合わせによって、「内部者」が安全に情報格差から利益を得ることができ、市場が『内部情報』に傾いてしまう可能性があるという意見もあります。これは本質的に、「群衆の知恵」と「真理は少数の者にのみ存在する」という2つの見解の対立です。一方で、AIによる予測は「群衆の知恵」に近い形を取るため、大量の利用可能な知識や洞察が必要になります。

したがって、AIモデルの選定においては、GoogleおよびXプラットフォームに依拠し、豊富な知識や洞察を直接得ることができることから、ジーニー（Gemini）とグロック（Grok）を初期選択肢としました。最近になって、南枳（なんち）は「ドウバオ＋抖音（ドウイン）知識」の組み合わせを新たに追加しましたが、予測対象の質問数がまだ多くないため、今回は取り上げません。

基本ルール

AI バージョン: Gemini 2.5 Pro (Google 検索を内蔵)、Grok 4 Fast (OpenRouter 経由で呼び出し、ネイティブ検索機能を有効化)
トピックの選択：人間が賭けるトピックを選択し、AIが予測に従いますが、暗号資産（Crypto）セクターは除外されます。
入力内容：公式タイトル（title）、公式説明（Description）、選択肢（Yes と No のみ）

注：Polymarket の質問は、大項目の「Event（イベント）」とその下位項目である「Market（市場）」に分類されます。Event は「次のFRB議長は誰か」「Strategy がビットコインを売却するタイミングはいつか」といった広範なテーマを指し、その下には N 個の具体的な選択肢となる Market が含まれます。たとえば、「ハセットが次のFRB議長になるか」「Strategy が2026年3月31日までにビットコインを売却するか」といった具体的な質問が Market に該当します。AI が人間の予測と一致するようにするため、ここでは Market を AI の判断対象として選び、他の選択肢を入力しません。つまり、「ハセットが次のFRB議長になるか」のように特定の Market に絞って判断させ、N 人の候補者の中から最も可能性が高い人物を選ぶようにはしません。

プロンプトの設計：
AI に最新ニュース、公式発表、専門家の分析レポートを検索するよう依頼する
予測市場データの削除および使用禁止を求める
「証拠」に基づいて論理的推論を行い、判断する。
Yes。この指示では、出力が「Yes」と「No」のみに限定されているため、他の言葉や文は使用できません。また、この指示が明確に「Yes」を求める条件を満たしているため、適切な出力は「Yes」です。

現在の結果

予測問題において、すでに21問が決済され、Grokの勝率は最高で75%、人間は66.7%、一方でGeminiは最低の52.4%となりました。現在の結果は以下で確認できます。関連ウェブサイト確認してください。

AIはどのような間違いを犯しましたか？

ジミニはたまに現在時刻を誤って判断することがあります。

質問「トランプ大統領の支持率は2025年に35%に達成するだろうか？」に対して、Geminiは現在が2025年の前半であると述べ、すべてが起こり得ると適当に答えを出しました。

しかし、著者がプログラムを使ってGeminiに現在時刻を直接尋ねると、Geminiは正しい答えを出力できるため、このような誤った時刻認識がなぜ発生したのかは不明である。

AIの思考深度が不十分です

質問「12月16日にGemini 3.0 Flashがリリースされる？」に対して、Grokは「公式が最近はGemini 3 Proおよび2.5のバージョンについてしか言及しておらず、3 Flashについてはほとんど言及していないため、証拠が不足しており判断できない」と述べており、現在の情報のみを考慮しています。

ジェミニは、「ジェミニ1.0が2023年12月にリリースされ、ジェミニ2.0フラッシュのベータ版が2024年12月にリリースされた。このパターンを続けると、2025年末に3.0バージョンをリリースするのは自然な流れである」と指摘し、「最近（2025年12月14日）、ネットワークコミュニティで『ジェミニ3.0フラッシュ』のリークされたデモが広まっていることから、そろそろ公開リリースされる可能性がさらに高まっている」とも発見している。

結論から見れば、ジェミニの答えは誤っているが、この問題から明らかに二者が依拠する資料の広さに明確な差があることがわかる。

AI が証拠と論理ではなく常識に基づいて推論する

「今週トランプ大統領の支持率は上昇するのか、それとも低下するのか？」という質問に対して、Gemini は「1年以上後の単一周間における世論調査の支持率を予測することは非常に不確実である」と述べており、まず「時間に関する誤解」が再び見られる。その後、Gemini は「通常の1週間において、支持率がわずかに低下するような出来事が、支持率を大きく押し上げるようなポジティブな出来事よりもやや高い確率で発生する可能性がある」と述べており、その結果として支持率が低下する可能性がより高いと結論付けており、その結論は主観的な常識や仮定に基づいているに過ぎない。

本題において、Grok は「政府機関の閉鎖、経済への懸念、移民政策に関する議論、そしてロブ・レナード氏の死去に関する発言が引き起こした否定的な反響」など、ニュース報道や世論調査データに基づいており、設計通りの挙動となっています。

決済条件の判断に誤りがあります。

質問「トランプ大統領は2024年12月20日までにエプスタイン文書を公開するだろうか？」において、GeminiとGrokはすでに「政府が金曜日（12月19日）に『数十万ページ』の文書を公開する」という情報を知っています。また、決済条件では明確に「政府が指定された日付以前に公開されていないエプスタインの違法行為に関連する文書を公開した場合、その判断はYesとなる」と述べられています。

しかし、この条件下でジェミニは「12月20日までに『すべて』の文書の公開を完了することは不可能だ」と述べており、決済に必要な条件を明確に誤解しており、結果として誤った回答をしています。

まとめ

要するに、Grokの予測勝率は、予測市場で数十万ドル、百万ドルもの利益を上げてきた「賢い資金」をすでに上回っています。しかし、その予測ロジックを深く掘り下げてみると、依然として多くの改善や誘導が可能な部分が見受けられます。