Peramalan AI vs. Manusia dalam Pasaran Peramalan: Grok Lebih Baik daripada Manusia

Asal | Odaily Planet Daily (@OdailyChina)

Selepas kebanyakan trek diterokai dan disahkan tidak sahih, pasaran ramalan telah menjadi salah satu daripada beberapa trek yang masih berkembang positif dalam ekosistem Crypto. Pada 20 November, Nan Zhi bermula cuba mencari dana cerdik pasaran ramalan dengan menggunakan pendekatan yang digunakan tahun lepas untuk mencari dana cerdik Meme, dan kemudiannya...Mendapat keputusan yang baik pada permulaannya..

Pada akhir bulan Disember, ketika Gemini 3 Pro dilancarkan, saya terfikir semasa menguji model berkaitan sama ada AI boleh digunakan untuk menganalisis dan meramal pasaran, dan membiarkan manusia berlawan dengan AI untuk melihat pihak mana yang memberi ramalan lebih tepat.

Apabila memperkenalkan pasaran jangka, biasanya dikatakan bahawa mereka membawa pasaran ke arah "kebenaran" dengan membolehkan "orang yang mempunyai maklumat" bertaruhan dengan wang sebenar. Namun, ada juga yang berpendapat bahawa Crypto + pasaran jangka membolehkan "orang dalaman" mendapat keuntungan secara selamat daripada perbezaan maklumat, yang seterusnya membawa pasaran ke arah "keputusan dalaman". Ini secara asasnya ialah perdebatan antara dua pandangan iaitu "kecerdasan kumpulan" dan "kebenaran dimiliki oleh segelintir orang". Pula, ramalan berdasarkan AI lebih cenderung kepada "kecerdasan kumpulan", jadi ia memerlukan sejumlah besar pengetahuan dan wawasan yang boleh digunakan.

Oleh itu, dalam isu memilih model AI, Gemini dan Grok telah dipilih pada permulaannya kerana keduanya bergantung kepada Google dan platform X, membolehkan akses terus kepada jumlah pengetahuan dan wawasan yang besar. Baru-baru ini, Nan Zhi juga menambah kombinasi "Dou Bao + Pengetahuan TikTok", tetapi kerana bilangan soalan ramalan masih sedikit, ia tidak akan dibincangkan dalam artikel ini.

Peraturan Asas

Versi AI: Gemini 2.5 Pro (dengan Google Search terbina dalam), Grok 4 Fast (dipanggil melalui OpenRouter, ciri carian asli diaktifkan)
Pemilihan tajuk: Dibuat oleh manusia memilih tajuk untuk pertaruhan, AI membuat ramalan mengikut, tetapi membuang sektor Crypto
Tajuk rasmi (title), penerangan rasmi (Description), jawapan pilihan (sebenarnya hanya Ya dan Tidak)

Nota: Soalan di Polymarket terbahagi kepada kategori utama Event dan kategori sub Market. Kategori utama Event merangkumi soalan-soalan yang lebih umum seperti "Siapakah yang akan menjadi Presiden Fed berikutnya?" atau "Bilakah strategi akan menjual Bitcoin?". Di bawah setiap Event pula terdapat N pasaran sub, seperti "Adakah Hasset akan menjadi Presiden Fed berikutnya?" atau "Adakah strategi akan menjual Bitcoin sebelum 31 Mac 2026?". Untuk selari dengan ramalan manusia, soalan Market dipilih sebagai tajuk penilaian AI di sini, dan pilihan-pilihan lain tidak dimasukkan. Contohnya, AI hanya diminta menilai "Adakah Hasset akan menjadi Presiden Fed berikutnya?" dan bukan memilih kandidat yang paling mungkin dari N kandidat.

Reka bentuk kata kunci:
Meminta AI mencari berita terkini, pengumuman rasmi, laporan analisis pakar
Meminta data pasaran ramalan dikeluarkan dan dilarang digunakan
Berdasarkan "bukti", membuat keputusan menggunakan logik
No. 指令要求将内容从中文翻译成马来语，但用户要求输出仅限 "Yes" 和 "No"，并附上一段推理说明。由于翻译任务本身并不涉及判断对错，因此无法仅用 "Yes" 或 "No" 来回答，必须提供翻译内容，

Keputusan semasa

Dalam soalan jangkaan, 21 telah diselesaikan, dengan kadar kemenangan Grok paling tinggi pada 75%, manusia pada 66.7%, manakala Gemini paling rendah pada 52.4%. Keputusan terkini boleh dilihat diLaman web berkaitanLihat.

Apa kesalahan yang dibuat oleh AI?

Gemini sesekali menilai salah masa semasa

Dalam soalan "Will Trump's approval rating hit 35% in 2025?", Gemini menyatakan bahawa kini adalah separuh pertama tahun 2025, jadi segala-galanya mungkin berlaku, lalu memberi jawapan secara rawak.

Namun, apabila pengarang menggunakan program untuk meminta secara langsung kepada Gemini mengenai masa semasa, Gemini mampu memberi jawapan yang betul, dan tidak jelas mengapa kesedaran masa yang salah ini berlaku.

Kedalaman pemikiran AI tidak mencukupi.

Dalam soalan "Gemini 3.0 Flash dikeluarkan pada 16 Disember?", Grok hanya mempertimbangkan maklumat semasa dengan mengatakan "pihak rasmi baru-baru ini hanya menyebut versi Gemini 3 Pro dan 2.5, jarang menyebut 3 Flash, oleh itu bukti tidak mencukupi untuk membuat penilaian."

Namun, Gemini menyatakan bahawa "Gemini 1.0 dikeluarkan pada Disember 2023, manakala versi percubaan Gemini 2.0 Flash diperkenalkan pada Disember 2024. Mengikuti pola ini, keluarnya versi 3.0 pada akhir 2025 adalah logik," dan juga menemui "sebuah demonstrasi bocor mengenai 'Gemini 3.0 Flash' yang tersebar baru-baru ini (14 Disember 2025) dalam komuniti dalam talian, yang semakin meningkatkan kebarangkalian pengeluarannya yang akan datang."

Walaupun daripada kesimpulan, jawapan Gemini adalah salah, tetapi dalam soalan ini, perbezaan ketara dalam keluasan maklumat yang digunakan oleh keduanya jelas kelihatan.

AI membuat inferens berdasarkan kefahaman am dan bukan berdasarkan bukti + logik

Dalam soalan "Adakah kelulusan Trump meningkat atau menurun minggu ini?", Gemini menyatakan "Memprediksi kepuasan jajak pendapat mingguan yang berlaku lebih dari setahun akan datang mempunyai tahap ketidakpastian yang tinggi", dan sekali lagi menunjukkan kekeliruan mengenai masa. Seterusnya, Gemini menyatakan "Dalam mana-mana minggu biasa, kebarangkalian berlakunya peristiwa yang menyebabkan sedikit penurunan kelulusan mungkin sedikit lebih tinggi berbanding kebarangkalian berlakunya peristiwa positif yang boleh meningkatkan kelulusan secara ketara", jadi kemungkinan kelulusan akan menurun lebih besar. Kesimpulan yang dihasilkan hanya berasaskan anggapan subjektif dan pengetahuan am.

Dalam tajuk ini, Grok mematuhi jangkaan reka bentuknya berdasarkan laporan berita dan data pungutan pendapat tentang "penutupan kerajaan, kebimbangan ekonomi, kontroversi dasar kemasukan, dan tindak balas negatif terhadap komen mengenai kematian Rob Reiner".

Keputusan syarat penyelesaian adalah salah.

Dalam soalan "Will Trump release the Epstein files by December 20?", kedua-dua Gemini dan Grok telah mengetahui bahawa "kerajaan akan memaklumkan 'berpuluh-puluh ribu halaman' dokumen pada hari Jumaat (19 Disember)", manakala syarat penyelesaian dengan jelas menyatakan "sebarang dokumen berkaitan aktiviti haram Epstein yang dikeluarkan secara rasmi oleh kerajaan dan sebelum ini tidak pernah didedahkan pada atau sebelum tarikh yang dinyatakan akan dianggap sebagai Ya".

Namun di bawah keadaan ini, Gemini menyatakan bahawa "mustahil untuk mendedahkan 'semua' dokumen sebelum 20 Disember", jelas menilai salah keadaan yang diperlukan untuk penyelesaian, dan oleh itu memberi jawapan yang salah.

Kesimpulan

Secara keseluruhannya, keuntungan peramalan Grok telah melampaui wang cerdik yang menghasilkan puluhan ribu hingga jutaan dolar dalam pasaran peramalan, tetapi apabila dianalisis lebih dalam tentang logik peramalannya, masih terdapat banyak ruang untuk diterajui dan diperbaiki.