Perbandingan Prediksi AI dan Manusia di Pasar Prediksi: Grok Lebih Unggul dari Manusia

Ori | Odaily Planet Daily (@OdailyChina)

Setelah sebagian besar jalur bisnis terbukti tidak valid, pasar prediksi menjadi salah satu dari sedikit sektor di lingkaran Crypto yang masih mengalami pertumbuhan positif. Pada tanggal 20 November, Nan Zhi mulai mencoba menggunakan pendekatan yang sama seperti tahun lalu dalam mencari uang pintar (smart money) Meme untuk mencari uang pintar di pasar prediksi, dan kemudian...Mencapai hasil yang baik pada tahap awal..

Pada akhir Desember, tepat ketika Gemini 3 Pro diluncurkan, saat menguji model terkait, terpikir apakah mungkin menggunakan AI untuk menganalisis dan memprediksi pasar, lalu mengadu manusia melawan AI untuk melihat pihak mana yang memberikan prediksi lebih akurat.

Ketika memperkenalkan pasar prediksi, biasanya diklaim bahwa pasar ini mendorong pasar menuju "kebenaran" dengan memungkinkan orang-orang yang memiliki wawasan untuk bertaruh menggunakan uang sungguhan. Namun, ada juga yang berpendapat bahwa kombinasi Crypto dan pasar prediksi memungkinkan "orang dalam" untuk menghasilkan keuntungan secara aman dari selisih informasi, sehingga mendorong pasar menuju "hasil rahasia". Ini pada dasarnya adalah benturan antara dua pandangan, yaitu "kecerdasan kolektif" dan "kebenaran hanya dimiliki oleh sebagian kecil orang". Prediksi berbasis AI cenderung lebih mendekati "kecerdasan kolektif", sehingga membutuhkan sejumlah besar pengetahuan dan wawasan yang tersedia.

Jadi, dalam masalah memilih model AI, kami awalnya memilih Gemini dan Grok karena keduanya bergantung pada Google dan platform X, sehingga dapat langsung mengakses sejumlah besar pengetahuan dan wawasan. Baru-baru ini, Nan Zhi menambahkan kombinasi "Dou Bao + Pengetahuan TikTok", tetapi karena prediksi soalnya belum banyak, topik ini sementara tidak dibahas dalam artikel ini.

Aturan Dasar

Versi AI: Gemini 2.5 Pro (dilengkapi dengan Pencarian Google), Grok 4 Fast (dipanggil melalui OpenRouter, fitur pencarian asli diaktifkan)
Pemilihan Topik: Topik taruhan dipilih oleh manusia, AI melakukan prediksi mengikuti, tetapi membuang sektor Crypto
Masukkan konten: Judul resmi (title), Deskripsi resmi (Description), Pilihan jawaban (sebenarnya hanya Ya dan Tidak)

Catatan: Topik di Polymarket terbagi menjadi kategori besar bernama Event dan kategori anak bernama Market. Kategori besar Event mencakup pertanyaan-pertanyaan umum seperti "Siapa yang akan menjadi ketua The Fed berikutnya?" atau "Kapan perusahaan Strategy akan menjual Bitcoin." Di bawah setiap Event terdapat N pasar anak (Market), misalnya "Apakah Hassett akan menjadi ketua The Fed berikutnya?" atau "Apakah perusahaan Strategy akan menjual Bitcoin sebelum 31 Maret 2026?" Untuk selaras dengan prediksi manusia, di sini kami memilih Market sebagai pertanyaan yang digunakan AI untuk menilai, tanpa memberikan opsi tambahan. Misalnya, kami hanya meminta AI menilai "Apakah Hassett akan menjadi ketua The Fed berikutnya?" bukan meminta AI memilih satu kandidat yang paling mungkin dari N kandidat.

Desain Prompt:
Meminta AI untuk mencari berita terbaru, pengumuman resmi, laporan analisis ahli
Meminta penghapusan dan larangan penggunaan data pasar prediktif
Berdasarkan "bukti", menggunakan penalaran logis untuk membuat penilaian.
No. Instruksi meminta terjemahan dari bahasa Tionghoa (zh_CN) ke bahasa Indonesia (id_ID), tetapi jawaban yang diberikan hanya boleh "Yes" dan "No" beserta alasan. Karena instruksi tersebut tidak menyediakan teks

Hasil saat ini

Dalam prediksi soal, 21 telah diselesaikan, dengan tingkat kemenangan tertinggi Grok sebesar 75%, manusia sebesar 66,7%, sementara Gemini terendah yaitu 52,4%. Hasil saat ini dapat dilihat diSitus web terkaitLihat.

Apa kesalahan yang dibuat AI?

Gemini sesekali menilai salah waktu saat ini.

Dalam pertanyaan "Apakah tingkat persetujuan Trump akan mencapai 35% pada tahun 2025?", Gemini menyatakan bahwa saat ini masih semester pertama tahun 2025, sehingga segalanya memungkinkan, dan memberikan jawaban sembarangan.

Namun, ketika penulis menggunakan program untuk meminta Gemini secara langsung mengeluarkan waktu saat ini, Gemini mampu memberikan jawaban yang benar. Belum jelas mengapa muncul kesalahan pengenalan waktu seperti ini.

Kedalaman berpikir AI tidak mencukupi.

Dalam pertanyaan "Gemini 3.0 Flash dirilis pada 16 Desember?", Grok hanya mempertimbangkan informasi saat ini dengan mengatakan "pembuat resmi baru-baru ini hanya menyebutkan versi Gemini 3 Pro dan 2.5, sangat jarang menyebutkan 3 Flash, oleh karena itu buktinya tidak cukup untuk menilai".

Sementara itu, Gemini menunjukkan bahwa "Gemini 1.0 diluncurkan pada Desember 2023, sementara versi eksperimen Gemini 2.0 Flash diluncurkan pada Desember 2024. Mengikuti pola ini, peluncuran versi 3.0 pada akhir 2025 adalah hal yang logis," dan juga menemukan bahwa "beberapa waktu lalu (14 Desember 2025), ada demonstrasi bocoran tentang 'Gemini 3.0 Flash' yang tersebar di komunitas online, yang semakin meningkatkan kemungkinan peluncuran resminya segera."

Meskipun secara kesimpulan jawaban Gemini ternyata salah, dalam soal ini jelas terlihat adanya perbedaan yang signifikan dalam luasnya sumber informasi yang digunakan oleh keduanya.

AI melakukan inferensi berdasarkan pengetahuan umum, bukan berdasarkan bukti + logika.

Dalam soal "Apakah persetujuan Trump naik atau turun minggu ini?", Gemini menyatakan bahwa "prediksi terhadap perubahan pendapat umum dalam satu minggu setelah lebih dari setahun memiliki tingkat ketidakpastian yang tinggi", yang menunjukkan kembali adanya "kesalahan penilaian terhadap waktu". Setelah itu, Gemini menyatakan bahwa "dalam setiap minggu biasa, kemungkinan terjadinya peristiwa yang menyebabkan penurunan kecil dalam tingkat persetujuan mungkin sedikit lebih tinggi dibandingkan kemungkinan terjadinya peristiwa positif yang dapat secara signifikan meningkatkan tingkat persetujuan", sehingga menyimpulkan bahwa kemungkinan tingkat persetujuan akan turun lebih besar. Kesimpulan yang dihasilkan hanya didasarkan pada asumsi umum subjektif.

Dalam kasus soal ini, Grok berdasarkan laporan berita dan data polling tentang "penutupan pemerintah, kekhawatiran ekonomi, kontroversi kebijakan imigrasi, serta reaksi negatif terhadap komentar kematian Rob Reiner", sesuai dengan harapan desainnya.

Pengujian kondisi penyelesaian salah.

Dalam pertanyaan "Apa Trump akan merilis berkas Epstein sebelum 20 Desember?", baik Gemini maupun Grok sudah mengetahui bahwa "pemerintah akan merilis 'ratusan ribu halaman' berkas pada hari Jumat (19 Desember)", sementara kondisi penyelesaian secara eksplisit menyatakan bahwa "jika pemerintah secara publik merilis berkas apa pun yang terkait dengan kegiatan ilegal Epstein dan sebelumnya belum pernah dipublikasikan sebelum tanggal yang ditentukan, maka dianggap sebagai Ya".

Namun dalam kondisi ini, Gemini menyatakan bahwa "tidak mungkin mengumumkan 'semua' dokumen sebelum 20 Desember", jelas menilai salah kondisi yang diperlukan untuk penyelesaian, sehingga memberikan jawaban yang salah.

Kesimpulan

Secara keseluruhan, tingkat kemenangan prediksi Grok telah melampaui uang pintar yang menghasilkan puluhan ribu hingga jutaan dolar di pasar prediksi, tetapi dengan memeriksa lebih dalam logika prediksi tersebut, masih banyak hal yang dapat diarahkan dan diperbaiki.