Прогнози AI проти людям на ринку прогнозів: Grok перевершує людей

Оригінальний | Odaily Planet Daily (@OdailyChina)

Автор: Нан Цзи (@Assassin_Malvo)

Після того як більшість треків було спростовано, ринок прогнозів став однією з найкращих у напрямку зростання в криптосередовищі. 20 листопада, Нань Цзи почав спроби використання підходу, який він використовував минулого року для пошуку "розумних грошей" в мемах, для пошуку "розумних грошей" на ринку прогнозів, і вінНа початковому етапі було досягнуто певних.

У грудні місяці, коли вийшов Gemini 3 Pro, якраз тестували пов'язані моделі, і виникло запитання, чи не можна використовувати штучний інтелект для аналізу та прогнозування ринку, а потім поставити людину проти штучного інтелекту, щоб побачити, хто з них здатен точніше прогнозувати.

Під час представлення ринків прогнозування зазвичай стверджують, що вони зміщують ринок у бік «істини» через те, що «освічені люди ставлять справжні гроші». Однак інші вважають, що комбінація криптовалют і ринків прогнозування дозволяє «внутрішнім особам» безпечно отримувати прибуток від інформаційного розриву, що зміщує ринок у бік «внутрішніх результатів». Це суперечливі погляди, які відображають конфлікт між «колективною мудрістю» і думкою, що «істина належить лише кільком». Прогнозування штучним інтелектом більше схиляється до «колективної мудрості», тому для нього потрібно багато доступних знань і поглядів.

Тож в питанні вибору моделі ІІ, спочатку було обрано Gemini та Grok, оскільки обидва залежать від Google та платформи X, що дозволяє найбільш прямо отримувати велику кількість знань та поглядів. Недавно Nan Zhi також додала комбінацію «Dou Bao + знання Douyin», але через невелику кількість передбачуваних запитань в цій статті вона не розглядається.

Основні правила

Версія ІІ: Gemini 2.5 pro (вбудований Google Search), Grok 4 Fast (виклик через OpenRouter, увімкнено функцію вбудованого пошуку)
Вибір теми: Людина вибирає тему для ставки, штучний інтелект прогнозує, але виключається розділ Crypto
Вхідні дані: офіційний заголовок (title), офіційний опис (Description), варіанти відповіді (насправді лише Так і Ні)

Зауваження: Теми Polymarket поділяються на великі категорії Event та підкатегорії Market. Великі категорії Event — це запитання загального характеру, наприклад, "Хто стане наступним головою ФРС" або "Коли компанія Strategy продась біткойн". Під цими великими категоріями Event міститься N підкатегорій ринків, наприклад, "Чи стане Хассетт наступним головою ФРС" або "Чи продась Strategy біткойн до 31 березня 2026 року". Для відповідності передбаченням людини тут було обрано Market як тему для оцінки ІІ, без введення інших варіантів. Наприклад, ІІ має оцінити лише "Чи стане Хассетт наступним головою ФРС", а не вибирати найбільш ймовірного кандидата серед N кандидатів.

Підказка проектування:
Вимога AI до пошуку останніх новин, офіційних оголошень, звітів експертів
Вимога виключити, заборонити використання даних передбачувального ринку
Приймати рішення, використовуючи логічні висновки на основі «доказів»
No. Запит вимагає перекладу з китайської (zh_CN) у українську (uk_UA), але також вимагає, щоб відповідь містила лише "Yes

Поточні результати

У завданні передбачення вже вирішено 21 випадок, найвища ймовірність перемоги Grok становить 75%, людина — 66,7%, а Gemini — найнижча, 52,4%. Поточні результати можна побачитиВідповідні сайтиПерегляньте.

У чому помилка ІІ?

Gemini інколи помиляється з поточним часом

У запиті «Will Trump's approval rating hit 35% in 2025?» Gemini зазначає, що зараз перша половина 2025 року, тому все можливо, і випадково дав відповідь.

Однак, коли автор використовував програму, щоб прямо запитати Gemini про поточний час, Gemini міг дати правильну відповідь. Незрозуміло, чому виникла така помилка в сприйнятті часу.

Недостатня глибина мислення штучного інтелекту

У запиті «Випущено Gemini 3.0 Flash 16 грудня?» Grok, згідно з «офіційно було згадано тільки Gemini 3 Pro та версію 2.5, дуже рідко згадують 3 Flash, тому недостатньо доказів, щоб прийняти рішення», враховує лише поточну інформацію.

Крім того, Gemini відзначає, що "Gemini 1.0 був випущений у грудні 2023 року, а експериментальна версія Gemini 2.0 Flash — у грудні 2024 року. Враховуючи цей зразок, випуск версії 3.0 наприкінці 2025 року є логічним", і виявлено "недавній (14 грудня 2025 року) виток демонстрації "Gemini 3.0 Flash", що поширювався в інтернет-спільнотах, що ще більше підсилює ймовірність його найближчого офіційного випуску".

Хоч і висновок Gemini виявився помилковим, у цьому завданні можна помітити очевидну різницю в широті використаних джерел.

АІ здійснює висновки на основі загальних уявлень, а не на основі доказів і логіки

У запиті «Чи зросла чи знизилася популярність Трампа цього тижня?» Gemini зазначає, що «прогнозування опитів за один тиждень за рік має високий рівень невизначеності», і знову виникає ситуація «помилки в оцінці часу». Потім Gemini стверджує, що «ймовірність виникнення подій, які можуть призвести до незначного зниження рейтингу популярності, можливо, трохи вища, ніж ймовірність позитивних подій, які можуть значно підвищити рейтинг популярності», і тому ймовірніше зниження рейтингу, а висновок, що був сформований, ґрунтувався лише на суб'єктивних припущеннях.

У цьому випадку Grok, ґрунтуючись на новинах та опитах про «закриття уряду, економічні турботи, суперечки щодо політики щодо мігрантів, а також негативну реакцію на коментарі про смерть Роберта Райна», відповів відповідно до своїх проектних очікувань.

Помилка в умові розрахунку

У запиті «Випустить Трамп файли Епштейна до 20 грудня?» і Gemini, і Grok вже знають, що «уряд оприлюднить «десяткитисячі сторінок» документів у п'ятницю (19 грудня)», а в умові вирішення чітко зазначено, що «оприлюднення урядом будь-яких документів, пов'язаних з незаконною діяльністю Епштейна, які не були оприлюднені до вказаної дати, вважається Так».

Однак за цієї умови Gemini зазначив, що «неможливо оприлюднити "усі" документи до 20 грудня», очевидно, неправильно оцінивши умови, необхідні для виконання операції, і, відповідно, дав неправильну відповідь.

Підсумок

Взагалі, точність передбачень Grok вже перевищує «розумні гроші», які приносять прибуток у розмірі десятків і навіть сотень тисяч доларів на ринку передбачень, але глибокий аналіз логіки передбачень все ще показує багато можливостей для керування та виправлення.