Прогнозы ИИ против прогнозов людей на рынке прогнозов: Grok превосходит людей

Оригинал | Odaily Planet Daily (@OdailyChina)

Автор: Нань Цзи (@Assassin_Malvo)

После того, как большинство направлений были опровергнуты, рынок прогнозов стал одним из немногих направлений в криптовалютной сфере, которые все еще демонстрируют положительный рост. 20 ноября Цзинь Цзи начал экспериментировать с поиском умных денег на рынке прогнозов, используя те же идеи, что и в прошлом году для поиска мем-умных денег, и в результатеВ начальный период были достигнуты хорошие результаты..

В конце декабря, когда вышел Gemini 3 Pro, возникла идея: а нельзя ли использовать ИИ для анализа и прогнозирования прогнозных рынков, а затем организовать соревнование между человеком и ИИ, чтобы понять, чьи прогнозы будут точнее.

При представлении прогнозных рынков обычно утверждается, что они способствуют приближению рынка к "правде", заставляя людей с осведомлённостью делать ставки, используя реальные деньги. Однако некоторые считают, что сочетание криптовалюты и прогнозных рынков позволяет "внутренним лицам" безопасно получать прибыль за счёт разницы в информации, что приводит к движению рынка к "внутренним результатам". Это, по сути, столкновение двух взглядов: "коллективного интеллекта" и "истина принадлежит меньшинству". Прогнозы на основе ИИ склоняются к "коллективному интеллекту", поэтому им требуется большой объём доступных знаний и взглядов.

Поэтому при выборе модели ИИ, на начальном этапе были выбраны Gemini и Grok, поскольку обе эти модели опираются на Google и платформу X, что позволяет максимально прямым образом получать большой объем знаний и взглядов. Недавно Нань Цзи добавила комбинацию «Doubao + знания Douyin», но поскольку количество прогнозируемых тем еще не велико, она не рассматривается в данной статье.

Основные правила

Версия ИИ: Gemini 2.5 Pro (встроенный поиск Google), Grok 4 Fast (вызывается через OpenRouter, включая встроенную функцию поиска)
Выбор темы: человек выбирает тему для ставки, ИИ делает прогноз, но исключая раздел Crypto
Входные данные: официальный заголовок (title), официальное описание (Description), варианты ответа (на самом деле только Да и Нет)

Примечание: Темы Polymarket делятся на общие категории Event и подкатегории Market. Общие категории Event включают такие широкие вопросы, как «Кто станет следующим председателем ФРС» или «Когда Strategy продаст биткойны». В каждой категории Event содержится N подкатегорий рынков, например, конкретные выборы вроде «Станет ли Хаслетт следующим председателем ФРС» или «Strategy продаст биткойны до 31 марта 2026 года». Чтобы соответствовать человеческим прогнозам, здесь был выбран Market в качестве темы для оценки ИИ, и не подавались другие варианты. Например, ИИ оценивает только «Станет ли Хаслетт следующим председателем ФРС», а не выбирает наиболее вероятного кандидата из N возможных.

Проектирование подсказок:
Попросить ИИ найти последние новости, официальные объявления, аналитические отчеты экспертов
Требование исключить, запретить использование прогнозируемых рыночных данных
Суждение с помощью логических рассуждений на основе «доказательств»
No. Вывод только "Да" и "Нет" без дополнительного объяснения не соответствует требованиям, указанным в запросе.

Текущий результат

В задачах на прогнозирование было рассмотрено 21 случай, вероятность победы Grok составила 75%, у людей — 66,7%, а у Gemini — самая низкая, 52,4%. Текущие результаты можно увидетьСвязанные веб-сайтыПосмотреть.

В чём ошибка ИИ?

Gemini иногда неправильно определяет текущее время

В вопросе «Достигнет ли рейтинг одобрения Трампа 35% в 2025 году?» Gemini указал, что сейчас первая половина 2025 года, поэтому всё возможно, и дал ответ без всякой основы.

Однако, когда автор использовал программу для прямого запроса у Gemini текущего времени, Gemini смог дать правильный ответ. Пока неясно, почему возникло такое ошибочное восприятие времени.

Недостаточная глубина мышления ИИ

В заголовке вопроса «Gemini 3.0 Flash выпущен 16 декабря?» Grok, основываясь на том, что «официально упоминались только версии Gemini 3 Pro и 2.5, а о 3 Flash говорили редко, поэтому доказательств недостаточно, чтобы сделать вывод», учитывал только текущую информацию.

Gemini отмечает, что «Gemini 1.0 был выпущен в декабре 2023 года, а экспериментальная версия Gemini 2.0 Flash — в декабре 2024 года. Следуя этой схеме, выход версии 3.0 к концу 2025 года логичен», и выявила «последнее (14 декабря 2025 года) утечку демонстрационной версии «Gemini 3.0 Flash», распространившуюся в интернет-сообществах, что дополнительно усиливает вероятность его скорого официального выпуска».

Хотя ответ Gemini оказался неверным, из этого вопроса явно видно, что у них разный объем используемых данных.

ИИ делает выводы на основе здравого смысла, а не на основе доказательств и логики

В вопросе «Поддержка Трампа выросла или упала за эту неделю?» модель Gemini заявила, что «прогнозирование еженедельных опросов общественного мнения за более чем год вперёд сопряжено с высокой степенью неопределённости», впервые снова возникает ситуация «ошибки во времени». Затем Gemini утверждает, что «на любой обычной неделе вероятность возникновения событий, приводящих к небольшому снижению рейтинга популярности, может быть немного выше, чем вероятность появления положительных событий, которые значительно повысят рейтинг популярности», поэтому вероятность снижения рейтинга выше, и вывод, который был сгенерирован, основывается исключительно на субъективных предположениях.

В данном случае Grok, основываясь на новостях и опросах, связанных с «закрытием правительства, экономическими опасениями, спорами вокруг иммиграционной политики, а также негативной реакцией на комментарии, связанные с смертью Роберта Рейна», соответствует ожиданиям.

Ошибка в определении условий расчета

В вопросе «Сможет ли Трамп опубликовать файлы Эпштейна к 20 декабря?» и Gemini, и Grok уже знают, что «правительство опубликовало «десятки тысяч страниц» документов в пятницу (19 декабря)», а в условиях заключения четко указано, что «если правительство опубликует какие-либо документы, связанные с незаконной деятельностью Эпштейна, которые ранее не были раскрыты к указанной дате, это будет считаться Да».

Однако при этих условиях, Gemini заявил, что «непрактично раскрыть "все" документы до 20 декабря», явно недооценил условия, необходимые для расчетов, и поэтому дал неправильный ответ.

Вывод

В заключение, уровень выигрыша в прогнозах Grok уже превзошел «умные деньги», приносящие миллионы долларов прибыли на прогнозных рынках, но при более глубоком изучении логики его прогнозов остается много возможностей для направления и корректировки.