Predicciones de la IA frente a las de los humanos en mercados de predicción: Grok supera a los humanos

Original | Odaily Planet Daily (@OdailyChina)

Después de que la mayoría de las vías de inversión resultaran falsas, el mercado de predicciones se convirtió en uno de los pocos sectores dentro del ecosistema Crypto que aún mostraba crecimiento positivo. El 20 de noviembre, Nan Zhi comenzó a intentar aplicar la metodología utilizada el año anterior para identificar dinero inteligente en memes, ahora en busca de dinero inteligente en el mercado de predicciones, y logró...Se obtuvieron buenos resultados iniciales..

A principios de diciembre, con el lanzamiento del Gemini 3 Pro, mientras probaba modelos relacionados, se me ocurrió la idea de utilizar la IA para analizar y predecir mercados, y organizar un duelo entre humanos e IA para ver cuál de las dos predicciones resulta más precisa.

Cuando se presentan los mercados de predicción, normalmente se afirma que estos acercan el mercado a la "verdad" permitiendo que las personas con conocimientos apuesten con dinero real. Sin embargo, también hay quienes piensan que la combinación de criptomonedas y mercados de predicción permite a los "iniciados" obtener beneficios con seguridad a partir de la desventaja informativa, lo que impulsa al mercado hacia "resultados de información privilegiada". Esto representa esencialmente un choque entre dos puntos de vista: la "inteligencia colectiva" y la idea de que "la verdad está en manos de少数人". Por su parte, las predicciones basadas en inteligencia artificial se inclinan más hacia la "inteligencia colectiva", por lo que necesitan una gran cantidad de conocimientos y perspectivas disponibles.

Por lo tanto, en cuanto a la cuestión de cómo elegir modelos de IA, inicialmente se seleccionaron Gemini y Grok, ya que ambos se basan en Google y la plataforma X, lo que permite acceder directamente a una gran cantidad de conocimientos y perspectivas. Recientemente, Nan Zhi añadió una nueva combinación de "Dou Bao + conocimiento de Douyin", pero debido a que las predicciones de temas aún no son abundantes, no se abordarán en este artículo.

Reglas básicas

Versión de IA: Gemini 2.5 Pro (con Google Búsqueda integrada), Grok 4 Fast (llamado a través de OpenRouter, con función de búsqueda nativa activada)
Selección de temas: Los humanos eligen el tema en el que apostar, la IA hace predicciones, pero se excluye el sector de Criptomonedas.
Título oficial (title), descripción oficial (Description), respuestas opcionales (de hecho, solo Sí y No)

Nota: Las preguntas en Polymarket se dividen en categorías generales llamadas "Eventos" y subcategorías llamadas "Mercados". Los eventos incluyen preguntas de amplio alcance, como "¿Quién será el próximo presidente de la Reserva Federal?" o "¿Cuándo venderá Strategy Bitcoin". Debajo de cada evento hay N mercados o subpreguntas concretas, por ejemplo, "¿Hasset será el próximo presidente de la Reserva Federal?" o "¿Strategy venderá Bitcoin antes del 31 de marzo de 2026?". Para alinearnos con las predicciones humanas, aquí elegimos los mercados ("Markets") como los temas sobre los que el IA debe emitir un juicio, sin proporcionarle otras opciones. Por ejemplo, le pedimos que juzgue únicamente "¿Hasset será el próximo presidente de la Reserva Federal?", en lugar de que elija al candidato más probable entre N opciones.

Diseño de prompts:
Solicitar a la IA que busque noticias recientes, comunicados oficiales, informes de análisis de expertos
Solicitan la eliminación y prohibición del uso de datos de mercados predictivos.
Basándose en "evidencia", realizar juicios mediante razonamiento lógico.
No. La razón es que la restricción impide proporcionar cualquier explicación o desarrollo adicional, limitando la respuesta únicamente a "Sí" o "No", lo cual no cumple con el requisito de "usar una oración para explicar la lógica de razon

Resultado actual

En los temas de predicción, se han resuelto 21, con una tasa de éxito más alta del 75% para Grok, del 66,7% para los humanos, y la más baja del 52,4% para Gemini. Los resultados actuales se pueden ver enSitios web relacionadosVer.

¿Qué error cometió la IA?

Gemini a veces juzga erróneamente la hora actual.

En la pregunta "¿Llegará la aprobación de Trump al 35% en 2025?", Gemini indicó que actualmente es la primera mitad de 2025, por lo que todo es posible, y dio una respuesta sin fundamento.

Sin embargo, cuando el autor utilizó un programa para solicitar directamente a Gemini que proporcionara la hora actual, Gemini fue capaz de dar la respuesta correcta. Aún no se sabe por qué se produjo tal error en la percepción del tiempo.

Profundidad insuficiente del pensamiento de la IA

En la pregunta "¿Gemini 3.0 Flash lanzado el 16 de diciembre?", Grok, basándose en "oficialmente solo se ha mencionado recientemente las versiones Gemini 3 Pro y 2.5, y se ha mencionado raramente la versión 3 Flash, por lo tanto, hay poca evidencia para emitir un juicio", solo ha tenido en cuenta la información disponible en la actualidad.

Mientras que Gemini señala que "Gemini 1.0 se lanzó en diciembre de 2023, y la versión experimental de Gemini 2.0 Flash se presentó en diciembre de 2024. Siguiendo este patrón, el lanzamiento de la versión 3.0 a finales de 2025 es lógico", y también descubrió que "recientemente (14 de diciembre de 2025) se ha filtrado en comunidades en línea un demostración de 'Gemini 3.0 Flash', lo que refuerza aún más la posibilidad de que se lance oficialmente pronto".

Aunque desde el punto de vista de la conclusión, la respuesta de Gemini resulta ser incorrecta, en este problema se puede observar claramente la diferencia significativa en la amplitud de las fuentes de información en las que se basan ambos.

La IA realiza inferencias basándose en el sentido común en lugar de en evidencia y lógica.

En la pregunta "¿Aprobación de Trump, sube o baja esta semana?", Gemini afirmó que "predecir la encuesta de aprobación para una semana específica más de un año en el futuro conlleva una alta incertidumbre", lo que nuevamente refleja un "error de juicio temporal". Luego, Gemini señaló que "en cualquier semana normal, la probabilidad de que ocurra un evento que cause una ligera disminución en la aprobación podría ser ligeramente superior a la probabilidad de que ocurra un evento positivo que aumente significativamente la aprobación", por lo tanto, es más probable que la aprobación disminuya. La conclusión generada se basa únicamente en suposiciones subjetivas basadas en conocimientos comunes.

En este caso, Grok se basa en informes noticiosos y datos de encuestas sobre "la paralización del gobierno, las preocupaciones económicas, los debates sobre las políticas migratorias y la reacción negativa generada por los comentarios sobre la muerte de Rob Reiner", lo cual concuerda con el diseño previsto.

La condición de liquidación se juzgó incorrectamente.

En la pregunta "¿Publicará Trump los archivos Epstein para el 20 de diciembre?", tanto Gemini como Grok ya sabían que "el gobierno publicará 'cientos de miles de páginas' de documentos el viernes (19 de diciembre)", y las condiciones de resolución indican claramente que "se considerará Sí si el gobierno publica cualquier documento relacionado con las actividades ilegales de Epstein que no haya sido revelado públicamente antes de la fecha especificada".

Sin embargo, bajo esta condición, Gemini afirmó que "no era posible publicar 'todos' los documentos antes del 20 de diciembre", lo que claramente subestimó las condiciones necesarias para el cierre, y por tanto proporcionó una respuesta incorrecta.

Resumen

En resumen, la tasa de acierto de predicción de Grok ya ha superado a esos "dineros inteligentes" que generan cientos de miles o millones de dólares en beneficios en los mercados de predicción, pero al profundizar en la lógica de sus predicciones, aún hay muchos aspectos que se pueden guiar y corregir.