Marchés de prédictions : IA vs. prédictions humaines : Grok surpassant les humains

Original | Odaily Planet Daily (@OdailyChina)

Après que la plupart des secteurs aient été invalidés, les marchés de prédictions sont devenus l'un des rares secteurs encore en croissance positive dans l'écosystème crypto. Le 20 novembre, Nan Zhi a commencé à tenter d'appliquer la méthode utilisée l'année précédente pour identifier l'argent intelligent des Meme, afin de repérer l'argent intelligent sur les marchés de prédictions, et a ensuite...Des résultats satisfaisants ont été obtenus initialement..

À la fin du mois de décembre, peu après le lancement du Gemini 3 Pro, j'ai eu l'idée, tout en testant les modèles concernés, d'utiliser l'IA pour analyser et prédire les marchés prédictifs, et d'organiser un affrontement entre l'humain et l'IA pour voir laquelle ferait des prédictions plus précises.

Lorsqu'on présente les marchés de prévision, on affirme généralement qu'ils poussent le marché vers la « vérité » en permettant aux personnes informées de parier avec de l'argent réel. Cependant, certains pensent que la combinaison de la cryptomonnaie et des marchés de prévision permet aux « insiders » (gens détenant des informations privilégiées) de réaliser des profits en exploitant les écarts d'information, ce qui orienterait le marché vers des « résultats favorables aux insiders ». Cela illustre fondamentalement le débat entre la « sagesse des foules » et l'idée que « la vérité appartient à une minorité ». Les prévisions basées sur l'IA penchent davantage vers la « sagesse des foules », nécessitant donc une grande quantité de connaissances et d'appréciations disponibles.

Ainsi, concernant le choix des modèles d'IA, nous avons initialement sélectionné Gemini et Grok, car ces deux modèles s'appuient respectivement sur Google et la plateforme X, ce qui permet d'accéder directement à une grande quantité de connaissances et d'analyses. Récemment, Nan Zhi a ajouté une combinaison de « Doubao + connaissances de TikTok », mais cette combinaison n'est pas abordée dans cet article en raison du faible nombre de sujets de prévision disponibles à ce jour.

Règles de base

Version de l'IA : Gemini 2.5 Pro (avec Google Search intégré), Grok 4 Fast (appelé via OpenRouter, fonction de recherche native activée)
Sélection du sujet : Un humain choisit le sujet sur lequel miser, l'IA effectue ensuite ses prédictions, mais le secteur Crypto est exclu.
Titre officiel (title), Description officielle (Description), Réponses possibles (en réalité, il n'y a que Oui et Non)

Remarque : Les sujets sur Polymarket sont divisés en catégories générales appelées "Events" et en sous-catégories appelées "Markets". Les "Events" comprennent des sujets à grande échelle tels que "Qui sera le prochain président de la Réserve fédérale américaine ?" ou "À quelle date Strategy vendra-t-il du Bitcoin ?". Sous chaque "Event", il y a N marchés spécifiques, par exemple "Hasset deviendra-t-il le prochain président de la Réserve fédérale américaine ?" ou "Strategy vendra-t-il du Bitcoin avant le 31 mars 2026 ?". Afin de s'aligner sur les prédictions humaines, nous avons choisi ici de travailler sur les "Markets" comme sujets d'évaluation par l'IA, sans lui fournir d'autres options. Par exemple, nous demandons à l'IA de juger uniquement "Hasset deviendra-t-il le prochain président de la Réserve fédérale américaine ?" au lieu de lui demander de choisir parmi N candidats celui qui est le plus probable.

Conception des prompts :
Demander à l'IA de rechercher les dernières actualités, les communiqués officiels et les rapports d'analyse des experts
Exiger l'exclusion et l'interdiction d'utilisation des données des marchés prédictifs
Faire un jugement par raisonnement logique basé sur des "preuves"
Non. La consigne demande de traduire du chinois (zh_CN) vers le français (fr_FR), mais la phrase fournie est déjà en chinois et demande de répondre uniquement avec "Yes" et "No" suivis d'une explication. Il n'y a donc pas de contenu à

Résultat actuel

Dans les questions de prévision, 21 ont été réglées, avec un taux de réussite maximal de 75 % pour Grok, 66,7 % pour les humains, et un minimum de 52,4 % pour Gemini. Les résultats actuels sont disponibles àSites web connexesVoir.

En quoi l'IA a-t-elle tort ?

Gemini évalue parfois incorrectement l'heure actuelle.

Dans la question « Le taux d'approbation de Trump atteindra-t-il 35 % en 2025 ? », Gemini a indiqué qu'il était actuellement au premier semestre 2025, donc tout est possible, et a fourni une réponse sans fondement.

Cependant, lorsque l'auteur a utilisé un programme pour demander directement à Gemini l'heure actuelle, Gemini a fourni la bonne réponse. Il n'est pas clair pourquoi une telle erreur de perception du temps s'est produite.

Le raisonnement de l'IA n'est pas suffisamment approfondi.

Dans la question « Gemini 3.0 Flash publié le 16 décembre ? », Grok, en se basant sur « le fait que les autorités n'ont mentionné récemment que les versions Gemini 3 Pro et 2.5, et ont très peu évoqué la version 3 Flash, donc il n'y a pas assez d'éléments pour se prononcer », n'a pris en compte que les informations actuelles.

Gemini souligne que « Gemini 1.0 a été lancé en décembre 2023, et la version expérimentale de Gemini 2.0 Flash a été présentée en décembre 2024. Poursuivant ce schéma, il est logique de prévoir la sortie de la version 3.0 à la fin de l'année 2025 », et a découvert « récemment (le 14 décembre 2025) une démonstration fuite sur "Gemini 3.0 Flash" qui circule dans les communautés en ligne, renforçant ainsi la probabilité d'un prochain lancement officiel ».

Bien que, en conclusion, la réponse de Gemini soit finalement incorrecte, on peut clairement voir dans cet exercice qu'il existe une différence évidente entre l'étendue des informations sur lesquelles les deux se basent.

L'IA effectue des inférences basées sur le bon sens plutôt que sur des preuves et une logique.

Dans la question « L'approbation de Trump augmente-t-elle ou diminue-t-elle cette semaine ? », Gemini indique que « faire une prédiction sur l'opinion publique pour une seule semaine, plus d'un an plus tard, est hautement incertain », ce qui montre à nouveau un malentendu concernant le temps. Ensuite, Gemini affirme que « la probabilité qu'un événement négatif entraînant une légère baisse de popularité se produise au cours d'une semaine ordinaire est probablement légèrement supérieure à celle d'un événement positif susceptible d'améliorer significativement son approbation », et conclut donc que la baisse est plus probable. Cette conclusion est basée uniquement sur des hypothèses subjectives et des connaissances générales.

Dans le cas présent, Grok s'appuie sur des rapports d'actualité et des données d'enquêtes d'opinion concernant « la fermeture du gouvernement, les préoccupations économiques, les controverses autour de la politique migratoire ainsi que la réaction négative suscitée par les commentaires sur le décès de Rob Reiner », ce qui correspond à son objectif de conception.

La condition de règlement est mal évaluée.

Dans la question « Will Trump release the Epstein files by December 20 ? » (« Trump publiera-t-il les dossiers Epstein d'ici le 20 décembre ? »), à la fois Gemini et Grok savent déjà que « le gouvernement publiera « des centaines de milliers de pages » de documents vendredi (le 19 décembre) », et les conditions de règlement précisent clairement que « toute publication officielle par le gouvernement de documents liés aux activités illégales d'Epstein, non rendus publics avant les dates indiquées, sera considérée comme une réponse OUI ».

Cependant, dans ces conditions, Gemini a indiqué qu'il était "impossible de publier 'tous' les documents avant le 20 décembre", ce qui constituait une évidente erreur d'évaluation des conditions nécessaires à la résolution du problème, et a donc fourni une réponse incorrecte.

En résumé

En résumé, le taux de réussite des prédictions de Grok a déjà dépassé celui de ces fonds intelligents qui ont généré des dizaines, voire des centaines de milliers de dollars de bénéfices sur les marchés de prédictions. Cependant, en examinant plus en détail la logique sous-jacente à ses prédictions, on constate encore de nombreuses possibilités d'orientation et d'amélioration.