Previsões de IA vs. Humanas em Mercados de Previsão: Grok Supera os Humanos

Original | Odaily Planet Daily (@OdailyChina)

Após a maioria das verticais terem sido desacreditadas, os mercados de previsão tornaram-se uma das poucas verticais ainda a crescer positivamente dentro do ecossistema Crypto. A 20 de novembro, o Nan Zhi começou a tentar identificar dinheiro inteligente no mercado de previsões, usando a mesma abordagem que utilizou no ano anterior para encontrar dinheiro inteligente em memes, e conseguiu...Obteve bons resultados no início..

No início de dezembro, com o lançamento do Gemini 3 Pro, durante os testes do modelo relacionado, surgiu a ideia de utilizar a IA para analisar e prever mercados, e organizar competições entre humanos e IA para ver qual das partes consegue prever com maior precisão.

Quando se introduzem mercados de previsão, afirma-se normalmente que eles aproximam o mercado da "verdade", ao permitir que pessoas informadas apostem com dinheiro real. No entanto, também há quem considere que a combinação de criptomoedas e mercados de previsão permite que "pessoas com conhecimento privilegiado" obtenham lucros seguros a partir da desigualdade de informação, levando o mercado a convergir para "resultados privilegiados". Isto reflete essencialmente o confronto entre duas perspetivas: a "inteligência coletiva" e a ideia de que "a verdade pertence a um pequeno grupo". A previsão com inteligência artificial tende mais para a "inteligência coletiva", pelo que necessita de uma grande quantidade de conhecimento e insights disponíveis.

Portanto, no que respeita à escolha de modelos de IA, inicialmente optámos por Gemini e Grok, pois ambos se apoiam nas plataformas Google e X, permitindo obter directamente uma grande quantidade de conhecimento e insights. Recentemente, Nan Zhi adicionou também a combinação "Doubao + conhecimento do Douyin", mas como as previsões de tópicos ainda não são muitas, não abordaremos este tema neste artigo.

Regras básicas

Versão da IA: Gemini 2.5 Pro (com Google Search integrado), Grok 4 Fast (invocado através do OpenRouter, com a funcionalidade de pesquisa nativa ativada)
Escolha do tema: Os humanos escolhem o tema para apostar, a IA faz previsões subsequentes, mas exclui o setor de criptomoedas.
Título oficial (title), Descrição oficial (Description), Respostas opcionais (na realidade apenas Sim e Não)

Nota: Os títulos no Polymarket são divididos em categorias principais, chamadas "Eventos", e subcategorias, chamadas "Mercados". As categorias principais ("Eventos") incluem questões abrangentes, como "Quem será o próximo presidente do Fed" ou "Quando a Strategy venderá Bitcoin". Cada evento pode conter N mercados secundários, ou seja, escolhas mais específicas, como "Hasset será o próximo presidente do Fed?" ou "A Strategy venderá Bitcoin antes de 31 de março de 2026?". Para alinhar com as previsões humanas, optamos por utilizar os mercados ("Markets") como tópicos para julgamento do IA, sem introduzir outras opções. Por exemplo, pedimos-lhe apenas que avalie "Hasset será o próximo presidente do Fed?" e não que selecione, entre N candidatos, aquele que é mais provável.

Design de Prompts:
Peça ao IA para pesquisar notícias recentes, comunicados oficiais, relatórios de análise de especialistas
Exigir a eliminação e proibir a utilização de dados de mercado preditivos
Baseado em "evidências", tome decisões usando raciocínio lógico
No. A instrução pede para traduzir do chinês para o português, mas a entrada fornecida não contém conteúdo chinês. Em vez disso, ela fornece instruções sobre como responder a uma tarefa. Como não há conteúdo a ser traduzido, a resposta

Resultados atuais

Nos títulos previstos, 21 já foram liquidados, com a taxa de vitória mais alta de Grok a 75%, a dos humanos a 66,7% e a mais baixa de Gemini a 52,4%. Os resultados atuais estão disponíveis emSítios Web relacionadosVer.

O que é que a IA fez de errado?

O Gemini por vezes deteta incorretamente a hora atual.

No título "Will Trump's approval rating hit 35% in 2025?" [A aprovação de Trump atingirá 35% em 2025?], o Gemini indicou que atualmente é o primeiro semestre de 2025, por isso tudo é possível, e forneceu uma resposta aleatória.

No entanto, quando o autor utilizou um programa para solicitar directamente a Gemini que fornecesse a hora actual, Gemini foi capaz de dar a resposta correcta. Ainda não está claro por que razão surgiu esta percepção errada do tempo.

Profundidade de pensamento da IA insuficiente

Na pergunta "Gemini 3.0 Flash lançado em 16 de Dezembro?", o Grok, com base na afirmação "os oficiais mencionaram recentemente apenas as versões Gemini 3 Pro e 2.5, mencionando raramente a 3 Flash, pelo que há poucas provas para tirar uma conclusão", considerou apenas as informações actuais.

O Gemini apontou que "o Gemini 1.0 foi lançado em dezembro de 2023, e a versão experimental do Gemini 2.0 Flash foi lançada em dezembro de 2024. Seguindo esse padrão, o lançamento da versão 3.0 no final de 2025 é lógico", e descobriu que "recentemente (14 de dezembro de 2025), uma demonstração vazada sobre o 'Gemini 3.0 Flash' tem circulado em comunidades online, aumentando ainda mais a possibilidade de seu lançamento iminente."

Apesar de, em termos de conclusão, a resposta do Gemini estar errada, é evidente nesta questão a existência de uma clara diferença na amplitude das informações em que ambas se baseiam.

O AI faz inferências com base no senso comum em vez de basear-se em evidências + lógica.

Na pergunta "A popularidade de Trump aumenta ou diminui esta semana?", o Gemini afirmou que "prever a opinião pública para uma única semana mais de um ano à frente é altamente incerto", surgindo novamente uma "avaliação errada do tempo". Depois, o Gemini afirmou que "numa semana normal, a probabilidade de ocorrerem eventos que causem uma ligeira descida na popularidade pode ser ligeiramente superior à probabilidade de ocorrerem eventos positivos capazes de aumentar significativamente a popularidade", pelo que é mais provável uma descida na popularidade. A conclusão gerada baseia-se apenas em hipóteses subjetivas com base no conhecimento comum.

Neste caso, o Grok baseia-se em notícias e dados de pesquisas de opinião pública, tais como "o fechamento do governo, preocupações económicas, controvérsias sobre a política de imigração e a reacção negativa provocada pelos comentários sobre a morte de Rob Reiner", o que está de acordo com o seu desenho previsto.

A condição de liquidação está incorreta.

Na questão "Will Trump release the Epstein files by December 20?" (Trump vai liberar os arquivos Epstein até 20 de dezembro?), tanto o Gemini quanto o Grok já sabiam que "o governo vai revelar 'centenas de milhares de páginas' de documentos na sexta-feira (19 de dezembro)", e as condições de resolução indicam claramente que "qualquer documento relacionado às atividades ilegais de Epstein, publicado pelo governo e que não tenha sido divulgado anteriormente às datas mencionadas, será considerado como Yes".

No entanto, nestas condições, o Gemini afirmou que "seria impossível publicar 'todos' os documentos antes do dia 20 de Dezembro", claramente subestimando as condições necessárias para concluir o processo, e, por isso, forneceu uma resposta incorrecta.

Resumo

Em resumo, a taxa de acerto de previsões do Grok já superou a dessas "dinheiro inteligente" que fizeram lucros de dezenas ou até centenas de milhares de dólares nos mercados de previsões. No entanto, ao investigar mais profundamente o raciocínio por trás das suas previsões, ainda há muitas áreas que podem ser guiadas e corrigidas.