Modelos de negociação por IA enfrentam dificuldades em testes de mercado ao vivo; a maioria dos sistemas relata prejuízos

Relatório do CoinGape:

A inteligência artificial está batendo à porta das salas de negociação de Wall Street, mas o histórico atual não é nada bom.

Resultados iniciais de uma série de competições de negociação abertas mostram que os principais modelos de linguagem de grande porte (LLMs) apresentam desempenho geralmente ruim na negociação autônoma — a maioria dos sistemas sofre prejuízos, realiza negociações excessivamente frequentes e toma decisões drasticamente diferentes ao receber instruções idênticas. Esses resultados levantam uma questão central: qual é a extensão da lacuna entre os LLMs e o funcionamento real dos mercados?

O caso mais representativo veio da competição Alpha Arena, operada pela startup de tecnologia Nof1. A competição colocou oito sistemas de IA avançados — incluindo o Claude da Anthropic, o Gemini do Google, o ChatGPT da OpenAI e o Grok da Elon Musk — em quatro rodadas independentes, cada uma com um fundo inicial de US$10.000, para negociar ações de tecnologia dos EUA durante duas semanas. No final, a carteira total sofreu uma perda de aproximadamente um terço, com apenas 6 dos 32 resultados resultando em lucro.

Jay Azhang, fundador da Nof1, afirmou diretamente: "Ainda não é possível entregar dinheiro diretamente a um LLM para que ele negocie por conta própria."

Resultado da competição: prejuízos, excesso de negociação e divergências de decisão

Os dados da Alpha Arena revelam múltiplas deficiências dos atuais LLMs em cenários de negociação. Sob o mesmo prompt, o Qwen da Alibaba realizou 1.418 negociações em uma rodada de competição, enquanto o melhor desempenho do Grok 4.20 foi de apenas 158 ordens. O melhor resultado do Grok ocorreu na rodada em que ele pôde observar o desempenho dos concorrentes.

O blog de IA Flat Circle rastreou 11 arenas relacionadas ao mercado, e os resultados mostraram que, em todas as arenas, pelo menos um modelo obteve lucro, mas apenas duas arenas tinham modelos medianos com retorno positivo, indicando que a maioria dos modelos tem dificuldade em superar o mercado.

As diferenças nas decisões entre os modelos também são interessantes. Segundo Azhang, no mais recente ciclo de testes da Alpha Arena, o Claude tende a tomar posições longas, o Gemini não tem nenhuma resistência a posições curtas, e o Qwen está disposto a usar alavancagem alta para assumir riscos. "Eles têm cada um sua 'personalidade', gerenciá-los é quase como gerenciar um analista humano", disse Doug Clinton, responsável pela Intelligent Alpha, que opera fundos impulsionados por LLMs, acrescentando que informar aos modelos sobre sua tendência a certos vieses pode, em certa medida, melhorar os resultados.

Limite de capacidade: LLM é excelente em pesquisa, mas não é bom em timing de negociação

Jay Azhang aponta que os LLMs têm vantagens na pesquisa e na chamada de ferramentas corretas, mas apresentam deficiências sistêmicas no nível de execução de negócios: ainda não compreendem os pesos relativos de diversas variáveis que afetam os preços das ações, como classificações de analistas, transações de insiders e mudanças de sentimento, o que os torna propensos a erros de timing, tamanhos de posição inadequados e negociações excessivamente frequentes.

Os testes de referência do Intelligent Alpha fornecem uma referência relativamente positiva. O teste forneceu aos 10 modelos de IA documentos financeiros, previsões de analistas, transcrições de conferências de resultados, dados macroeconômicos e acesso a buscas na web, com foco na avaliação da direção das previsões de lucro. Os resultados mostraram que, no quarto trimestre de 2025, o ChatGPT da OpenAI alcançou uma precisão de 68% na previsão correta da direção das previsões de lucro, registrando o melhor desempenho até agora. Clinton afirmou que, com cada nova versão lançada, o desempenho dos modelos apresenta uma tendência geral de melhoria.

Dilema metodológico: Backtesting falhou; teste em tempo real torna-se a única opção

Avaliar a capacidade de negociação da IA enfrenta um obstáculo metodológico fundamental. Estratégias quantitativas tradicionais dependem de backtesting histórico para validar sua eficácia, mas esse framework é quase completamente ineficaz para LLMs — um modelo perguntado em 2026 como negociar o mercado de março de 2020 já "sabe" o rumo que aquele período histórico tomou. Esse problema de contaminação, conhecido como "lookahead bias", força os pesquisadores a avaliar a IA apenas por meio de negociações reais no mercado, o que gerou o surgimento massivo de diversos benchmarks e arenas atuais.

Jim Moran, autor do blog Flat Circle e co-fundador da YipitData, antiga provedora de dados alternativos, acredita que a maioria dos experimentos públicos atualmente tem ciclos muito curtos e ruído excessivo, o que ainda não sustenta conclusões definitivas. Esses ambientes também apresentam desvantagens naturais, como a incapacidade de acessar recursos de pesquisa exclusiva de ações e baixa qualidade de execução. "Se um agente de IA desses ambientes fosse diretamente implantado dentro de um dos principais fundos de hedge, seu desempenho provavelmente seria melhor", disse ele.

Perspectiva do setor: estratégias verdadeiramente eficazes podem desaparecer silenciosamente da visão pública

Alexander Izydorczyk, ex-chefe de ciência de dados da Coatue Management e atualmente na NX1 Capital, escreveu recentemente que nenhum dos robôs de negociação por IA que ele rastreia demonstrou até agora capacidade sustentada de gerar retornos excessivos. Ele acredita que a limitação desses ambientes reside na ausência, nos dados de treinamento, das técnicas quantitativas práticas utilizadas por instituições de negociação secretas.

No entanto, Izydorczyk também deixou um julgamento intrigante: "Iniciantes às vezes conseguem ver coisas que especialistas não veem." Ele escreveu em seu blog pessoal: "Quando as estratégias de negociação de agentes LLM realmente começarem a funcionar, você não ouvirá nada imediatamente."

A Nof1 está preparando a segunda temporada da Alpha Arena, planejando dotar cada modelo de IA de capacidades de busca na web, tempo de reflexão mais longo, mais fontes de dados e execução em múltiplos passos. No entanto, o modelo de negócios central da empresa é fornecer ferramentas sistêmicas para traders varejistas construírem agentes de negociação baseados em IA — e não colocar diretamente a IA no mercado. Essa posição, por si só, talvez seja o comentário mais pragmático sobre as atuais capacidades de negociação por IA.