Desempenho do Trading de IA misto em testes no mercado real

A IA sabe muito, mas atualmente "não é confiável".

Autor do artigo, fonte: Yang Xia, Yang Xia's Tudo Sobre

Neste último período, não estive pesquisando e preparando a ferramenta Agent Trading?

Após experimentar inúmeros métodos, ferramentas e plataformas de negociação de IA, gastando centenas de milhões de tokens,

Uma sensação central,

A IA sabe muito, mas atualmente "não é confiável".

Eu sei que muitas pessoas, durante a febre dos lagostins, se equiparam com várias habilidades financeiras,

Pronto para entrar no mercado e arrasar,

O som foi se extinguindo, o lagostim foi desativado, e já está a 14 yuan por quilo.

Como construir um agente de negociação confiável, executável e iterável nos mercados financeiros reais

Nos últimos meses, posso escrever cem mil palavras de experiência prática,

No entanto, hoje, vamos deixar isso de lado por enquanto.

Recentemente, ao construir conhecimento sobre a arquitetura AT, me deparei com um artigo acadêmico que vale muito a pena compartilhar com vocês,

Especialmente enquanto todos estão imersos no paraíso perdido do trading com IA, é visível a olho nu que o futuro será marcado pela participação total da IA nos investimentos.

Os autores deste artigo, "AI-TRADER: BENCHMARKING AUTONOMOUS AGENTS IN REAL-TIME FINANCIAL MARKETS", propuseram o framework AI-Trader, com o objetivo de avaliar o desempenho de modelos LLM主流 em decisões financeiras totalmente autônomas, em tempo real e em ambiente livre de contaminação de dados.

Em outras palavras, é testar o desempenho da IA na negociação de ações.

O experimento selecionou ações componentes do Nasdaq 100 dos EUA, ações componentes do SSE 50 da China e os 10 principais ativos criptográficos, realizando operações com frequência horária (para ações dos EUA) e diária (para ações da China e criptomoedas).

Diferentes modelos de IA, encapsulados no mesmo agente, utilizam MCP para acessar notícias, informações, demonstrações financeiras e dados de mercado, podendo autonomamente extrair emoções, realizar cálculos numéricos e emitir ordens de negociação.

6 participantes (antes do DS-V4 ser lançado),

• DeepSeek-v3.1

• MiniMax-M2

• Claude-3.7-Sonnet

• GPT-5

• Qwen3-Max

• Gemini-2.5-Flash

De 25 de novembro a 7 de novembro, a competição de mercado real foi iniciada, com os resultados obtidos,

MiniMax-M2 conquistou os dois títulos: mercado americano (horário) e mercado chinês (diário)

DS-V3.1 conquistou o primeiro lugar no grupo de criptomoedas.

No entanto, é cruel que

A maioria dos modelos apresenta desempenho ruim no mercado real, com retornos baixos e controle de risco fraco.

Esses defeitos não podem ser demonstrados nos principais benchmarks de modelos.

O mesmo modelo, em diferentes mercados, apresenta um estilo completamente diferente,

Por exemplo, o campeão MINIMAX busca rentabilidade no mercado americano e adota uma postura defensiva no mercado chinês (baixa volatilidade, baixo drawdown), o que indica que o conjunto de dados de treinamento compreende bem as diferenças entre os dois mercados.

Nos mercados de ações dos EUA, vários modelos conseguem superar o QQQ,

No mercado de ações da China, nenhum ativo superou o SSE 50; mesmo que você, Buffett, chegasse, ou o mais poderoso AI chegasse, ainda assim teriam que se curvar no meu grande A.

Mesmo o DeepSeek, nativo e com sangue quantitativo,

Mesmo com bom desempenho nos mercados dos EUA e de criptomoedas, não consegue se destacar no mercado A.

A Gemini dos EUA, com média de negociação de 3,79 no mercado americano, chegou a operar loucamente até 4,74 no mercado A, enfim, quando no estrangeiro, faça como os locais.

Há alguns casos de sucesso dentro.

Por exemplo, em 10 de outubro, o DS usou a ferramenta Search para obter notícias sobre Trump e “aumento de tarifas contra a China”, inferiu que as ações de tecnologia apresentavam risco elevado e implementou uma estratégia defensiva:

A alocação de ações de tecnologia caiu de 99% para 70%

Aumentar bens de consumo essenciais (PEP) e utilidades (AEP)

Mantenha 17,3% em dinheiro

Redução bem-sucedida de perdas, desempenho superior à maioria dos modelos

Da mesma forma, o DS cometeu o erro que todos os IA do mundo cometem,

Fui enganado por uma única fonte

Recebeu a notícia de "touro lento estrutural" sem realizar verificação cruzada

Erro ao aumentar posições em energéticos tradicionais e ações bancárias, perdendo a principal onda de alta do mercado

Revelou as limitações do agente na verificação de informações e na correção dinâmica de erros

Em um ambiente com boa interface de informação e alinhamento de dados, a IA não comete erros de "alucinação" no sentido geral.

O verdadeiro "defeito prático" está em,

ou análise incorreta (informação falsa),

ou operar com frequência (transações inválidas),

Ou o risco falhou (acertou em cheio).

Esses também são alguns defeitos naturais que experimentei pessoalmente em meus experimentos com IA nos últimos meses,

No entanto, todas essas questões têm soluções.

Os autores originais

Também desenvolveu um site dedicado para rastrear e desenvolver experimentos subsequentes de colaboração homem-máquina no comércio,

Você também pode instalar diretamente suas habilidades prontas para participar de uma competição de negociação.