El rendimiento del trading de IA fue mixto en pruebas en mercados reales

AI sabe mucho, pero actualmente «no es confiable».

Autor del artículo, fuente: Yang Xia, La Tienda de Todo de Yang Xia

En este último período, no estaba investigando y preparando la herramienta Agent Trading?

Tras experimentar con numerosos métodos, herramientas y plataformas de IA, quemando cientos de millones de tokens,

Una sensación fundamental,

AI sabe mucho, pero actualmente «no es confiable».

Sé que mucha gente se capacitó con diversas habilidades financieras durante la fiebre de las langostas.

Preparándote emocionado para dominar el mercado,

El sonido se fue apagando poco a poco, la langosta se canceló, ya está a 14 yuanes el kilo.

¿Cómo construir un agente de negociación confiable, ejecutable y iterativo en los mercados de capital reales?

Los errores que cometí en los últimos meses podrían llenar 100.000 palabras de experiencia directa.

Sin embargo, hoy, dejémoslo por ahora.

Recientemente, mientras construía conocimientos sobre la arquitectura AT, encontré un artículo científico que vale la pena compartir con ustedes,

Sobre todo cuando todos están sumergidos en el paraíso perdido del trading con IA, es evidente que el futuro implicará la participación total de la IA en la inversión.

Los autores de este artículo, "AI-TRADER: BENCHMARKING AUTONOMOUS AGENTS IN REAL-TIME FINANCIAL MARKETS", presentan el marco AI-Trader, con el objetivo de evaluar el rendimiento de los modelos LLM más populares en decisiones financieras completamente autónomas, en tiempo real y en un entorno libre de contaminación de datos.

En otras palabras, probar qué tan bien funciona la IA para operar en bolsa.

El experimento seleccionó tres conjuntos de activos: acciones componentes del Nasdaq 100 de EE.UU., acciones componentes del SSE 50 de China, y los 10 activos criptográficos principales, con frecuencias de operación horaria (para acciones de EE.UU.) y diaria (para acciones de China y criptomonedas).

Diferentes modelos de IA, empaquetados en el mismo agente, utilizan MCP para recuperar noticias, información, estados financieros y datos de mercado, y pueden completar automáticamente la extracción de sentimiento, cálculos numéricos y la emisión de órdenes de trading.

6 participantes (antes de que se lanzara DS-V4),

• DeepSeek-v3.1

• MiniMax-M2

• Claude-3.7-Sonnet

• GPT-5

• Qwen3-Max

• Gemini-2.5-Flash

Desde el 25 de noviembre hasta el 7 de noviembre, se lanzó el mercado real, y los resultados obtenidos

MiniMax-M2, ganador de dos campeonatos: acciones estadounidenses (horario) y acciones chinas (diario)

DS-V3.1 obtuvo el primer lugar en el grupo de criptomonedas.

Sin embargo, es cruel que

La mayoría de los modelos tienen un desempeño pobre en los mercados reales, con rendimientos bajos y gestión de riesgos débil.

Estas deficiencias no se pueden reflejar en las evaluaciones de referencia de modelos de grandes categorías.

El mismo modelo, en diferentes mercados, tiene un estilo muy distinto,

Por ejemplo, el campeón MINIMAX busca rendimiento en los mercados estadounidenses y se vuelve defensivo en los mercados chinos (baja volatilidad, bajo retroceso), lo que indica que el conjunto de datos de entrenamiento reconoce adecuadamente las diferencias entre ambos mercados.

En los mercados estadounidenses, varios modelos pueden superar al QQQ,

En el mercado de acciones de China, ninguno superó al SSE 50; ni siquiera si llegara Warren Buffett o la IA más potente, en nuestro gran mercado A, aún tendrían que arrodillarse.

Incluso DeepSeek, nativo y con sangre cuantitativa,

Aunque tenga un buen desempeño en los mercados estadounidenses y de criptomonedas, tampoco puede destacar en el mercado de acciones de China.

Gemini en Estados Unidos, con un promedio de operación de 3.79 en el mercado estadounidense, llega a operar frenéticamente hasta 4.74 en el mercado A, ¿qué se puede decir? Adaptarse a las costumbres locales.

Hay algunos casos de éxito dentro.

Por ejemplo, el 10 de octubre, DS utilizó la herramienta de búsqueda para obtener noticias sobre Trump y la "imposición de aranceles a China", inferió que las acciones tecnológicas presentaban un alto riesgo y ejecutó una estrategia defensiva:

La posición en acciones tecnológicas disminuyó del 99% al 70%

Aumentar bienes de consumo esenciales (PEP) y servicios públicos (AEP)

Mantener el 17.3% en efectivo

Reducir con éxito las pérdidas y superar a la mayoría de los modelos

Igualmente, DS cometió el mismo error que todos los AI del mundo cometen,

Fui engañado por una sola fuente,

Tras recibir la noticia de "buey lento estructural", no se realizó verificación cruzada

Error al aumentar posiciones en energía tradicional y acciones bancarias, perdiendo la ola principal del mercado

Se revelaron las deficiencias del agente en la verificación de información y la corrección dinámica.

En un entorno de interfaz de información y alineación de datos adecuados, la IA no comete errores de «ilusión» en sentido general.

La verdadera «deficiencia práctica» radica en,

o análisis incorrecto (información falsa),

o operar con frecuencia (operaciones inválidas),

O bien falla el control de riesgos (se cae en una trampa).

Estos son algunos de los defectos naturales que he experimentado personalmente en mis experimentos con IA durante los últimos meses,

Sin embargo, todos estos problemas tienen soluciones.

Los autores del texto original,

También se desarrolló un sitio web dedicado a rastrear y avanzar en experimentos posteriores de colaboración hombre-máquina en operaciones.

También puedes instalar directamente sus habilidades listas para usar y participar en una competencia de trading.