Los modelos de trading con IA tienen dificultades en pruebas en mercados en vivo; la mayoría de los sistemas reportan pérdidas

CoinGape informa:

La inteligencia artificial está llamando a la puerta de las salas de trading de Wall Street, pero su historial hasta ahora no es alentador.

Los resultados iniciales de una serie de competencias de trading abiertas muestran que los modelos de lenguaje grandes (LLM) dominantes tienen un desempeño generalmente deficiente en el trading autónomo: la mayoría de los sistemas registran pérdidas, realizan operaciones excesivas y toman decisiones radicalmente distintas al recibir las mismas instrucciones. Estos resultados plantean una pregunta fundamental: ¿cuán profunda es la brecha entre los LLM y el funcionamiento real de los mercados?

El caso más representativo proviene de la competencia Alpha Arena, operada por la startup tecnológica Nof1. La competencia puso a prueba ocho sistemas de IA avanzados, incluidos Claude de Anthropic, Gemini de Google, ChatGPT de OpenAI y Grok de Elon Musk, en cuatro rondas independientes. Cada equipo recibió $10,000 al inicio de cada ronda y negoció acciones tecnológicas estadounidenses durante dos semanas. Al final, la cartera general sufrió una pérdida de aproximadamente un tercio, y solo 6 de los 32 resultados lograron ganancias.

Jay Azhang, fundador de Nof1, dijo directamente: "Aún no es posible entregar el dinero directamente a un LLM para que negocie por sí mismo."

Resultados del concurso: pérdidas, exceso de operaciones y divergencias en la toma de decisiones

Los datos de Alpha Arena revelan múltiples deficiencias de los LLM actuales en escenarios de trading. Bajo el mismo prompt, Qwen de Alibaba realizó 1.418 operaciones en una sola competencia, mientras que el mejor desempeño de Grok 4.20 solo logró 158 órdenes. El mejor resultado de Grok se produjo en la ronda en la que pudo observar el desempeño de sus competidores.

El blog de IA Flat Circle rastreó 11 campos relacionados con el mercado, y los resultados mostraron que, aunque en todos los campos al menos un modelo logró ganancias, solo en dos campos el modelo mediano tuvo rendimientos positivos, lo que indica que la mayoría de los modelos tienen dificultades para superar al mercado.

Las diferencias en las decisiones entre los distintos modelos también son de gran interés. Según Azhang, en la última ronda de pruebas de Alpha Arena, Claude tiende a tomar posiciones largas, Gemini no tiene ninguna resistencia a las posiciones cortas, y Qwen está dispuesto a asumir riesgos utilizando apalancamiento alto. "Cada uno tiene su propia 'personalidad', y gestionarlos es casi como gestionar a un analista humano", dijo Doug Clinton, director de Intelligent Alpha, que gestiona fondos impulsados por LLM. Informar a los modelos sobre la existencia de ciertos sesgos puede mejorar en cierta medida los resultados.

Límites de capacidad: Los LLM son expertos en investigación, pero no en la selección de momentos para operar.

Jay Azhang señala que los LLM tienen ventajas en la investigación y la llamada a las herramientas correctas, pero presentan deficiencias sistémicas en la ejecución de operaciones: aún no comprenden el peso relativo de numerosas variables que afectan los precios de las acciones, como las calificaciones de analistas, operaciones de insiders y cambios de sentimiento, lo que los hace propensos a errores en la elección del momento de operar, tamaños de posición inadecuados y exceso de frecuencia en compras y ventas.

Las pruebas de referencia de Intelligent Alpha ofrecen un punto de referencia relativamente positivo. La prueba otorgó a 10 modelos de IA acceso a documentos financieros, pronósticos de analistas, transcripciones de llamadas de resultados, datos macroeconómicos y búsquedas en la web, centrándose en la evaluación de la dirección de las predicciones de ganancias. Los resultados mostraron que, en el cuarto trimestre de 2025, ChatGPT de OpenAI logró una precisión del 68% en la predicción correcta de la dirección de las predicciones de ganancias, logrando el mejor rendimiento hasta la fecha. Clinton indicó que, con cada nueva versión lanzada, el rendimiento del modelo muestra una tendencia general de mejora.

Dilema metodológico: La retroprueba falla, la prueba en tiempo real se convierte en la única opción

Evaluar la capacidad de trading de IA enfrenta un obstáculo metodológico fundamental. Las estrategias cuantitativas tradicionales dependen de la validación mediante backtesting histórico, pero este marco es casi completamente ineficaz para los LLM: un modelo preguntado en 2026 cómo operar el mercado de marzo de 2020 ya "sabe" cómo evolucionó ese período. Este problema de contaminación, conocido como "sesgo de anticipación" (lookahead bias), obliga a los investigadores a evaluar a la IA únicamente mediante mercados en vivo, lo que ha generado la proliferación actual de numerosas pruebas de referencia y competencias.

Jim Moran, autor del blog Flat Circle y cofundador de YipitData, anterior proveedor de datos alternativos, considera que la mayoría de los experimentos públicos actuales tienen ciclos demasiado cortos y demasiado ruido como para sustentar conclusiones deterministas. Estos entornos también presentan desventajas inherentes, como la imposibilidad de acceder a recursos de investigación accionaria exclusiva y una calidad de ejecución inferior. "Si se trasladara directamente algún agente de IA de estos entornos a funcionar dentro de un fondo de cobertura de primer nivel, su desempeño sería probablemente mejor", dijo.

Perspectiva de la industria: Las estrategias verdaderamente efectivas podrían desaparecer silenciosamente de la vista del público

Alexander Izydorczyk, exdirector de ciencia de datos de Coatue Management y actualmente en NX1 Capital, señaló recientemente en un artículo que ninguno de los robots de trading de IA que sigue ha demostrado hasta ahora una capacidad sostenida de generar rendimientos superiores. Considera que la limitación de estos entornos radica en la ausencia, en sus datos de entrenamiento, de técnicas cuantitativas prácticas utilizadas por instituciones de trading secretas.

Sin embargo, Izydorczyk también dejó un juicio intrigante: "Los principiantes a veces pueden ver cosas que los expertos no ven." Escribió en su blog personal: "Cuando las estrategias de negociación de agentes LLM realmente comiencen a funcionar, no escucharás nada inmediatamente."

Nof1 está preparando la segunda temporada de Alpha Arena, planeando otorgar a cada modelo de IA capacidades como búsqueda en la web, más tiempo de reflexión, fuentes de datos adicionales y ejecución en múltiples pasos. Sin embargo, su modelo de negocio central consiste en proporcionar herramientas sistémicas para que los traders minoristas construyan agentes de IA, en lugar de colocar directamente a la IA en el mercado. Esta posición misma quizás sea el comentario más pragmático sobre las capacidades actuales de la IA en el trading.