Les performances du trading IA sont mitigées lors des tests sur le marché réel

L'IA en sait beaucoup, mais n'est actuellement pas « fiable ».

Auteur et source : Yang Xia, Yang Xia's Everything Shop

Ces derniers temps, je n'ai pas été en train d'étudier et de préparer l'outil Agent Trading ?

Après avoir testé de nombreuses méthodes, outils et plateformes d'IA trading, ayant brûlé des centaines de millions de tokens,

Un sentiment fondamental,

L'IA en sait beaucoup, mais n'est actuellement pas « fiable ».

Je sais que beaucoup d'entre vous ont acquis diverses compétences financières pendant la frénésie des écrevisses.

Prêt à entrer sur le marché avec enthousiasme,

Le bruit s'est peu à peu tenu, la langouste a été annulée, elle est à 14 yuans le kilo.

Comment construire un agent de trading fiable, exécutable et itérable sur les marchés financiers réels

Les erreurs que j'ai faites ces derniers mois, je pourrais écrire une expérience de première main de 100 000 mots.

Cependant, aujourd'hui, nous laissons cela de côté pour l'instant.

Récemment, en construisant des connaissances sur l'architecture AT, j'ai rencontré un article scientifique qui mérite d'être partagé avec vous,

Surtout que tout le monde est plongé dans le paradis perdu du trading IA, il est visible à l'œil nu que l'avenir sera inévitablement marqué par une participation totale de l'IA aux investissements.

Les auteurs de cet article intitulé « AI-TRADER: BENCHMARKING AUTONOMOUS AGENTS IN REAL-TIME FINANCIAL MARKETS » ont proposé le cadre AI-Trader, destiné à évaluer les performances décisionnelles des principaux modèles LLM dans un environnement entièrement autonome, en temps réel et sans contamination des données.

En clair, il s'agit de tester l'efficacité de l'IA pour le trading boursier.

L'expérience a été menée sur trois types d'actifs : les actions composant l'indice Nasdaq 100 aux États-Unis, les actions composant l'indice SSE 50 en Chine, et les 10 principaux actifs cryptographiques, avec des fréquences de trading horaires (pour les actions américaines) et journalières (pour les actions chinoises et les cryptomonnaies).

Différents modèles d'IA, encapsulés dans le même agent, utilisent MCP pour récupérer des nouvelles, des informations, des états financiers et des données de marché, et peuvent automatiquement effectuer l'extraction d'émotions, les calculs numériques et l'envoi d'ordres de trading.

6 participants (DS-V4 n'étant pas encore publié),

• DeepSeek-v3.1

• MiniMax-M2

• Claude-3.7-Sonnet

• GPT-5

• Qwen3-Max

• Gemini-2.5-Flash

Du 25 novembre au 7 novembre, le marché réel a commencé, voici les résultats obtenus,

MiniMax-M2 remporte les deux titres : marché américain (horaire) et marché chinois (journalier)

DS-V3.1 a remporté la première place dans la catégorie cryptomonnaies.

Cependant, la cruelle vérité est que

La plupart des modèles présentent de mauvais résultats sur les marchés réels, avec des rendements faibles et une gestion des risques insuffisante.

Ces défauts ne peuvent pas être révélés dans les évaluations de référence des grands modèles.

Le même modèle, sur différents marchés, présente un style très différent,

Par exemple, le champion MINIMAX cherche des rendements sur le marché américain et adopte une stratégie défensive sur le marché chinois (faible volatilité, faible retracement), ce qui indique une bonne compréhension des différences entre les deux marchés dans son jeu de données d'entraînement.

Aux États-Unis, plusieurs modèles peuvent surpasser le QQQ,

Dans le marché des actions en Chine, aucun n'a surpassé le SSE 50 ; même si Warren Buffett arrivait ou que le meilleur IA venait, ici, dans notre grand A, ils devraient quand même s'incliner.

Même DeepSeek, natif et baigné dans la quantification,

Même si les marchés américains et des cryptomonnaies se portent bien, cela ne suffit pas à faire performer le marché chinois.

Gemini aux États-Unis, avec un prix moyen de négociation de 3,79 sur le marché américain, atteint 4,74 sur le marché A, comment dire… il faut s'adapter aux coutumes locales.

Il y a quelques cas de réussite,

Par exemple, le 10 octobre, DS a utilisé l'outil Search pour récupérer les actualités sur Trump concernant « l'augmentation des droits de douane sur la Chine », en déduisant un risque élevé pour les actions technologiques et en mettant en œuvre une stratégie défensive :

La position dans les actions technologiques est passée de 99 % à 70 %

Augmenter les biens de consommation essentiels (PEP) et les services publics (AEP)

Gardez 17,3 % en espèces

Réduction réussie des pertes, performance supérieure à la plupart des modèles

De même, DS a commis l'erreur que tous les IA au monde commettent,

Piégé par une seule source d'information

Après avoir reçu la nouvelle « marché haussier structurel lent », aucune vérification croisée n'a été effectuée.

Acheter à tort des actions d'énergie traditionnelle et de banques, tout en manquant la principale tendance haussière du marché

Révèle les lacunes de l'agent en matière de vérification d'informations et de correction dynamique

Dans un environnement de bonne interface d'information et d'alignement des données, l'IA ne commet pas d'erreurs de « hallucination » au sens général.

Le véritable « défaut de mise en œuvre » réside dans,

soit analyse incorrecte (fausses informations),

soit des opérations fréquentes (transactions inutiles),

Soit le contrôle des risques échoue (tomber dans un piège).

Ce sont également quelques défauts naturels que j'ai personnellement observés lors de mes expériences en IA au cours des derniers mois,

Cependant, ces problèmes ont tous une solution.

Les quelques auteurs de l'article original,

Un site web a également été créé pour suivre et développer des expériences ultérieures de collaboration homme-machine dans le trading.

Vous pouvez également installer directement leurs compétences prêtes à l'emploi pour participer à un concours de trading.