L’intelligence artificielle frappe à la porte des salles de trading de Wall Street, mais son bilan actuel n’est pas bon.
Les premiers résultats d'une série de compétitions de trading publics révèlent que les grands modèles linguistiques (LLM) courants se comportent généralement mal en trading autonome : la plupart des systèmes enregistrent des pertes, effectuent des transactions trop fréquentes et prennent des décisions radicalement différentes lorsqu'ils reçoivent les mêmes instructions. Ces résultats soulèvent une question fondamentale : quelle est la profondeur réelle du fossé entre les LLM et le fonctionnement réel des marchés ?
L'exemple le plus emblématique provient du concours Alpha Arena organisé par la startup technologique Nof1. Ce concours a mis en compétition huit systèmes d'IA de pointe, notamment Claude d'Anthropic, Gemini de Google, ChatGPT d'OpenAI et Grok d'Elon Musk, lors de quatre épreuves indépendantes. Chaque système a reçu 10 000 dollars au début de chaque épreuve pour négocier autonomement des actions technologiques américaines sur une période de deux semaines. À la fin, le portefeuille global a enregistré une perte d'environ un tiers, avec seulement six résultats gagnants sur les 32 performances totales.
Jay Azhang, fondateur de Nof1, a déclaré directement : « Il n'est pas encore possible de confier directement de l'argent à un LLM pour qu'il trade pour vous. »
Résultats du concours : pertes, surtrading et divergences de décision
Les données d'Alpha Arena révèlent plusieurs défauts des LLM actuels dans les scénarios de trading. Avec le même prompt, Qwen d'Alibaba a effectué 1 418 transactions au cours d'une seule compétition, tandis que le meilleur modèle, Grok 4.20, n'a passé que 158 commandes. Le meilleur résultat de Grok a été obtenu lors de la compétition où il pouvait observer les performances de ses concurrents.
Le blog AI Flat Circle a suivi 11 arènes liées au marché, révélant qu'au moins un modèle a généré un profit dans chaque arène, mais seulement deux arènes ont vu leur modèle médian réaliser un rendement positif, indiquant que la plupart des modèles peinent à surpasser le marché.
Les différences de décision entre les différents modèles sont tout aussi intéressantes. Selon Azhang, lors du dernier cycle de tests d'Alpha Arena, Claude a tendance à prendre des positions longues, Gemini n'a aucune réticence à prendre des positions courtes, tandis que Qwen apprécie d'utiliser un levier élevé pour assumer des risques. « Elles ont chacune une ‘personnalité’ propre, et les gérer ressemble presque à la gestion d’un analyste humain », déclare Doug Clinton, responsable d’Intelligent Alpha, qui gère un fonds piloté par des LLM. Informer les modèles de l’existence d’un tel biais peut dans une certaine mesure améliorer les résultats.
Limites de capacité : les LLM sont compétents en recherche, mais pas en timing de marché.
Jay Azhang souligne que les LLM présentent des avantages en matière de recherche et d'appel des outils appropriés, mais souffrent de lacunes systémiques au niveau de l'exécution des trades : ils ne comprennent pas encore les poids respectifs de nombreuses variables influençant les cours des actions, telles que les évaluations des analystes, les transactions internes ou les changements de sentiment, ce qui les rend sujets à des erreurs de timing, une mauvaise taille de position et des échanges excessifs.
Les tests de référence d'Intelligent Alpha offrent une référence relativement positive. Ce test a fourni aux dix modèles d'IA des documents financiers, des prévisions d'analystes, des transcriptions de conférences téléphoniques sur les résultats, des données macroéconomiques et un accès aux recherches en ligne, en se concentrant sur la détermination de la direction des prévisions de bénéfices. Les résultats montrent qu'au quatrième trimestre 2025, ChatGPT d'OpenAI a atteint une précision de 68 % pour prédire correctement la direction des prévisions de bénéfices, établissant ainsi son meilleur résultat à ce jour. Clinton a déclaré que les performances des modèles s'améliorent globalement à chaque nouvelle version.
Dilemme méthodologique : les backtests échouent, les tests en direct deviennent la seule option
L'évaluation des capacités de trading de l'IA fait face à un obstacle méthodologique fondamental. Les stratégies quantitatives traditionnelles reposent sur des backtests historiques pour valider leur efficacité, mais ce cadre est presque entièrement inapplicable aux LLM — un modèle interrogé en 2026 sur la manière de trader les mouvements de mars 2020 « sait » déjà comment cette période s'est déroulée. Ce problème de contamination, appelé « biais de regard vers l'avant » (lookahead bias), oblige les chercheurs à évaluer l'IA uniquement via des marchés en temps réel, ce qui a conduit à l'émergence massive de divers benchmarks et arènes actuels.
Jim Moran, auteur du blog Flat Circle et cofondateur de YipitData, ancien fournisseur de données alternatives, estime que la plupart des expériences publiques actuelles sont trop courtes et trop bruitées pour permettre des conclusions certaines. Ces arènes présentent également des désavantages naturels, notamment l'incapacité d'accéder à des ressources de recherche sur les actions propriétaires et une qualité d'exécution inférieure. « Si l'on transférait directement un agent IA issu de l'une de ces arènes au sein d'un hedge fund de premier plan, son rendement serait probablement meilleur », dit-il.
Perspective du secteur : les stratégies véritablement efficaces pourraient disparaître discrètement de la vue du public
Alexander Izydorczyk, ancien responsable des sciences des données chez Coatue Management et actuellement chez NX1 Capital, a récemment publié un article indiquant qu'aucun des robots de trading AI qu'il suit ne présente actuellement une capacité durable de rendement supérieur. Il estime que la limite de ces arènes réside dans l'absence, dans leurs données d'entraînement, des techniques quantitatives pratiques utilisées par les institutions de trading secrètes.
Cependant, Izydorczyk a également laissé un jugement intrigant : « Les débutants parfois voient des choses que les experts ne voient pas. » a-t-il écrit sur son blog personnel, « Lorsque les stratégies de trading avec des agents LLM commenceront réellement à fonctionner, vous n'entendrez pas tout de suite parler de quoi que ce soit. »
Nof1 prépare la saison 2 d'Alpha Arena, prévoyant de doter chaque modèle d'IA de capacités de recherche web, de temps de réflexion prolongé, de sources de données accrues et d'exécution en plusieurs étapes. Toutefois, le modèle économique central de l'entreprise consiste à fournir aux traders particuliers des outils système pour construire des agents d'IA, et non à placer directement l'IA sur les marchés. Cette position même constitue peut-être le commentaire le plus pragmatique sur les capacités actuelles de l'IA en trading.
