Le dilemme de l'investisseur IA en 2026 : que reste-t-il des avantages concurrentiels des startups lorsque les modèles dominent ?

Auteur : Sarah Guo

Traduction : Deep潮 TechFlow

Guide de Shenchao : Lorsque les grands modèles commencent à dominer tous les classements, les investisseurs entrent dans un sentiment de désespoir : qu’est-ce qui vaut la peine d’être investi, en dehors d’Anthropic et de NVIDIA ? Ce investisseur de premier plan de la Silicon Valley démontre, à l’aide de données et d’exemples, que le véritable avantage concurrentiel ne se trouve pas dans les classements — il réside dans des domaines impossibles à mesurer par des benchmarks.

Au milieu de l'année 2026, la version investisseur de la folie IA est un désespoir : il n'y a rien de值得投资，我们该把所有钱都投给 Anthropic 和英伟达然后回家。

Je n'ai jamais ressenti cela. Je suis certain que le modèle est plusieurs versions plus intelligent que moi, et je serais ravi d'acheter Anthropic et NVIDIA au prix du marché ; tous mes amis les plus intelligents sont assez sûrs que l'amélioration de soi réussira bientôt — mais je ne ressens toujours pas ce désespoir.

Ce désespoir n’est pas stupide. La logique est la suivante : si le modèle s’améliore constamment sur tous les plans, alors chaque entreprise construite dessus n’est qu’une fine couche d’emballage, en attente d’être absorbée ; la seule valeur qui peut survivre est la puissance de calcul et les poids de pointe.

À titre d'exemple logiciel, c'est le cas le plus souvent invoqué par les pessimistes. Lors de sa sortie en 2024, Devin ne pouvait résoudre que 13 % des tâches sur les benchmarks logiciels standards et a été largement ignoré. Un an et demi plus tard, les meilleurs agents atteignent plus de 80 %, et ils effectuent déjà des travaux réels au sein de Goldman Sachs et de l'armée américaine. Presque tout le monde en a tiré la même conclusion erronée : les modèles ont dévoré l'ingénierie logicielle. Mais lorsque les modèles ont absorbé les parties les plus faciles à mesurer de l'ingénierie logicielle, nous redécouvrons ce que de nombreuses équipes savaient déjà depuis longtemps — l'ingénierie a toujours résisté à la mesure, et les parties les plus faciles à mesurer ne sont peut-être pas les seules importantes.

Mert Demirer du MIT et ses collaborateurs ont enfin fourni des chiffres : parmi plus de 100 000 développeurs, le dernier agent de codage a augmenté la quantité de code écrit d'environ 180 % et la quantité de code effectivement publiée d'environ 30 %. Écrire du code est devenu moins cher. La partie restante doit encore être réalisée par des humains, et elle reste cruciale. Bien sûr, l'impact net reste impressionnant.

Un benchmark est quelque chose que vous pouvez mesurer, et ce que vous pouvez mesurer, c'est ce sur quoi vous pouvez entraîner. Ainsi, les agents de codage ont atteint la maturité en premier : les compilateurs sont des validateurs gratuits, les suites de tests sont des validateurs gratuits, et lorsque la réponse vérifie elle-même son exactitude gratuitement, vous pouvez continuer à affiner jusqu'à ce que vous la surpassiez. Mais passer un test ne vous dit jamais si ce changement est correct pour une base de code vieille de dix ans, avec trois modules non documentés, dont le pipeline de déploiement est maintenu péniblement par un cron job que personne n'ose admettre avoir écrit.

Cette exactitude ne peut pas être lue sur un classement, ni en réalité sur rien d’autre. Vous apprenez si un système aussi complexe fonctionne en le faisant fonctionner dans le monde réel pendant suffisamment longtemps, et des modèles plus intelligents ne font pas avancer le monde plus vite. Personne ne fait de tests unitaires sur des systèmes à l’échelle de Google et croit aux coches vertes ; vous y croyez parce qu’ils ont résisté à des charges réelles pendant des années. Cette exactitude n’est pas seulement privée, c’est aussi un fossé lent que le capital ne peut pas franchir. Même les optimistes reconnaissent que les horloges ne peuvent pas sauter : Noam Brown, pionnier des modèles d’inférence d’OpenAI, a récemment écrit que la seule méthode fiable pour évaluer un agent sur une période d’un an pourrait être... de le faire fonctionner pendant un an.

Comme le dit Gabe Pereyra, l'automatisation réelle ne consiste pas seulement à améliorer les modèles. C'est faire avancer ensemble le produit, le modèle, les processus et l'entreprise, et trois de ces quatre éléments se déplacent à la vitesse de l'organisation.

Les gens mobiles sont la partie inaccessible au benchmark : faire changer une partenaire sceptique la manière dont elle gère les choses, tout en maintenant la cohésion de l'équipe pendant la reconstruction. C’est pourquoi, lors de notre recrutement de PDG, la capacité à gérer les personnes est au moins aussi importante que la capacité analytique, et des modèles plus intelligents ne modifieront pas ce poids. Les retours sont flous, les délais s’étendent sur plusieurs années, et la confiance repose sur une personne. Chaque entreprise que je connais a mis les modèles de codage de pointe à la disposition de tous ses ingénieurs, mais aucune n’a modifié son organisation d’ingénierie à une vitesse proche de celle-là. L’adoption a pris un trimestre — quel trimestre magique de croissance de token ! Mais la reconstruction prend des années.

Ce qui est visible est ce qui part. Le travail précieux est structurellement invisible : tout ce que vous pouvez mettre sur un classement, vous pouvez l'entraîner, donc tout ce qui est mesurable est déjà en voie de marchandisation. Ce processus prend du temps et ne sera jamais complet, mais sa direction ne sera jamais inversée. En termes monétaires, comme le dit mon ami Matt MacInnis de Rippling : les jetons dépensés pour répondre à des questions générales valent presque rien, car n'importe quel modèle peut y répondre, tandis que les jetons dépensés pour raisonner sur les données de votre entreprise ont beaucoup plus de valeur, car ils accomplissent ce que vous voulez vraiment, et non simplement ce qui semble plausible.

Le travail visible est absorbé des deux côtés. Par le bas, la saturation des tâches : dès qu’un travail peut être vérifié à faible coût, les acheteurs cessent de demander quel modèle l’a réalisé et commencent à se demander combien il a coûté ; le travail revient alors au modèle open source ou distillé le moins cher de la semaine. Là où ils ont un impact, les marges finissent par être cruciales. Par le haut, les laboratoires tentent de faire en sorte que les modèles engloutissent leur propre échafaudage : la récupération, le routage entre appels bon marché et coûteux, l’utilisation d’outils, voire les stratégies d’inférence — tous les dispositifs qui entouraient autrefois les modèles sont intégrés aux poids, jusqu’à ce que l’enveloppe devienne le modèle lui-même. C’est ainsi que se produit l’absorption des frontières. La pression sur les marges agit également en sens inverse : un agent généraliste doit être prêt à tout, ce qui est coûteux, tandis qu’une application ciblée peut ajuster un flux de travail jusqu’à ce qu’il fonctionne avec une fraction minime de dépenses en tokens ; contrairement aux laboratoires qui vendent ces tokens, elle conserve la marge.

Ainsi, nous pouvons poser deux questions à tout type de travail : sa véracité est-elle privée et coûteuse à établir, une vérité n’existante que dans les données de quelqu’un ? Est-il isolé, verrouillé dans un système auquel vous n’avez pas accès ? En comparant cela avec le degré de saturation de la tâche, vous obtenez une matrice 2x2. Les travaux saturés avec des réponses publiques sont des tokens de marchandise, détenus par des modèles open source. Les travaux de pointe avec des réponses publiques — là où se trouvent les benchmarks de codage — sont le domaine des laboratoires, car lorsque l’évaluation est gratuite, posséder le modèle ne signifie rien. La récompense se trouve dans le dernier quadrant : les travaux de pointe dont la véracité n’existe que dans le domaine privé. Vous pouvez le voir dans le cloud d’inférence hébergeant les pionniers natifs de l’IA, où la majorité des tokens sont générés par des modèles personnalisés, et non par des modèles open source généraux.

Les hauteurs des murs dans le dernier coin varient. Le code de jouet d'un développeur individuel est portable et standardisé, donc l'ascension est courte. Les systèmes de production bancaires ne sont ni l'un ni l'autre, et vous n'obtiendrez pas d'accès root simplement parce que vous êtes 2 % plus intelligent sur SWE-Bench Verified.

L’intelligence a absorbé beaucoup de choses, mais un meilleur modèle ne transforme pas les faits privés en faits publics. Il ne détient pas de licence, ne signe pas de responsabilités, et ne possède pas les documents d’une entreprise ; lorsqu’il se trompe, il ne peut pas être poursuivi. L’intelligence n’est pas le goulot d’étranglement ici. Ce sont les autorisations et la responsabilité. Vous pouvez imaginer un modèle bien plus intelligent que quiconque, qui devra quand même être autorisé à entrer, et pour lequel quelqu’un devra toujours signer en tant que responsable.

La porte a un verrou et un loquet. Le verrou est l'environnement : vous ne pouvez vérifier que l'IA a accompli une tâche utile après avoir été approuvé par le système, après une revue de sécurité, une intégration et un contrat signé. Le loquet est l'utilisateur. Aujourd'hui, la plupart des médecins aux États-Unis ouvrent OpenEvidence chaque jour, et aucune quantité de puissance de calcul ne peut acheter cela. Un laboratoire pourrait entraîner demain un modèle médical parfait, mais il ne parviendrait toujours pas à intégrer les habitudes des médecins ni les processus décisionnels de l'Université de Californie à San Francisco, car la confiance s'établit lentement, sur la base de relations, et nécessite l'approbation implicite des utilisateurs, et non l'effacement de leur descente de gradient.

C’est aussi un travail. Une application gagne sa place en accomplissant des tâches modestes dans des coins non entraînables : organiser la réalité privée de l’entreprise afin que le modèle puisse agir dessus, fournir au modèle les outils nécessaires pour agir, et collaborer avec les clients pour modifier la réalité de leurs employés. Une entreprise qui apporte la traduction est difficile à copier — et la traduction ne se termine jamais. L’intégration et la maintenance durent aussi longtemps que les relations, et sont gagnées par des équipes qui placent des ingénieurs spécialisés dans le domaine et des outils aux côtés des clients.

Par exemple, dans un grand cabinet d’avocats spécialisé, le département M&A gère près de mille transactions par an. Pour des raisons de confidentialité et bien d’autres, vous ne pouvez pas demander à des centaines d’assistants de télécharger les fichiers clients sur leurs bureaux et d’exiger qu’un agent général les examine ; même si vous le pouviez, ce que vous apprendriez serait fragmenté, une correction à la fois, par assistant, sans voir comment l’ensemble de la transaction se déroule. Les signaux importants se trouvent au niveau de la transaction, et chaque transaction a une forme : pour les M&A, il s’agit de l’accord de confidentialité, de la lettre d’intention, de la due diligence, de l’accord d’achat, des documents annexes, de la liste de clôture ; pour les litiges en propriété intellectuelle, ce sont les requêtes, la découverte, les techniques antérieures, encore plus de requêtes. Chaque domaine d’activité a son propre schéma, et les avocats comme les outils ne sont pas interchangeables entre domaines. Le problème réel que le cabinet résout se situe à un niveau supérieur à tout cela : gérer en parallèle chaque domaine d’activité, comme les associés principaux qui pilotent simultanément des centaines de dossiers tout en intégrant de nouveaux dossiers et en formant les assistants. Transformer un tel cabinet n’est pas une tâche unique que vous pouvez évaluer avec une simple analyse. Cela nécessite un opérateur qui utilise la méthode d’analyse des données, avec des objectifs extrêmement flous, des retours incomplets, sur une très longue période, dans un environnement en constante évolution.

Malheureusement, la valeur invisible est également difficile à vendre, pour les mêmes raisons qu'elle est difficile à marchandiser : les entreprises ne peuvent pas juger à l'extérieur si l'IA transformera leurs opérations, tout comme les benchmarks ne peuvent pas le faire. Ainsi, les entreprises les plus fortes ont cessé d'essayer de prouver cela de l'extérieur et sont entrées à l'intérieur, en fixant un prix aux résultats. Sierra facture lorsqu'un agent résout un problème client, mais ne facture pas lorsqu'il le transfère à un humain ; le prix devient donc une évaluation, ce qui n'est efficace que si Sierra possède une définition claire de ce que signifie « résolu ». Cognition applique la même approche avec Devin dans le logiciel, en offrant une « garantie de performance », ce qui ne peut fournir une évaluation des résultats que dans un système dans lequel vous êtes suffisamment confiant pour entrer.

Même les services tokenisés, que tout le monde aime appeler une couche purement commerciale, ne fonctionnent pas comme des marchandises. Les meilleures entreprises natives en IA concentrent leurs services sur un ou deux fournisseurs (Baseten ou Fireworks), car le coût par token est planifié pour devenir une marchandise, tandis que la fiabilité sous trafic réel et l'accès garanti à des ressources de calcul rares ne le sont pas. L'endroit où vous servez est un choix distinct de ceux que vous utilisez comme modèles. Le prix est la seule partie de l'inférence qui fonctionne comme une marchandise.

Un argument fréquemment avancé est que le laboratoire est votre fournisseur — pourquoi ne pas faire fonctionner ses propres produits en première partie à perte pour vous écraser, ou retirer votre accès API et occuper le marché lui-même ? C’est la version réelle du discours du désespoir, qui ne tient que si la couche modèle était un jeu à un seul joueur. Ce n’est clairement pas le cas — il ressemble plutôt à une course à la mort impliquant trois parties et demie, avec un groupe de joueurs internationaux en retard de six mois dans leur entraînement, et une échelle de développement cinq fois supérieure à celle de l’année dernière. Les clients souhaitent une concurrence entre les fournisseurs ; le laboratoire cherche davantage à gagner des parts de marché qu’à faire mourir une quelconque application.

Vous pouvez voir cela dans les marchés où les laboratoires s'affrontent directement. Dans les discussions entre consommateurs, le meilleur modèle n'a jamais simplement gagné. ChatGPT a maintenu son avance pendant des années de concurrence réelle, et la part qu'il perd actuellement va vers Gemini, grâce à la puissance d'Android et de la recherche, et non à un meilleur modèle. Anthropic, entreprise que les marchés prédictifs (et l'ambiance internet) évaluent actuellement comme possédant le meilleur modèle, est presque un facteur négligeable dans les discussions grand public, mais elle a établi sa propre activité dans les entreprises et le codage. Si de meilleurs modèles ne peuvent pas arracher les utilisateurs à leurs concurrents dans l'application la plus fondamentale, ils ne traverseront pas non plus les dossiers hospitaliers ou les responsabilités bancaires par intégration. Les choix du public aujourd'hui ne reposent pas uniquement sur le codage. Si le front de pointe reste encombré, ses couches supérieures seront précieuses.

Si le travail ne peut pas être évalué de l'extérieur, quelqu'un en interne doit déterminer ce qui constitue une bonne réponse, et cette décision est tout le jeu. Un nombre suffisant de ces décisions, écrites, deviennent un benchmark. Harvey en a publié un pour le droit, Sierra en a publié un pour les agents vocaux. Vous gagnez le droit de définir ce que signifie « bon » dans un domaine en adoptant celui qui est déjà utilisé dans ce domaine ; ces entreprises ont gagné ce droit à travers la lutte pour l'adoption réelle.

L'évaluation de la valeur réelle est privée et varie d'une entreprise à l'autre : cette entreprise, dans ce type de contexte, acceptera ce qu'elle considère comme un bon travail — cela reste loin d'être achevé, car la profondeur du droit rend tout test public insignifiant. OpenEvidence cherche à déterminer ce que constitue une réponse clinique sécurisée. Ce ne sont pas de véritables mesures ; il s'agit de jugements sur ce qui est vrai et ce qui est bon, à établir jusqu'à ce qu'ils deviennent la norme selon laquelle tous les autres seront évalués, et que les laboratoires fondamentaux, aussi intelligents soient-ils, ne peuvent pas le coder, car ce statut n'existe qu'à l'intérieur du domaine lui-même. Cette autorité tend à reposer là où elle se trouve déjà. Les avocats expérimentés rédigent les référentiels juridiques. Définir une réponse clinique sécurisée revient aux médecins. Et « résolu » signifie simplement ce que toute entreprise déjà dotée de clients affirme que cela signifie.

La frontière monte continuellement, car nous apprenons constamment à mesurer davantage de tâches, et ce qui est mesurable est absorbé. Le sol non entraînable se rétrécit sous les pieds de quiconque y marche, donc vous ne pouvez pas trouver un point défendable pour vous reposer. Vous avancez constamment vers tout ce qui ne peut pas encore être évalué, et vous réassurez sans cesse. Sur une tâche étroite, avec vos données privées et votre propre évaluation, vous pouvez entraîner un modèle jusqu'à la frontière et surpasser les modèles généraux aux endroits critiques ; ce modèle spécialisé devient alors une partie de votre fossé protecteur. D'autre part, concurrencer les modèles généraux est une guerre du capital, et vous perdrez contre ceux qui possèdent la plus grande puissance de calcul — c'est le piège des entreprises ayant un accès superficiel et des tâches visibles. On promet le jour où l'on dépassera la frontière en entraînant des modèles généraux pour survivre, mais le gagnant semble le plus déterminé par la taille de son centre de données, et la fin est généralement non pas un champion indépendant, mais la vente à quelqu'un qui possède une puissance de calcul abondante.

Tout cela est de la défense. Ce qui est plus difficile, c’est l’attaque : choisir ce qu’il faut construire en premier. C’est ce que j’ai cherché pendant un an, et j’ai peut-être trouvé trois fois. Le modèle ne nous aide pas ici. Il fera n’importe quoi que vous lui indiquiez, mais il ne peut pas vous dire ce qui vaut la peine d’être visé ; vous ne pouvez pas le benchmark, donc vous ne pouvez pas l’entraîner. C’est aussi la raison pour laquelle les entreprises existantes ne s’approprieront pas tout : elles conservent leur territoire actuel, et la prochaine chose viendra de ceux qui découvriront son utilité avant les autres. Peut-être que l’intention est un facteur de production plus rare que la puissance de calcul.

Le pessimisme a raison à moitié. Les couches minces sont effectivement en cours d’absorption, et aujourd’hui, beaucoup de choses de l’entreprise semblent être des couches minces. Ce qui est erroné, c’est ce qui reste. Le mécanisme est clair ; la destination, non. Je parierais sur la direction : l’intelligence devient de plus en plus bon marché, et la valeur glisse vers les rares endroits que les modèles ne peuvent atteindre. Ce qui est intraitable, c’est la valeur historique. Alors entrez-y, faites une traduction discrète, commencez à écrire ce qui signifie « bien » là-bas, car quelqu’un le fera. Le score de benchmark le plus cité cette année est une carte territoriale qui va bientôt devenir sans valeur, ainsi qu’une notification sur qui va perdre le droit de dire ce qui constitue « bien ».