Après que l’IA aura tout mangé, qu’est-ce qui restera intraitable ?

Introduction : Alors que les capacités de l'IA continuent d'évoluer rapidement, un nouveau jugement pessimiste émerge dans le monde de l'investissement : si les modèles deviennent de plus en plus puissants, toutes les entreprises d'applications finiront par être absorbées par des acteurs comme Anthropic, OpenAI ou Nvidia, qui contrôlent les modèles et l'infrastructure de calcul, laissant sur le marché uniquement les modèles de pointe, les ressources de calcul et quelques infrastructures essentielles. Mais Sarah Guo estime que ce jugement n'est que partiellement correct. Les « thin wrapper » (emballages minces, c’est-à-dire des applications simples qui enveloppent des modèles) seront effectivement absorbés, ainsi que toute tâche pouvant être mesurée par des benchmarks, formée avec des données publiques et validée à faible coût, qui tendra progressivement à la marchandisation.

La vraie question est : après que l'IA aura absorbé tout ce qui peut être entraîné, qu'est-ce qui restera non entraînable ?

La réponse réside dans les valeurs internes aux organisations réelles, impossibles à copier facilement depuis l'extérieur : les données privées d'entreprise, les processus complexes, la confiance des utilisateurs, les autorisations système, le jugement industriel, les responsabilités de conformité, ainsi que l'expérience accumulée au fil du temps. Les modèles peuvent devenir plus intelligents, mais ne peuvent pas accéder automatiquement aux systèmes de production bancaires ; ils peuvent générer des réponses médicales, mais ne peuvent pas obtenir directement la confiance des médecins ni les processus décisionnels des hôpitaux ; ils peuvent rédiger des textes juridiques, mais ne peuvent pas assumer la responsabilité des avocats expérimentés ni définir arbitrairement ce qui constitue un travail juridique qualifié.

Ainsi, les entreprises d’IA véritablement dotées d’un avantage concurrentiel à l’avenir ne se limiteront pas à être plus intelligentes que les modèles généraux, mais approfondiront les spécificités d’un secteur pour accomplir le travail difficile mais essentiel de « traduction » : structurer les réalités privées, outils, processus et critères de jugement des clients en systèmes exploitables par les modèles, tout en définissant progressivement, au fil du temps, ce que signifie un « bon résultat ». Plus l’IA sera puissante, plus elle dévalorisera les tâches mesurables et reproductibles ; et plus elle mettra en lumière ces éléments « non entraînables » — porteurs d’histoire, de relations, de privilèges et de jugement professionnel. C’est là que réside la véritable valeur qui survivra après la吞噬 des modèles.

Voici le texte original :

Au milieu de l'année 2026, la version investisseur de « l'aliénation mentale de l'IA » est un sentiment de désespoir selon lequel il ne reste plus rien de值得 investir : on a l'impression qu'on devrait tout investir chez Anthropic et Nvidia, puis rentrer chez soi dormir. Mais je n'ai jamais eu ce sentiment. Depuis plusieurs petites versions passées, je suis convaincu que les modèles sont déjà plus intelligents que moi ; je serais tout à fait heureux d'acheter Anthropic et Nvidia au prix du marché ; mes amis les plus intelligents autour de moi sont également assez certains que l'amélioration autonome des modèles va bientôt fonctionner vraiment — mais je n'ai toujours pas ce sentiment de désespoir.

Ce désespoir n’est pas stupide. Sa logique est la suivante : si le modèle continue de s’améliorer dans tous les domaines, alors toutes les entreprises construites sur ce modèle ne sont que de fines couches d’enveloppe en attente d’être absorbées par le modèle ; la seule valeur qui restera finalement est la puissance de calcul et les poids des modèles de pointe.

À titre d'exemple de logiciel, c'est le cas le plus emblématique de ce sentiment de désespoir. Lors de son lancement en 2024, Devin ne pouvait résoudre que 13 % des tâches des benchmarks logiciels standards, et a donc été largement sous-estimé par le marché. Un an et demi plus tard, les agents les plus performants atteignent déjà plus de 80 % de score et commencent à gérer des tâches réelles au sein de Goldman Sachs et de l'armée américaine. Presque tout le monde en est arrivé à la même conclusion erronée : le modèle a absorbé l'ingénierie logicielle.

Mais lorsque le modèle a absorbé la partie la plus facilement mesurable du génie logiciel, nous redécouvrons un point que de nombreuses équipes connaissaient déjà : l’ingénierie a toujours résisté à la mesure, et la partie la plus facilement mesurable n’est pas nécessairement la seule importante.

Mert Demirer du MIT et ses collaborateurs ont enfin quantifié cela : parmi plus de 100 000 développeurs, les agents de codage de dernière génération ont augmenté la quantité de code écrit d'environ 180 %, mais la quantité de code effectivement déployée en production n'a augmenté que d'environ 30 %. Écrire du code est devenu moins coûteux, mais les étapes restantes nécessitent toujours l'intervention humaine, et ces étapes sont cruciales. Bien sûr, l'impact net global reste impressionnant.

Les benchmarks sont des choses que vous pouvez mesurer ; et toute chose mesurable peut être utilisée pour l'entraînement. C'est pourquoi les agents de codage ont atteint la maturité en premier : les compilateurs sont des validateurs gratuits, et les suites de tests le sont aussi. Lorsque la réponse peut être vérifiée presque sans coût, vous pouvez affiner continuellement votre modèle autour de ce signal de vérification jusqu'à l'optimiser pleinement.

Mais passer les tests ne signifie jamais que ce changement est correct pour une base de code qui fonctionne depuis dix ans. Ce module existe peut-être pour trois raisons que personne n’a jamais mises par écrit ; le pipeline de déploiement pourrait ne tenir que grâce à un cron job dont personne n’ose admettre qu’il l’a écrit.

Cette fiabilité ne peut pas être lue à partir d'un classement, ni même directement à partir de quoi que ce soit d'autre. Vous ne pouvez savoir si un système aussi complexe fonctionne réellement qu'en le faisant fonctionner dans le monde réel pendant suffisamment longtemps. Et des modèles plus intelligents n'accélèrent pas le fonctionnement du monde réel. Personne ne se fierait entièrement à un système aussi vaste que Google après avoir exécuté des tests unitaires et vu des coches vertes. Vous lui faites confiance parce qu'il a supporté des charges réelles pendant des années.

Cette exactitude n'est pas seulement privée, mais constitue aussi un fossé protecteur qui se forme lentement, un fossé que le capital ne peut pas réduire directement en compressant le temps. Même les optimistes reconnaissent que ce chronomètre ne peut être sauté. Noam Brown, pionnier des modèles d'inférence d'OpenAI, a récemment écrit : la seule méthode fiable pour évaluer la performance d'un agent sur une période d'un an est probablement de le laisser fonctionner pendant un an réel.

Comme le dit Gabe Pereyra, l'automatisation réelle ne consiste pas seulement à rendre les modèles plus puissants. C'est le produit, le modèle, le flux de travail et l'organisation de l'entreprise qui évoluent ensemble, et parmi ces quatre éléments, trois avancent à la vitesse de l'organisation.

Mobiliser les gens est une partie que tout benchmarking manque : convaincre un partenaire sceptique de modifier sa façon de gérer les choses, et maintenir la cohésion d'une équipe pendant une reconstruction. C'est pourquoi, lors de notre recrutement de PDG, nous accordons autant d'importance à sa capacité à gérer les gens qu'à ses compétences analytiques. Le fait que les modèles deviennent plus intelligents ne change pas ce poids.

Les retours ici sont vagues, les délais sont exprimés en années, alors que la confiance repose sur une personne précise. Chaque entreprise que je connais a fait en sorte que chaque ingénieur utilise des modèles de codage de pointe, mais aucune organisation d'ingénierie n'a évolué à la vitesse des progrès du modèle. L'adoption des outils n'a pris qu'un trimestre, et quel trimestre magique pour la croissance des tokens ! Mais une véritable reconstruction nécessite plusieurs années.

Les travaux visibles s'éloignent. Les véritables travaux précieux sont structurellement illisibles : tout ce que vous pouvez placer sur un classement peut être utilisé pour l'entraînement ; par conséquent, tout ce qui est mesurable est déjà en voie de marchandisation. Ce processus prend du temps et ne sera jamais complètement achevé, mais sa direction ne sera jamais inversée.

Selon Matt MacInnis de Rippling, en termes monétaires : un jeton utilisé uniquement pour répondre à une question générale vaut presque rien, car n’importe quel modèle peut y répondre ; mais un jeton qui effectue un raisonnement sur les données de votre entreprise vaut beaucoup plus, car il réalise exactement ce que vous voulez, et non pas simplement générer une réponse plausible.

Les travaux lisibles seront absorbés des deux côtés.

Vu d'en bas, la tâche devient saturée : dès qu'un travail peut être vérifié à faible coût, les acheteurs ne s'intéressent plus à quel modèle l'a accompli, mais commencent à demander son prix. Le travail finit alors par être attribué au modèle open source ou distillé le moins cher de la semaine. Tant que les marges bénéficiaires peuvent jouer leur rôle, elles le feront inévitablement.

Vu du dessus, le laboratoire tente de faire avaler au modèle son propre échafaudage. La routage entre les appels de recherche, les appels peu coûteux et les appels coûteux, l'utilisation des outils, voire les stratégies d'inférence — tous les dispositifs qui entouraient autrefois le modèle — sont en train d'être intégrés dans les poids du modèle, jusqu'à ce que la « coque » elle-même devienne le modèle. C'est la frontière d'absorption.

La pression sur les profits fonctionne également dans l’autre sens : un agent généraliste doit être prêt à gérer n’importe quoi à tout moment, ce qui entraîne des coûts élevés ; tandis qu’une application ciblée peut optimiser un flux de travail jusqu’à son extrême, ne consommant qu’une petite partie des jetons. Et contrairement aux laboratoires qui vendent ces jetons, les entreprises d’applications peuvent conserver la marge intermédiaire.

Ainsi, nous pouvons poser deux questions à n'importe quel type de travail : sa validité est-elle privée et coûteuse, et s'agit-il d'une vérité n'existant que dans les données internes d'une entreprise ? Est-il isolé dans un système inaccessible aux externes ? En combinant ces questions avec le niveau de saturation de la tâche, nous obtenons une matrice 2×2.

Les tâches saturées et aux réponses publiques sont le domaine des tokens marchands, que les modèles open source dominent. Les tâches de pointe mais aux réponses publiques, comme les benchmarks de codage, sont celles que les laboratoires remporteront, car lorsque l'évaluation est gratuite, posséder le modèle ne vaut plus rien.

Le véritable prix se trouve dans le dernier coin, le coin « non entraînable » : des travaux de pointe, dont la validité ne existe que dans des environnements privés. Vous pouvez observer cela sur les clouds d’inférence servant les pionniers natifs de l’IA : la majorité des tokens sont générés par des modèles personnalisés, et non par des modèles open source généraux.

Les murs menant à ce dernier coin sont inégaux. Un dépôt de code de développeur, ludique, est portable et standardisé, donc y pénétrer n'est pas difficile. Mais le système de production d'une banque n'est ni portable, ni standardisé. Vous n'obtiendrez pas son accès root simplement parce que vous êtes 2 % plus intelligent sur SWE-Bench Verified.

L'intelligence peut absorber beaucoup de choses, mais un meilleur modèle ne transforme pas les normes privées et réelles en normes publiques. Il ne détient pas de licences, ne signe pas de documents de responsabilité, et ne possède pas les documents d'une entreprise ; lorsqu'une réponse est erronée, il ne peut pas être poursuivi en justice. Le goulot d'étranglement ici n'est pas l'intelligence, mais les autorisations et la responsabilité. Vous pouvez imaginer un modèle bien plus intelligent que n'importe qui, mais il doit toujours être autorisé à entrer, et quelqu'un doit toujours signer de son propre nom pour les actions qu'il entreprend.

La porte a une serrure et un verrou.

Ce verrou est contextuel : seul un système interne digne de confiance, après un examen de sécurité, une intégration achevée et la signature d’un contrat avec responsabilité des résultats, peut valider si l’IA a réellement accompli une tâche utile.

La serrure, c'est l'utilisateur. Aujourd'hui, la plupart des médecins américains ouvrent OpenEvidence quotidiennement, ce que aucune puissance de calcul ne peut acheter. Un laboratoire pourrait entraîner un modèle médical parfait demain, mais il ne parviendrait toujours pas à s'intégrer aux habitudes d'utilisation des médecins ni aux processus décisionnels de l'UCSF. Car la confiance se construit lentement, par des relations et l'approbation implicite des utilisateurs, et non en effaçant ces éléments par descente de gradient.

C’est précisément le travail des entreprises d’applications. Une application occupe une place dans les coins « non entraînables » grâce à des tâches peu glamours : organiser la réalité privée d’une entreprise pour permettre au modèle d’agir en fonction ; fournir des outils d’action au modèle ; et collaborer avec les clients pour transformer la manière dont leur main-d’œuvre fonctionne réellement.

Une entreprise capable d’effectuer ce type de « traduction » est difficile à copier, et cette traduction ne prendra jamais fin. L’intégration et la maintenance continueront aussi longtemps que durera la relation client. Ceux qui remporteront cette compétition sont les équipes qui placent des ingénieurs spécialisés dans le domaine et des outils directement aux côtés des clients.

Par exemple, dans un grand cabinet d’avocats renommé, le seul département des fusions-acquisitions gère près de mille transactions par an. Vous ne pouvez pas demander à des centaines d’assistants juridiques de télécharger les dossiers clients sur leur bureau, puis de les faire lire par un agent général. Les raisons de confidentialité interdisent déjà une telle pratique, sans parler des dizaines d’autres problèmes. Même si c’était possible, ce que vous apprendriez ne serait que des morceaux épars : un assistant corrigeant un petit point à la fois, sans que personne ne puisse voir comment une transaction entière se déroule.

Les signaux véritablement importants se trouvent au niveau de la transaction. Une transaction possède sa propre forme : pour les fusions-acquisitions, il s'agit des NDA, des term sheets, de la due diligence, des accords d'achat, des documents annexes et des listes de clôture ; pour les litiges en propriété intellectuelle, il s'agit des requêtes, de la découverte préalable, de l'art antérieur, de davantage de requêtes. Chaque domaine professionnel a sa propre structure, et les avocats ainsi que les outils ne peuvent pas être échangés arbitrairement.

Le véritable problème que ce cabinet d'avocats doit résoudre se situe à un niveau encore plus élevé : comment gérer simultanément tous les domaines d'activité, comme un associé principal qui gère en parallèle des centaines de dossiers tout en attirant de nouveaux clients et en formant des avocats stagiaires. Transformer une telle entreprise n'est pas un problème unique que l'on peut réduire à une tâche d'évaluation. Il nécessite un gestionnaire qui traite la situation comme un jeu de « data baseball » : les objectifs intermédiaires sont extrêmement flous, les retours sont incomplets, les cycles sont très longs, et l'environnement lui-même ne cesse de changer.

Malheureusement, les valeurs illisibles sont également difficiles à vendre, pour les mêmes raisons qu'elles sont difficiles à marchandiser : une entreprise ne peut pas juger de l'extérieur si l'IA peut vraiment transformer ses opérations comme le montrent les tests de référence. Ainsi, les entreprises les plus fortes cessent d'essayer de prouver leur valeur à l'extérieur et entrent d'abord chez le client, puis facturent les résultats.

Sierra ne facture que si son agent résout le problème du client ; si le problème est transféré à un humain, elle ne facture pas. Ainsi, le prix lui-même devient un mécanisme d'évaluation. Cela fonctionne parce que Sierra détient le pouvoir de définir ce qui constitue un « problème résolu ». Devin de Cognition a fait de même dans le domaine du logiciel en lançant une « garantie de performance ». Seules les entités auxquelles on accorde la confiance pour entrer à l'intérieur d'un système sont légitimes pour offrir une telle garantie sur les résultats.

Même au niveau du service de token — que tout le monde appelle communément la couche purement commerciale — son comportement ne ressemble pas à celui d’un bien. Les meilleures entreprises natives à l’IA concentrent leurs services sur une ou deux fournisseurs, comme Baseten ou Fireworks. Car si le coût par token tend vers la marchandisation dans le temps, la fiabilité sous un trafic réel et l’accès stable à une capacité rare ne sont pas marchandisés. Le choix de l’endroit où fournir le service d’inférence est distinct de celui des modèles utilisés. La seule partie véritablement marchande dans l’inférence est le prix.

Un argument courant est : le laboratoire est votre fournisseur, pourquoi ne pas vendre ses propres produits en dessous du coût pour vous éliminer ? Ou simplement retirer votre accès API et s’approprier ce marché ? Voilà la véritable version de ce sentiment de désespoir. Mais il n’est valable que si le modèle est un jeu à un seul joueur.

Il est évident que ce n’est pas le cas. La couche modèle ressemble davantage à une course à la mort entre trois et demi acteurs, accompagnée d’un groupe de joueurs internationaux en retard d’environ six mois dans leur formation, et d’une ligue de développement cinq fois plus grande qu’en l’an dernier. Les clients souhaitent voir une concurrence entre leurs fournisseurs, tandis que les laboratoires recherchent la part de marché bien plus qu’ils ne cherchent à éliminer une application spécifique.

Vous pouvez voir cela sur les marchés où les laboratoires s'affrontent directement. Dans les scénarios de discussion avec les consommateurs, le meilleur modèle n'a jamais simplement remporté l'intégralité du marché. ChatGPT a maintenu son avance pendant des années de concurrence réelle ; la part de marché qu'il perd actuellement est absorbée par Gemini, en raison de sa distribution via Android et la recherche, et non parce que son modèle est meilleur. Anthropic est actuellement considéré comme possédant le meilleur modèle sur les marchés prédictifs et dans l'atmosphère en ligne, mais il n'est presque pas un acteur majeur dans les discussions grand public, se concentrant plutôt sur les entreprises et les scénarios de codage pour établir sa présence.

Si un modèle meilleur ne peut pas arracher les utilisateurs à la concurrence dans son application la plus fondamentale, il ne pourra pas facilement s’imposer en intégrant le système de dossiers médicaux d’un hôpital ou le système de responsabilités d’une banque. Aujourd’hui, le choix du public pour un produit ne repose pas uniquement sur les capacités de codage. Si la couche des modèles de pointe reste surpeuplée, alors la couche d’applications au-dessus aura de la valeur.

Si un travail ne peut pas être évalué de l'extérieur, quelqu'un à l'intérieur doit déterminer ce qui constitue une bonne réponse. Et cette décision, c'est tout le jeu lui-même. Lorsqu'il y a suffisamment de telles décisions écrites, elles deviennent un benchmark. Harvey a publié des benchmarks pour le domaine juridique, Sierra a publié des benchmarks pour les agents vocaux. Vous avez le droit de définir ce que signifie « bon » dans un domaine parce que ce domaine utilise déjà votre travail. Et ces entreprises ont acquis ce droit grâce aux luttes difficiles du processus d'adoption réelle.

L'évaluation qui détermine réellement le flux d'argent est privée et établie entreprise par entreprise : quelle entreprise acceptera quoi que ce soit comme bon travail dans ce contexte. Et cette question est loin d'être résolue, car la complexité juridique dépasse de loin tout test public. OpenEvidence est en train de définir ce qui constitue une réponse clinique sûre.

Tout cela n'est en réalité pas une « mesure » au sens véritable du terme, mais une évaluation de ce qui est vrai et de ce qui est bon. Ces évaluations sont écrites, jusqu'à devenir des normes que tous les autres doivent accepter pour mesurer. Quelle que soit l'intelligence atteinte par les laboratoires de modèles de base, ils ne peuvent pas écrire ces normes ex nihilo, car ce statut n'existe qu'à l'intérieur du domaine.

Cette autorité tombe généralement là où elle existe déjà. Les avocats expérimentés établissent les références juridiques. Ce sont les médecins qui définissent les réponses cliniques sûres. C’est l’entreprise qui possède déjà la relation client qui décide ce que signifie « résolu ».

Les frontières d'absorption continueront de s'étendre, car nous apprendrons constamment à mesurer davantage de travaux, et ce qui peut être mesuré sera absorbé. Le sol non formable rétrécira sous les pieds de ceux qui y marchent, donc vous ne pouvez pas vous arrêter dès que vous trouvez une position défendable. Vous devez constamment avancer vers les domaines encore impossibles à évaluer, et réévaluer continuellement les risques.

Sur une tâche restreinte, avec vos données privées et votre propre système d'évaluation, vous pouvez entraîner un modèle jusqu'au niveau de pointe et le faire surpasser les modèles généraux dans des scénarios critiques ; ce modèle spécialisé deviendra une partie de votre avantage concurrentiel. D'autre part, si vous concourez sur la capacité des modèles généraux, il s'agit d'une guerre du capital, et vous perdrez face à ceux qui possèdent la plus grande puissance de calcul. C'est précisément le piège dans lequel tombent facilement les entreprises n'ayant qu'un accès superficiel et des tâches hautement lisibles.

Lorsqu'une entreprise décide de former un modèle dépassant les états de l'art sur une vaste gamme de tâches générales pour assurer sa survie, le résultat semble généralement déterminé par la taille des centres de données. La fin ultime n'est souvent pas l'émergence d'un champion indépendant, mais sa vente à un acteur disposant d'une puissance de calcul suffisante.

Tout cela est défensif. Ce qui est plus difficile, c’est l’attaque : décider exactement ce que vous devez construire. C’est ce que j’ai cherché toute cette année, et j’en ai trouvé environ trois fois. Les modèles ne peuvent pas vous aider dans cela. Vous leur indiquez où aller, et ils le font ; mais ils ne peuvent pas vous dire ce qui mérite d’être visé. Vous ne pouvez pas établir de benchmark pour cela, et donc pas l’entraîner.

C'est aussi pourquoi les géants existants ne s'approprieront pas tout : ils défendront leur territoire déjà acquis, tandis que la prochaine innovation viendra de quelqu'un qui a découvert une utilité avant les autres. Peut-être que l'intention est une entrée plus rare que la puissance de calcul.

Ce sentiment de désespoir est à moitié juste. La couche fine est effectivement en cours d’absorption, et beaucoup de ce qui ressemble aujourd’hui à des entreprises ne sont en réalité que des coquilles vides. Mais son jugement sur « ce qui reste après absorption » est erroné. Le mécanisme est clair, mais la fin ne l’est pas.

Je suis prêt à parier sur cette direction : l'intelligence deviendra de plus en plus bon marché, tandis que la valeur continuera de glisser vers des domaines que quelques modèles ne peuvent atteindre. Ce qui ne peut être entraîné porte une valeur historique.

Alors, entrer dans l’un de ces domaines pour effectuer ces traductions peu glamour et commencer à écrire ce que signifie « bien » là-bas. Car quelqu’un le fera toujours. Le score de benchmark le plus cité cette année n’est en réalité qu’une carte d’annexion qui deviendra bientôt sans valeur, ainsi qu’une notification : une notification à certaines personnes qu’elles vont bientôt perdre le droit de définir ce qui constitue le « bien ».

[Lien d'origine]

BlockBeats