Les startups d'IA verticale naviguent pour survivre face à la domination des modèles généraux

L'intelligence commence à croître de manière non linéaire, et la logique fondamentale des entreprises d'IA est en train d'être réécrite.

Auteur et source de l'article : GeekPark

90 %, c'est la probabilité donnée par les investisseurs pour l'échec des startups d'IA en 2026.

En avril, la plateforme d'évaluation de modèles d'IA Yupp, financée à hauteur de 33 millions de dollars en série seed par a16z, a soudainement annoncé sa fermeture. Ayant bénéficié du soutien de plusieurs figures emblématiques de la Silicon Valley, notamment Jeff Dean, scientifique en chef de Google, et Biz Stone, cofondateur de Twitter, la plateforme avait attiré 1,3 million d'utilisateurs en moins d'un an après son lancement, avant d'être soudainement arrêtée par ses fondateurs. Malgré des fonds encore considérables sur ses comptes, les fondateurs n'avaient plus aucune confiance dans l'avenir. « Au cours de la seule dernière année, le paysage des capacités des modèles d'IA a considérablement évolué ; l'avenir ne sera plus seulement celui des modèles, mais celui des systèmes d'agents », a écrit Pankaj Gupta, fondateur de Yupp, dans son blog de départ.

Pendant la même période, l'entreprise d'images AI NeuroPixel a fermé ses portes en raison de l'amélioration soudaine des capacités de grands modèles comme Google NanoBanana Pro. Le fondateur de NeuroPixel a utilisé un seul mot pour décrire cette défaite : outgunned — « écrasé sans pouvoir réagir du jour au lendemain ».

Dans le contexte d'une amélioration intelligente et progressive des modèles de base, les limites des capacités de l'IA ne cessent de s'étendre : d'abord, les chatbots ont remplacé les moteurs de recherche, et les utilisateurs n'ont plus besoin de faire défiler des pages pour trouver des résultats. Ensuite, les agents commencent à remplacer les logiciels : un agent capable d'appeler des outils et de décomposer des tâches peut accomplir ce qui nécessitait auparavant un ensemble complet de menus et d'applications. Lorsque l'IA peut directement écrire du code, appeler des API et exécuter des actions sur un terminal, les limites des systèmes logiciels traditionnels sont également redéfinies.

Pour les chefs de produit, il s'agit de repenser la forme du produit et les modes d'interaction. Pour les fondateurs, la question qui détermine la survie ou la disparition est désormais sur la table :

Alors que l'intelligence des modèles de base devient de plus en plus puissante, comment puis-je créer mon entreprise ? Comment m'assurer que ce que je fais actuellement ne sera pas directement absorbé par la prochaine mise à jour du modèle ?

Shi Yi, fondateur de FlashLabs, a passé l'année dernière à se poser cette question. Il a pris une série de décisions que les observateurs extérieurs jugent contre-intuitives : repenser la feuille de route produit, réduire activement son équipe, abandonner les indicateurs de monétisation à court terme, et même changer le nom de l'entreprise. Nous avons discuté avec lui pour comprendre comment, à l'ère de l'évolution des modèles généraux, les startups AI spécialisées peuvent survivre.

01 Réorganisation, réduction de taille, transition vers une approche native AI : une transformation vitale imposée par les grands modèles

Le sentiment de crise n’est pas apparu aujourd’hui devant les fondateurs. Déjà à la fin de l’année 2024, Shi Yi avait pris conscience que la vitesse d’évolution intelligente des modèles universels était trop rapide.

Ce qui l’a d’abord alerté, c’est la disparition de Jasper, une startup AI en unicorn. Cette entreprise, autrefois considérée comme une référence dans le domaine des applications AI, avait atteint une valorisation de 1,5 milliard de dollars en 18 mois, mais son chiffre d’affaires a été divisé par deux après l’ouverture des capacités natives de GPT. « Le ARR de Jasper a été directement divisé par deux », se souvient Shi Yi. « Les entreprises qui faisaient du NLP ont été progressivement absorbées par les grands modèles, dont les capacités ne cessent d’augmenter. »

Ce jugement lui semblait comme une épine plantée dans le cœur, lui causant une inquiétude sourde. À l’époque, son entreprise s’appelait encore FlashIntel et se concentrait sur un modèle SaaS B2B plus traditionnel. Selon la logique classique du SaaS B2B, tant que l’on accumule suffisamment de données sectorielles dans un créneau suffisamment précis, tout en établissant des barrières technologiques conformes et sécurisées, il existe nécessairement un espace de marché viable. Mais aujourd’hui, tout cela ne fonctionne plus.

« Le problème que je rencontre, est-ce qu’il ne va pas aussi se produire pour ce que je fais ? » Cette question a commencé à revenir sans cesse dans ses pensées. Très vite, il a réalisé que ce qu’il faisait n’était fondamentalement pas différent de ce que faisait Jasper, et que tous les anciens systèmes de produits avaient été construits sur l’hypothèse que les modèles spécialisés ne dépasseraient jamais les modèles de base. Dès que l’intelligence du modèle de base franchirait un certain seuil critique, tous les niveaux d’ingénierie et d’optimisation de scénarios superposés aux produits spécialisés pourraient perdre leur avantage du jour au lendemain.

Avec cette conclusion, il a directement porté cette question cruciale au plus haut niveau de la stratégie de l'entreprise, forçant l'équipe à prendre une décision : l'entreprise doit passer entièrement du SaaS à un modèle AI Native.

Cet ajustement ne s'est pas fait du jour au lendemain. Sa première question a été : quelle structure organisationnelle les entreprises de la prochaine génération d'IA nécessitent-elles ?

Il pense qu'aujourd'hui, diriger une entreprise ne doit plus consister à poursuivre la taille de l'équipe et une répartition minutieuse des tâches. « À l'ère de l'IA, plus il y a de personnes, moins on utilise bien l'IA, car plus la répartition est fine, plus chacun dépend uniquement de sa propre zone. » Il a commencé à réduire activement la taille de son équipe et a complètement transformé ses critères de recrutement : au lieu de privilégier « l'expérience et les projets passés », il se concentre désormais sur « la manière de penser et les compétences full-stack ». Il a également modifié sa méthode d'évaluation des candidats : il ne regarde plus leurs CV ou expériences antérieures, mais leur attribue directement une tâche pour voir s'ils peuvent utiliser l'IA pour gérer à la fois le frontend et le backend. « Si quelqu'un arrive à le faire, il ne peut pas mal utiliser les outils d'IA. »

Ensuite, il a réajusté les priorités des ressources internes de l'entreprise. Alors que la plupart des startups cherchaient encore à accélérer le lancement de leur produit et à valider leur modèle commercial, il a choisi de dédier la majeure partie des ressources à la recherche de pointe, et a même changé le nom de l'entreprise en FlashLabs.

« L’ancienne logique d’Internet était de privilégier le produit ou l’exploitation ; aujourd’hui, pour l’IA, il faut privilégier la recherche. » Il exige de lui-même et de son équipe de lire des articles scientifiques et de comprendre les principes fondamentaux : « Seul en se rapprochant des principes fondamentaux, on peut savoir ce que l’IA pourra encore accomplir ou remplacer à l’avenir. »

Cette transformation a également entraîné une « période de douleur » au sein de l'entreprise, car tous les membres de l'équipe ne comprenaient pas ce grand réaménagement structurel. Lorsqu'il a dit à son équipe : « Ne pensez pas encore à la monétisation, faites d'abord des choses géniales », certains à l'intérieur de l'entreprise ont été enthousiastes, tandis que d'autres ont choisi de partir. Mais il persiste à penser qu'au temps de l'IA, faire preuve de simplicité est plus important : « Si vous ne partagez pas cette vision, alors vous devez être éliminé. »

Mais plus important encore, quel type de fondateur pourra survivre à l'ère de l'IA ?

La réponse de Shi Yi se divise en deux demi-phrases : la première s'adresse à la réalité, « Au moins, tu peux lever des fonds ; tant que tu n'es pas mort ou que ta poche est assez profonde pour continuer à injecter de l'argent. » La seconde est ce qu'il voulait vraiment dire : « As-tu une capacité de réflexion approfondie supérieure à celle de l'IA ? »

« Pourquoi les grands modèles peuvent-ils accomplir de plus en plus de tâches ? Parce que la nature fondamentale de toutes les sciences naturelles est les mathématiques, et les modèles savent écrire du code et comprennent les mathématiques. En décomposant cette chaîne couche par couche, la seule capacité véritablement rare chez les humains reste désormais une seule : penser plus profondément qu’une IA dans un domaine spécifique », analyse Shi Yi. « Beaucoup de gens n’ont pas une compréhension suffisante de l’IA. Regardez combien de fondateurs écrivent réellement du code eux-mêmes ou utilisent quotidiennement des outils d’IA ? La capacité à écrire du code deviendra une marchandise de base, accessible à tous. Mais pouvez-vous être plus intelligent qu’une IA ? Voilà le véritable avantage concurrentiel. »

De la prise de conscience de la crise à la prise de décision, puis au paiement du prix pour réorganiser l’organisation, Shi Yi a consacré un an à accomplir une « itération de soi ». Il n’a pas attendu que la mise à jour du modèle lui révèle le résultat final, mais a choisi de chercher à l’avance l’endroit où la bonne réponse pourrait se trouver. Quant à savoir si cet endroit est bien choisi, c’est une autre question, mais pour l’instant, il ne souhaite pas quitter la table de jeu de l’IA.

02 Les agents d'entreprise doivent jouer la carte « Harness »

Le réaménagement de la structure organisationnelle n'est qu'un premier pas sur le chemin de la survie de l'entreprise. Ce qui a vraiment poussé Shi Yi à prendre la décision de changer, c'est la feuille de route produit.

Il voulait au départ créer un système de collaboration entre plusieurs agents, en suivant la logique selon laquelle plus il y a de personnes, plus on est fort : il pouvait imiter la structure organisationnelle d'une entreprise humaine pour construire un système multi-agents, où certains agents étaient dédiés à la recherche, d'autres à la déduction logique, et d'autres encore à la synthèse des résultats.

Mais les résultats pratiques ont fait hocher la tête de manière répétée à Shi Yi : « Trop lent, trop laggy, ce qu’on obtient est même pire qu’un seul agent. » Selon lui, la transmission des instructions entre agents ressemble à un jeu de téléphone cassé de mauvaise qualité : plus il y a de relais, plus l’information se dégrade. « Je préfère un génie avec un QI de 150 et tout son équipement mythique, qu’un ensemble d’individus moyens avec un QI de 110, armés d’outils incomplets et obligés de se consulter entre eux. » Shi Yi l’a déclaré ouvertement lors de l’interview.

Finalement, il a supprimé tous les sous-agents prédéfinis et a décidé de créer un seul agent suffisamment puissant pour remplacer la collaboration en cluster grâce à l'exécution parallèle multithread.

Il s'agit également de la version initiale du dernier produit de FlashLabs, Super Agent, qui pousse les capacités d'un modèle unique à leur limite et optimise les outils au maximum. Super Agent utilise principalement l'automatisation intelligente pour unifier le système de revenus des utilisateurs, de la génération de prospects à la vente finale, avec la participation de l'IA dans toutes les étapes.

Sur le lieu de l'interview de Geek Park, Shi Yi a confié à Super Agent la tâche suivante : « Récupérez les profils des fondateurs de toutes les entreprises d'intelligence artificielle ayant levé des fonds en Chine au cours des six derniers mois et exportez les résultats sous forme de tableau ». Ensuite, Super Agent a lancé simultanément des dizaines de threads de tâches pour effectuer la recherche, le web scraping, l'écriture de code et le nettoyage des données, et a obtenu les résultats en 2 à 3 minutes : le tableau contenait le nom des fondateurs, le montant du financement et les coordonnées publiques.

Si renoncer à l'architecture multi-agent constitue une soustraction au niveau de l'architecture, alors renoncer à la localisation représente un choix inverse au niveau de la logique de déploiement.

Alors qu'OpenClaw suscite une vague de « agents locaux » dans la communauté des développeurs, Shi Yi a fermement choisi de placer le Super Agent dans le cloud. « Un système comme OpenClaw, s'il est exécuté en interne dans une entreprise, équivaut à un cheval de Troie ; il est facile d'y pénétrer par ce biais », estime-t-il. Selon lui, toute entreprise osant déployer à grande échelle OpenClaw en interne à ce stade ouvre littéralement ses portes à tous les hackers du monde.

Selon lui, l'avantage d'OpenClaw réside dans la capacité potentielle démontrée par les utilisateurs individuels d'initiative. Par exemple, avec OpenClaw, si l'IA demande à l'utilisateur 2000 dollars pour acheter une carte graphique, et que l'utilisateur répond : « Va gagner l'argent toi-même », l'IA se mettra à prédire le marché et à étudier des stratégies quantitatives. « Quel patron n'aime pas un employé proactif ? » demande Shi Yi en retour. Lorsque cette proactivité devient une composante des produits d'entreprise, le remplacement des employés humains dépassera de loin les attentes. « À l'époque de la révolution industrielle, quand les calèches sont devenues des voitures, il fallait d'abord acheter une voiture, apprendre à conduire, modifier les routes — cela prenait beaucoup de temps. Cette fois-ci, c'est différent : avec un déploiement hébergé, d'un coup, le travail de dizaines d'employés disparaît. » Il estime également que cette année, les emplois de bureau seront largement remplacés par l'IA.

Pour relever le défi de l'exécution automatisée, à savoir comment garantir la sécurité des applications d'entreprise, FlashLabs a mis en place un système de permissions en sandbox similaire à celui de macOS, déployé dans le cloud et basé sur une autorisation progressive. Cela signifie que l'Agent ne dispose au départ que des autorisations minimales nécessaires pour accomplir sa tâche ; ses limites ne s'étendent progressivement qu'après avoir été vérifiées à plusieurs reprises en termes de stabilité et de sécurité.

Il utilise Windows et Mac comme exemples : « Sur Windows, installer un logiciel peut accorder des droits très élevés, avec une installation silencieuse, le lien avec le navigateur, et même la difficulté de le supprimer. Sur Mac, tous les programmes sont isolés dans des sandbox, ce qui signifie que vous n’avez jamais besoin d’installer un logiciel antivirus. » Shi Yi croit que la concurrence entre les agents d’entreprise s’étendra finalement des capacités d’appel de modèles aux capacités de conception d’environnement : celui qui pourra offrir un environnement d’exécution sûr, contrôlable et auditables aux agents sera le seul à permettre aux clients d’utiliser ces agents en toute confiance.

Mais si le modèle connaît à nouveau une progression soudaine, ces ajustements actuels ont-ils encore un sens ? Si GPT-6 ou Claude intègrent des capacités bien plus puissantes de décomposition de tâches et d'appel d'outils, tout ce que FlashLabs fait aujourd'hui ne sera-t-il pas de nouveau absorbé ?

Face à cette question, Shi Yi n'a pas évité la réponse ; sa réflexion s'est articulée en deux aspects.

Il a d'abord regroupé les barrières à l'entrée des entreprises spécialisées en quatre niveaux : Perception, Planning, Recursive Learning, Governance.

Il y a cinq entreprises sur le marché des grands modèles, et le classement SOTA change tous les trois mois. Grâce à la couche d’orchestration, vous pouvez intégrer tous les modèles et appeler celui qui excelle le mieux dans chaque scénario. Mais une entreprise ne disposant que d’un seul modèle ne peut utiliser que le sien ; si votre modèle de base n’est pas le plus intelligent, votre compétitivité produit en souffre directement. Alors que les grands modèles généraux couvrent rapidement les deux premières couches, Shi Yi estime que les véritables barrières à l’entrée ne restent plus que les deux dernières couches, et que la véritable protection réside finalement dans la couche d’orchestration.

Il estime que lorsque plusieurs agents collaborent au sein d'un système d'entreprise, ils pourraient négocier en secret hors de la vue des humains, contournant ainsi les règles de permissions prédéfinies. Le véritable avantage concurrentiel des entreprises spécialisées réside dans leur capacité à concevoir un environnement d'exécution à la fois ouvert et contrôlé pour des scénarios spécifiques.

Quant à la justesse de ce jugement, il admet ne pas être certain à 100 %. « L’IA évolue trop vite, on ne sait vraiment pas ce qui se passera dans le futur. » Mais il est certain d’un point : tant que les entreprises verticales maîtrisent bien les cartes de l’orchestration de l’IA et de la gouvernance de l’IA, et résolvent les problèmes de conception environnementale, elles ne seront pas éliminées lors du prochain saut des modèles.

Le modèle vocal 03 connaîtra une refonte, et les agents actifs pourraient催生 un nouveau modèle de paiement à l'effet

Une fois que vous savez comment créer un produit compétitif, la prochaine étape consiste à obtenir la reconnaissance des clients.

Flashlabs dispose actuellement de deux produits principaux en matière de commercialisation : Super Agent, facturé selon l'utilisation en tokens, avec des tarifs disponibles sur le site officiel ; ensuite, elle open-source son modèle vocal Chroma, mais facture les plateformes et services construits sur ce modèle. En réalité, ces deux approches représentent des modèles de monétisation courants aujourd'hui : utiliser l'open-source pour établir la confiance technologique et récupérer la valeur commerciale via des plateformes et services.

Actuellement, les entreprises fiscales et comptables au Japon remplacent les agents humains par le modèle vocal Chroma de FlashLabs, avec un test effectué sur 1/10 de la main-d'œuvre. L'IA et les employés humains sont en ligne simultanément, et leurs performances sont continuellement comparées. La méthode de validation est simple : celui qui obtient la plus haute précision et la meilleure efficacité de traitement gagne, les données parlant d'elles-mêmes.

« La portée de l'audio est au même niveau que celle de la vision » ; tandis que toute l'industrie se concentre sur le multimodal et la compréhension vidéo, Shi Yi et son équipe se sont concentrés sur le modèle vocal en temps réel Chroma, réduisant la latence de bout en bout à 135 millisecondes.

Avant l'apparition des grands modèles de texte, on avait l'OCR, le NLP, et divers petits modèles assemblés ensemble. La voix est aujourd'hui dans l'état où se trouvait le texte avant l'arrivée des grands modèles : on a l'ASR, le TTS, et divers modules assemblés, chaque étape effectuant des optimisations locales. Cette ancienne architecture sera inévitablement remplacée dans son ensemble par un grand modèle vocal end-to-end. Il estime que, plutôt que d'attendre que quelqu'un d'autre le fasse, il vaut mieux devenir soi-même ce remplaçant.

Shi Yi estime que la voix est le mode de communication le plus naturel entre humains, et qu'elle deviendra inévitablement l'interface d'interaction la plus centrale entre les humains et l'IA. « La bande passante d'informations transmises par la voix est bien plus grande que celle du texte ; je dis une phrase et vous comprenez immédiatement. »

Il pense même que les modèles vocaux jouent un rôle clé dans l'avancement de l'industrie de l'intelligence incarnée. Le premier niveau est le modèle vocal en temps réel, chargé de réponses instantanées à faible latence et à haute intelligence émotionnelle — poser des questions sur la météo ou sur le fait d'ajouter des vêtements, cette couche traite directement ; le deuxième niveau est le grand modèle de réflexion approfondie, qui gère les raisonnements complexes ; le troisième niveau est le modèle du monde, qui comprend les lois physiques. « La portée d'utilisation de la voix est de la même ampleur que celle de la vision. » C'est l'une de ses convictions les plus fermes à long terme.

Shi Yi est également d'avis que le modèle actuel de commercialisation de l'IA n'est qu'une forme transitoire. En effet, tous les agents actuels sont essentiellement des systèmes de réaction passive : vous leur dites quoi faire, et ils le font, agissant comme des outils d'exécution en attente d'instructions, toujours similaires aux chatbots. Par conséquent, le modèle économique repose toujours sur le paiement à la consommation de tokens, avec un coût proportionnel à l'utilisation.

Mais lorsque l'agent commence à offrir un service proactif — c'est-à-dire lorsque vous lui indiquez quels sont ses KPI et ses OKR, et qu'il cherche lui-même des tâches, planifie son parcours et livre des résultats mesurables — il n'est plus évalué comme un outil, mais comme un employé. Évidemment, une entreprise ne paie pas un employé en fonction du nombre de touches frappées ou du nombre d'e-mails envoyés ; vous observez les objectifs qu'il a accomplis.

Il pense donc que, avec l'entrée dans l'ère agente, la logique de paiement commercial devrait également passer à un modèle basé sur les résultats et les KPI. Lorsque ce changement se produira réellement, l'ensemble du système de tarification, des méthodes de vente et des relations clients pour les produits agents sera réécrit.

De nouvelles explorations de modèles économiques commencent à se produire au cœur de l’industrie. Crosby, un cabinet d’avocats basé sur l’IA qui vient de lever 60 millions de dollars en financement de série B, attribue à chaque agent une étape spécifique de l’analyse des contrats, comme l’extraction d’informations contextuelles, la proposition de modifications ou la génération de commentaires, tandis que les avocats vérifient les résultats de l’IA, corrigent les omissions et garantissent l’exactitude. Son modèle économique repose sur une facturation à l’audit de contrat, avec des frais variant de 250 à 1 000 dollars par contrat, soit environ 10 à 50 dollars par page, selon la longueur.

Mais la véritable évolution vers le prochain modèle de monétisation repose sur la capacité des agents actifs à livrer de manière stable des résultats mesurables. « Nous n’en sommes pas encore là. »

De FlashIntel à FlashLabs, Shi Yi a accompli en un an un ajustement organisationnel et stratégique aux coûts clairs. Licenciements, abandon de l'architecture produit existante, ralentissement temporaire de la recherche de rentabilité : ces actions semblent, aux yeux des observateurs extérieurs, une série de réductions continues.

Mais dans le contexte réel d'une évolution rapide de l'industrie de l'IA, cela ressemble davantage à un ajustement continu d'une startup en pleine transformation. Les capacités des modèles pourraient connaître une progression majeure tous les quelques mois, et personne ne peut prédire avec certitude l'évolution future. Pour Shi Yi et FlashLabs, l'objectif actuel n'est pas de conquérir un maximum de marché, mais de s'assurer que leurs choix technologiques et leur logique commerciale ne soient pas facilement obsolètes face à la prochaine vague.

L'industrie explore encore la forme réelle des agents ; les modèles de paiement, les limites de sécurité et les modalités d'interaction finales ne sont pas encore définis. Le choix de FlashLabs n'est peut-être pas la solution optimale, mais il représente une voie de survie concrète pour les entreprises d'IA verticales : face à la pression croissante des grands modèles qui s'infiltrent toujours plus profondément, il s'agit d'abord de trouver une position stable, puis d'attendre que l'industrie atteigne véritablement sa maturité.