La stratégie IA de ByteDance pour 2026 se concentre sur quatre domaines : modèles mondiaux, modèle vidéo Seedance, codage et commercialisation de DouBao.
Auteur de l'article : Zhou Xinyu
Source : 36氪
« L'émergence intelligente » a appris exclusivement auprès de plusieurs sources que, en 2026, ByteDance AI aura quatre grandes thématiques :
Augmenter les investissements dans l'entraînement de modèles mondiaux ; d'ici la fin de l'année, la performance du modèle atteindra le niveau actuel du meilleur modèle mondial, Google Genie 3.
Les modèles vidéo maintiennent leur avance et explorent de nouvelles directions telles que la « génération dynamique ».
Renforcer les fondations du codage, mettre en œuvre le dogfooding du codage (rétroaction des données, évaluation, création d'une boucle vertueuse) et améliorer les capacités de l'agent.
Doubao renforce ses capacités de monétisation, avec un accent sur les scénarios « professionnels ».
Le territoire inachevé de ByteDance : Les modèles mondiaux. Aujourd'hui, dans la matrice IA de ByteDance, il existe Seed 2.0, qui permet enfin à ByteDance d'intégrer le premier échelon des grands modèles chinois, ainsi que Seedance 2.0, qui atteint un niveau SOTA mondial. En outre, côté applications, DouBao a établi une avance décisive — nous avons appris de plusieurs sources que, après le Nouvel An chinois 2026, le nombre quotidien d'utilisateurs actifs de DouBao a atteint 200 millions.
« Pas de faiblesse évidente. » Un stratège IA d'une grande entreprise a ainsi évalué la matrice d'activités IA de ByteDance.
Mais parmi tous ces modèles, le modèle du monde, clé pour la prochaine étape de la recherche sur les grands modèles, fait défaut.
Plusieurs personnes proches de l'équipe Seed nous ont indiqué que ByteDance est un acteur entré tardivement sur le segment des modèles mondiaux. En 2024, Zhou Chang, récemment recruté auprès d'Alibaba, a pris en charge la recherche sur les modèles mondiaux.
Mais à l'époque, le jugement interne était que la voie des modèles mondiaux et les scénarios de commercialisation n'étaient pas encore clairs ; il était plus important de bien lutter pour les modèles vidéo.
Jusqu'en 2025, ByteDance a formé un petit groupe de recherche pour explorer la voie VLA (Vision-Language-Action) dans les modèles du monde. Les deux responsables étaient :
Premièrement, Li Hang, responsable du laboratoire d'IA de ByteDance — en avril 2025, le laboratoire d'IA dans son ensemble (incluant l'équipe Robotics) a été intégré à Seed, dans le but d'améliorer l'efficacité de la communication entre les modèles et les applications (intelligence incarnée) — principalement basé sur l'entraînement des modèles mondiaux à partir de données de simulation.
L'autre est Wang Wenqian, chercheuse en multimodalité chez Seed, qui effectue principalement des entraînements sur des données naturelles.
En 2026, Wu Yonghui fixe enfin un objectif clair pour le modèle du monde lors de la réunion d'équipe complète de Seed : publier au moins une version du modèle du monde d'ici la fin de 2026, avec des performances comparables à l'état de l'art actuel — Genie 3 publié par Google en août 2025.
Mais selon le rythme actuel, le rattrapage n'est pas suffisant. Une personne proche de Seed nous a indiqué que Wu Yonghui a à plusieurs reprises déclaré en interne à Seed que les modèles de monde et l'intelligence incarnée de ByteDance n'atteignaient pas les résultats escomptés.
Un autre membre de Seed a révélé que, selon une évaluation interne, au début de l'année 2026, la performance globale du modèle du monde de Byte reste inférieure de 10 % à l'état de l'art mondial (SOTA).
Mais cette bataille représente l'avenir.
D'un côté, les applications en aval des modèles mondiaux se traduisent par un marché de l'intelligence incarnée d'au moins 100 milliards de dollars, ainsi que des scénarios de jeu et de divertissement aux perspectives immenses.
Un ancien chercheur de Seed nous a déclaré que les scénarios d'application précédents des robots Byte étaient principalement le transport d'objets et la manutention industrielle, mais que la direction des robots humanoïdes, dont les perspectives de marché sont bien plus larges, est celle que Byte entrera inévitablement.
D'un autre côté, les approches des modèles mondiaux restent largement non consensuelles, notamment les écoles de génération vidéo, de VLA (modèles vision-langage-action) et de JEPA (prévision de pixels).
« En pariant sur la densité de talents et l’investissement en capital de ByteDance, il est très probable de gagner, » nous a analysé un investisseur en IA. « Ne pas parier, c’est perdre avec certitude. »
Dans le cadre de l'objectif de rejoindre le premier rang mondial, depuis 2026, ByteDance a apporté de nombreux ajustements à la formation de modèles mondiaux.
Selon « Émergence intelligente », après le Nouvel An chinois 2026, Seed a créé un nouveau groupe de recherche sur les modèles mondiaux, dirigé par Fan Haoqi, ancien chercheur du laboratoire FAIR de Meta, qui rend compte à Zhou Chang, responsable des multimédias et des modèles mondiaux chez Seed ;
En parallèle, les deux équipes de recherche VLA dirigées respectivement par Li Hang et Wang Wenqian ont été fusionnées et relèvent désormais uniquement de Zhou Chang.
Plusieurs sources informées ont déclaré à Smart Emergence que l'équipe de Li Hang et Wang Wenqian se concentrait principalement sur les VLA, en privilégiant l'improvisation et le réalisme, avec pour cible les applications en intelligence incarnée ; tandis que la nouvelle équipe dirigée par Fan Haoqi adopte une approche de simulation 3D, axée sur des applications telles que le divertissement et les jeux.
Outre l'expansion des ressources humaines et des itinéraires d'exploration, le modèle mondial reçoit également le plus grand investissement financier parmi les plusieurs directions de modèles, telles que le texte, le codage et les vidéos.
Le budget de données est très significatif. Un employé de la plateforme de données ByteDance nous a indiqué que la stratégie de « grande quantité de données » qui a précédemment apporté des gains notables sur les LLM et Seedance 2.0 sera désormais appliquée à l'entraînement des modèles du monde.
Cela correspond également à un investissement plus important en données — nous avons appris de plusieurs sources que, en 2026, le budget alloué par ByteDance aux données d'entraînement pour les modèles mondiaux (incluant les modalités VLA, longs vidéos, 3D, etc.) est le plus élevé parmi toutes les modalités, atteignant des dizaines de millions de yuans.
Un fournisseur de données a mentionné que les investissements de ByteDance en données pour ses modèles mondiaux atteignent 3 à 4 fois ceux des autres fabricants.
Codage : Pursuivre une capacité de data engineering encore plus poussée est une base, et c’est ce qui détermine la limite supérieure des performances des agents — c’est devenu un consensus dans l’industrie.
Plusieurs personnes informées nous ont mentionné l'importance accordée par ByteDance à Coding. « ByteDance investit constamment beaucoup dans Coding, juste après les modèles mondiaux de cette année », a déclaré une personne proche de Seed à Intelligent Emergence.
Par exemple, l'équipe effectue des achats ciblés de données ou étudie des démonstrations de données d'entraînement de modèles de codage de pointe à l'étranger tels que Claude Code et CodeX.
Lors de la conférence Force de Volcán Engine en 2025, Hong Dingkun, vice-président de la technologie de ByteDance, a également déclaré que le codage, en tant que tâche hautement structurée et logiquement rigoureuse, exige une compréhension approfondie des structures sémantiques complexes, du raisonnement logique, de la conception d'algorithmes et d'une expression précise, ce qui aide à explorer les limites de l'intelligence des modèles.
Cependant, en dehors de l'entreprise, la présence du secteur Coding de ByteDance a toujours été faible. Que ce soit le modèle Doubao-Seed-Code publié en novembre 2025 ou l'outil de programmation AI Trae lancé au début de 2025, leurs performances et leur visibilité sont inférieures à celles du GLM 5 de Zhipu et du K2 de Moonshot.
« La difficulté à obtenir des progrès dans l'efficacité du codage de ByteDance provient du manque de retour de données », a évalué une personne informée. En raison de la capacité limitée du modèle, les activités liées à ByteDance ne souhaitent pas utiliser Seed-Code.
Même l'application d'IA pour le codage Trae a initialement intégré DeepSeek et Claude Code, ainsi qu'un modèle de codage développé en interne.
Cela entraîne le fait que le modèle de codage de ByteDance manque de retours provenant d'applications réelles.
Depuis 2026, de nombreux employés de ByteDance ont constaté que les différentes équipes métier renforcent leur soutien au modèle Seed. Un employé de Seed a indiqué à Intelligence Emergente qu’auparavant, ByteDance n’imposait pas d’utiliser des modèles de codage tiers pour le développement, mais depuis 2026, plusieurs départements d’application se voient imposer l’utilisation du modèle Seed.
Cependant, avec un investissement encore plus important en données, la vitesse de recrutement de Seed a légèrement ralenti.
Un recruteur de l'IA a informé « Émergence intelligente » que le signal actuel envoyé par les ressources humaines de ByteDance est que l'ère des recrutements massifs et bien rémunérés est terminée ; la prochaine priorité est le développement interne et la promotion des jeunes talents, ainsi que l'amélioration de la rémunération des algorithmes.
Aujourd'hui, les rares postes ouverts par Seed sont principalement destinés à des talents de l'IA provenant d'entreprises étrangères telles que DeepSeek, OpenAI, DeepMind et Meta, comme Guo Daya, ancien membre clé de DeepSeek, et Dong Xin, ancien chercheur chez NVIDIA.
Seedance comment maintenir sa position de pointe en 2026 ? Un autre axe majeur de ByteDance pour les modèles AI en 2026 sera de maintenir la position de Seedance en tant que leader mondial dans la génération vidéo.
« La réussite de Seedance 2.0 est une victoire des données. » Un fondateur d'une startup de génération vidéo avait ainsi évalué Seedance 2.0 pour Intelligent Emergence. Nous avons appris que la vaste quantité de données d'entraînement et une équipe d'évaluation de plus de 2 000 personnes ont contribué aux performances remarquables de Seedance 2.0.
Cependant, la méthode d'entraînement basée uniquement sur la quantité de données présente des inquiétudes cachées. Certaines études révèlent un phénomène appelé « Anti-Scaling Law » dans le domaine de la génération vidéo : en bref, plus les données d'entraînement sont nombreuses, plus le modèle a tendance à « tricher » en n'apprenant que certains cadres clés tout en ignorant la narration complète — ainsi, plus l'entraînement avance, plus le bénéfice tiré de l'augmentation de la quantité de données diminue.
Deux sources informées du côté données nous ont indiqué que Seedance a atteint les limites de son pré-entraînement ; pour améliorer ses performances à l'avenir, il faudra nettoyer les données d'entraînement et effectuer un post-entraînement plus précis.
En parallèle, la capacité de « génération dynamique » est une nouvelle orientation que l'équipe Seedance se concentrera en 2026.
Ce qu'on appelle la « génération dynamique », soit les vidéos interactives, permet aux utilisateurs de saisir des commandes pour ajuster en temps réel le contenu et l'intrigue de la vidéo. Sur ce segment, Vivix AI (fondée par Liu Yu, ancien directeur de recherche senior à SenseTime) a déjà atteint une valorisation de 1,32 milliard de dollars américains.
Plusieurs sources informées ont déclaré à Smart Emergence que Zhou Chang a toujours été très optimiste quant aux perspectives d'application de la génération dynamique.
« Les vidéos interactives peuvent être transformées en jeux vidéo, en séries interactives, et peuvent également s’articuler avec l’exploration des modèles mondiaux (la génération vidéo constitue également une voie d’exploration des modèles mondiaux). » a déclaré une personne proche de Seed.
Accélérer la monétisation et l'expansion internationale de DouBao. 36Kr a exclusivement rapporté que DouBao devrait officiellement lancer ses contenus payants fin juin ; parallèlement, DouBao prévoit d'intégrer son système à l'e-commerce de Douyin pour perfectionner les scénarios de paiement.
Au début mai 2026, DouBao a mis à jour ses options d'abonnement payant sur l'App Store, avec des prix mensuels allant de gratuit à 500 yuans.
Le 3 juin, DouBao a également annoncé qu'il lancerait prochainement « DouBao Pro », dédié aux besoins de productivité des professionnels, offrant des services spécialisés tels que le développement logiciel, l'analyse de données, la conception professionnelle, l'automatisation des processus, l'analyse financière et la recherche scientifique.
Plusieurs sources informées ont révélé qu'après le Nouvel An chinois, le DAU de DouBao a dépassé 200 millions. « Le budget de publicité de DouBao cette année est très faible », selon une source informée. Un DAU élevé entraîne des coûts de raisonnement élevés et une pression opérationnelle accrue ; à ce stade, DouBao accélère sa commercialisation dans le but de ralentir sa croissance et de se doter d'une capacité de génération autonome de revenus.
La génération de présentations PPT constitue le point d'entrée central pour instaurer la perception de paiement chez les utilisateurs de Doubao. « Doubao souhaite renforcer la fonction de génération de PPT afin de facturer les professionnels des secteurs à haut revenu tels que la finance et le droit », a déclaré une personne proche de Doubao à Intelligence Emergente. À la prochaine étape, Doubao prévoit également de lancer une version entreprise, intégrée aux systèmes internes des entreprises, bien que les modalités précises de cette intégration soient encore en discussion interne.
Il a indiqué que cette idée a été inspirée par les modèles commerciaux étrangers. Actuellement, le modèle de monétisation basé sur des frais pour les scénarios professionnels a été validé à l'étranger. Selon les données divulguées par Anthropic, Claude Code a atteint un ARR de 1 milliard de dollars en seulement six mois après son lancement ; un an après, l'ARR en février 2026 s'est élevé à 2,5 milliards de dollars.
Les flux de trésorerie substantiels générés par Claude Code pour les scénarios de développement d'entreprise ont permis à Anthropic, fondée six ans après OpenAI, de dépasser le ARR d'OpenAI au début de cette année.
Maintenant, le défi pour DouBao est de faire évoluer la perception de ses utilisateurs, en passant d’un « point d’entrée universel » où l’on peut poser gratuitement toutes les questions à un « assistant de bureau » qui, bien que payant, permet d’augmenter son efficacité.
Cependant, le marché que DouBao souhaite pénétrer est déjà saturé. Des représentants de DouBao ont indiqué à Intelligence Emergente que, lors de l’enquête auprès des clients professionnels, ByteDance a constaté que le marché des outils IA d’entreprise était déjà dominé par de nombreux fournisseurs de solutions IA sectorielles ; DouBao, arrivé en retard, devra inévitablement faire face à des coûts d’acquisition plus élevés.
《Intelligence émergente》 a appris que l'expansion à l'étranger est également l'une des priorités importantes de DouBao cette année.
Précédemment, l'application internationale Dola de DouBao avait dépassé 10 millions d'utilisateurs actifs quotidiens (DAU) à la fin de l'année 2025. Selon Intelligence Emergence, l'objectif de croissance de Dola pour 2026 est d'atteindre 30 millions de DAU à la fin de l'année.
Une source informée a déclaré que les pays de langues minoritaires constituent le marché principal ciblé par Dola. Actuellement, le marché international des chatbots IA est presque entièrement dominé par ChatGPT, Claude et Gemini. Éviter une confrontation directe avec les « trois géants de l'IA » sur les marchés européens et américains, tout en adoptant une approche différenciée sur les marchés de langues minoritaires, constitue la stratégie de croissance de Dola.
Les données tierces indiquent que, depuis le deuxième semestre 2025, Dola figure régulièrement dans les classements de téléchargement des magasins d'applications en Indonésie, en Malaisie, au Mexique et dans d'autres pays.
——
Depuis son arrivée chez ByteDance il y a un an, Wu Yonghui a pour mission de faire évoluer Seed en corrigeant les bugs tout en développant des modèles SOTA. En 2026, sur chaque champ de bataille de l'IA, l'objectif de ByteDance est de devenir le gagnant.
Aujourd'hui, Seed 2.0 et Seedance 2.0 montrent déjà des résultats prometteurs ; les expériences en ingénierie, en données et en talents accumulées par Seed seront réutilisées de manière plus efficace dans la prochaine vague de concurrence.
(Deng Yongyi, auteur de « L’Émergence Intelligente », a également contribué à cet article.)
