Elorian AI lève 55 M$ pour faire progresser le raisonnement visuel pour l'IA générale du monde physique

Article | Alpha公社

Les capacités des grands modèles d'IA dépassent, dans certains domaines, celles d'une personne moyenne, comme la programmation et les mathématiques. Selon des informations, Anthropic a presque atteint une programmation par IA à 100 %, et Gemini Deep Think de Google a résolu 5 des 6 problèmes de l'IMO 2025, atteignant un niveau médaille d'or.

Cependant, en matière de raisonnement visuel, même le Gemini 3 Pro, qui est en tête au niveau technologique, n'atteint que le niveau d'un enfant de 3 ans sur le benchmark BabyVision, qui évalue les capacités de raisonnement visuel de base.

Pourquoi les grands modèles sont-ils forts en programmation et en mathématiques, mais faibles en raisonnement visuel ? Cela est dû à des limites dans leur « mode de pensée » : les modèles visuo-linguistiques (VLM) doivent d'abord convertir les entrées visuelles en langage, puis effectuer un raisonnement basé sur le texte. Toutefois, de nombreuses tâches visuelles ne peuvent pas être décrites précisément par des mots, ce qui entraîne une faible capacité de raisonnement visuel du modèle.

Andrew Dai, qui a travaillé pendant 14 ans chez Google DeepMind, a fondé une entreprise appelée Elorian AI en collaboration avec Yinfei Yang, expert senior en IA d'Apple. Leur objectif est de faire passer la capacité de raisonnement visuel des modèles du niveau « enfant » au niveau « adulte », et de leur permettre de penser nativement dans un « espace visuel », afin de remettre en question l'AGI dans le monde physique.

Elorian AI a levé 55 millions de dollars en financement initial, mené conjointement par Striker Venture Partners, Menlo Ventures et Altimeter, avec la participation de 49 Palms et de chefs de file de la recherche en IA, notamment Jeff Dean.

Pionnier des modèles multimodaux, souhaitant doter les modèles visuels d'une capacité de raisonnement

Andrew Dai, d'origine chinoise, titulaire d'une licence en informatique de Cambridge et d'un doctorat en apprentissage automatique d'Édimbourg, a effectué un stage chez Google pendant son doctorat, a rejoint Google en 2012 et y est resté pendant 14 ans avant de se lancer dans l'entrepreneuriat.

Yinfei Yang
Source de l'image : LinkedIn d'Andrew Dai

Peu après avoir rejoint Google, il a co-écrit avec Quoc V. Le le premier article sur la pré-formation des modèles de langage et le raffinement supervisé, intitulé « Semi-supervised Sequence Learning ». Cet article a posé les fondations de GPT. Son autre article fondateur, « Glam: Efficient scaling of language models with mixture-of-experts », a ouvert la voie à l'architecture MoE aujourd'hui dominante.

Yinfei Yang Source de l'image : Google

Pendant son temps chez Google, il a également profondément participé à la formation de presque tous les grands modèles, de PaLM à Gemini 1.5 et Gemini 2.5. Sous la direction de Jeff Dean, il a commencé en 2023 à diriger le volet données de Gemini (y compris les données synthétiques), une équipe qui s'est ensuite élargie à des centaines de personnes.

Source de l'image : LinkedIn de Yinfei Yang

Co-fondateur avec Andrew Dai, Yinfei Yang a travaillé pendant quatre ans chez Google Research en se concentrant sur l'apprentissage des représentations multimodales, avant de rejoindre Apple pour diriger le développement de modèles multimodaux.

Yinfei Yang Source de l'image : arxiv

Ses résultats de recherche les plus représentatifs, intitulés « Scaling up visual and vision-language representation learning with noisy text supervision », ont fait progresser l'apprentissage des représentations multimodales.

Le cofondateur d'Elorian AI est également Seth Neel, ancien professeur adjoint à Harvard et expert en données et en IA.

Pourquoi discuter des articles fondateurs écrits par les cofondateurs d'Elorian AI ? Parce que ce qu'ils entreprennent n'est pas une optimisation au niveau de l'ingénierie, mais une mise à jour du paradigme à partir de l'architecture de base : faire passer l'IA d'une compréhension intelligente basée sur le texte à une compréhension intelligente basée sur la vision.

La situation actuelle des modèles d'IA est que, malgré leur excellente performance sur les tâches basées sur le texte, même les plus avancés modèles multimodaux de pointe échouent encore sur les tâches les plus fondamentales d'alignement visuel (Visual grounding).

Par exemple, comment insérer précisément une pièce dans un mécanisme pour qu'il fonctionne de manière plus précise et plus efficace ? Ces tâches de physique spatiale sont simples pour les élèves du primaire, mais très difficiles pour les modèles multimodaux actuels.

Il faut toujours chercher des indices en biologie : dans le cerveau humain, la vision constitue le substrat fondamental soutenant de nombreux processus cognitifs ; l'homme utilise la vision et le raisonnement spatial bien plus longtemps qu'il n'utilise le raisonnement logique linguistique.

Par exemple, pour expliquer à quelqu'un comment traverser un labyrinthe, décrire oralement le chemin peut le confondre, tandis qu'un croquis permet de comprendre instantanément.

Par exemple, même un oiseau, bien qu’il ne parle pas de langage, peut reconnaître et déduire des caractéristiques géographiques par la vue pour accomplir des migrations à longue distance à l’échelle mondiale. C’est un signe fort indiquant que pour faire progresser réellement les capacités de raisonnement des machines, la vision est probablement la bonne voie à suivre.

Alors, imaginez que dès le départ de la conception du modèle, on tente d’incorporer cet instinct visuel biologique dans le gène de l’IA, en créant un modèle multimodal natif capable de « comprendre et traiter simultanément le texte, les images, les vidéos et l’audio », ce qui conférerait au modèle une capacité de compréhension visuelle. Andrew Dai et son équipe veulent construire un « synesthète » naturel, apprendre à la machine non seulement à « voir » le monde, mais aussi à le « comprendre ».

Aux yeux d'Andrew Dai et de son équipe, une compréhension approfondie du « monde physique » réel est la clé essentielle pour réaliser un saut vers la prochaine génération d'intelligence artificielle et atteindre enfin l'« intelligence artificielle générale visuelle (Visual AGI) ».

L'inférence retardée des VLM n'est pas le bon chemin vers l'inférence visuelle

Par le passé, d'autres équipes avaient déjà tenté de le faire ; en réalité, l'équipe de Gemini à laquelle Andrew Dai appartenait précédemment était l'une des plus avancées au monde dans le domaine multimodal. Toutefois, les modèles multimodaux traditionnels restent principalement basés sur les VLM (modèles visuo-linguistiques), dont la logique repose sur une approche en deux étapes : d'abord, convertir l'entrée visuelle en langage, puis effectuer un raisonnement basé sur le texte (parfois aidé par l'appel à des outils externes).

Cependant, l'inférence postérieure présente des limites intrinsèques : d'une part, elle facilite facilement les hallucinations du modèle, et d'autre part, de nombreuses tâches visuelles ne peuvent tout simplement pas être décrites précisément par le texte.

De plus, des modèles de génération visuelle comme NanoBanana excellent en génération multimodale, mais la capacité de génération n'est pas équivalente à la capacité de raisonnement ; leur « réflexion » avant la génération repose toujours sur des modèles linguistiques, et non sur un raisonnement natif.

Pour développer des modèles capables de comprendre véritablement la complexité de l'espace, de la structure et des relations dans le monde visuel, une innovation fondamentale au niveau des technologies sous-jacentes sera nécessaire.

Alors, comment innover ? Les fondateurs d'Elorian AI, qui possèdent une longue expérience dans le domaine multimodal, ont adopté la stratégie suivante : intégrer profondément l'entraînement multimodal à une nouvelle architecture conçue spécifiquement pour l'inférence multimodale. Ils ont abandonné la pratique traditionnelle consistant à traiter les images comme des entrées statiques, pour entraîner les modèles à interagir directement avec et manipuler les représentations visuelles afin de les analyser de manière autonome, en déduisant leur structure, leurs relations et leurs contraintes physiques.

Of course, another core element is data, which determines the performance and success of these models.

Andrew Dai a déclaré qu'ils accordent une grande importance à la qualité des données, au ratio de mélange des données, à la source des données et à leur diversité, et qu'ils ont révolutionné la couche données,重构 de la chaîne d'inférence dans l'espace visuel, et utilisé à grande échelle et en profondeur des données synthétiques.

Ces efforts combinés donneront naissance à de nouveaux systèmes d'IA capables de dépasser la « perception » visuelle simple pour atteindre la « raisonnement » visuel avancé.

Ce système d'IA peut être un modèle de base en raisonnement visuel : il s'agit de construire un modèle hautement général, mais présentant une performance exceptionnelle sur un ensemble spécifique de capacités, à savoir le raisonnement visuel.

Étant un modèle de base général, ses domaines d'application devraient être larges.

D'abord, dans le domaine des robots, il peut servir de centre nerveux fondamental pour des systèmes puissants, leur permettant d'opérer de manière autonome dans divers environnements inconnus.

Par exemple, dans le domaine des robots, envoyer un robot gérer une panne de sécurité soudaine dans un environnement dangereux nécessite qu'il prenne des décisions rapides et précises en un instant. Si le robot ne possède pas de modèle de base capable de raisonnement approfondi, les gens n'oseront pas le laisser appuyer aveuglément sur des boutons ou manipuler des leviers. Mais s'il dispose d'une capacité de raisonnement extrêmement forte, il pourrait réfléchir : « Avant d'opérer ce panneau, peut-être devrais-je d'abord tirer ce levier pour activer le mécanisme de sécurité. »

En outre, dans le domaine de la gestion des catastrophes, les modèles dotés d'un raisonnement visuel peuvent surveiller et prévenir les incendies de forêt en analysant des images satellites ; dans le domaine de l'ingénierie, ils peuvent comprendre avec précision des schémas visuels complexes et des schémas de systèmes, ce qui est essentiel car les lois régissant le fonctionnement du monde physique diffèrent fondamentalement de celles du monde purement codé : vous ne pouvez pas concevoir une aile d'avion en tapant simplement quelques lignes de code pur.

Cependant, les modèles et capacités d'Elorian AI sont pour l'instant restés sur le papier ; ils prévoient de lancer en 2026 un modèle atteignant l'état de l'art en matière de raisonnement visuel, ce qui permettra de vérifier si leurs résultats correspondent aux revendications.

Quand l'IA possédera réellement la capacité de « raisonnement visuel », comment changera-t-elle le monde physique ?

Pour permettre à l'IA de comprendre et d'influencer le monde physique réel, la technologie a été itérée plusieurs fois.

De la reconnaissance d'images à l'ère traditionnelle des CV, aux modèles de génération d'images et aux modèles multimodaux de l'IA générative, jusqu'aux modèles du monde, la compréhension du monde physique s'améliore continuellement.

Le modèle de base de raisonnement visuel est très probablement susceptible de progresser davantage, car en étant capable de raisonner visuellement, l'IA pourra comprendre plus profondément le monde physique, permettant ainsi d'atteindre un niveau supérieur d'intelligence artificielle.

Imaginez que des modèles dotés d'une compréhension approfondie et d'une manipulation fine apportent de l'énergie à l'industrie de l'intelligence incarnée et à l'industrie des matériels IA, élargissant considérablement leurs applications. Par exemple, les robots pourraient effectuer des productions industrielles plus fiables ou des soins médicaux ; les matériels IA, en particulier les appareils portables, deviendraient des assistants personnels plus intelligents.

Cependant, au niveau fondamental de ces technologies, il s'agit toujours de données. Andrew Dai a également mentionné précédemment que la qualité des données, le ratio de mélange des données, la source des données ainsi que leur diversité déterminent les performances du modèle.

Dans le domaine de l'IA physique, les entreprises chinoises sont, tant au niveau des modèles que des données, plus proches du leader mondial que les grands modèles textuels. Si elles parviennent à accélérer leur cycle d'itération en tirant parti de leurs avantages en matière de données et d'applications plus riches, elles auront de plus grandes chances d'atteindre un niveau de pointe, que ce soit dans l'intelligence incarnée ou l'IA matérielle, qu'elle soit appliquée à l'industrie, à la santé ou à la maison, et auront également l'opportunité de voir émerger des entreprises mondiales.