Elorian AI levanta US$55 milhões para avançar o raciocínio visual para a AGI do mundo físico

Artigo | Alpha公社

A capacidade dos grandes modelos de IA, em alguns aspectos, já superou a de pessoas comuns, como programação e matemática. Segundo informações, a Anthropic já quase alcançou 100% de programação por IA, e o Gemini Deep Think da Google resolveu 5 de 6 questões no IMO 2025, atingindo nível de medalha de ouro.

Mas em raciocínio visual, mesmo o líder de desempenho Gemini 3 Pro atinge apenas o nível de uma criança de 3 anos no benchmark BabyVision, que avalia as habilidades básicas de raciocínio visual.

Por que os grandes modelos são fortes em programação e matemática, mas fracos em raciocínio visual? Isso ocorre porque seu “modo de pensamento” tem limitações: os modelos de linguagem visual (VLM) precisam primeiro converter entradas visuais em linguagem e depois realizar raciocínio baseado em texto; no entanto, muitas tarefas visuais não podem ser descritas com precisão por meio de palavras, o que resulta em baixa capacidade de raciocínio visual do modelo.

Andrew Dai, que trabalhou por 14 anos no Google DeepMind, em parceria com o experiente especialista em IA da Apple, Yinfei Yang, fundou uma empresa chamada Elorian AI, cujo objetivo é elevar a capacidade de raciocínio visual dos modelos do nível "infantil" para o nível "adulto", permitindo que os modelos tenham a capacidade real de pensar nativamente no "espaço visual", visando impactar a AGI no mundo físico.

Elorian AI recebeu um financiamento inicial de US$ 55 milhões liderado conjuntamente por Striker Venture Partners, Menlo Ventures e Altimeter, com participação da 49 Palms e de principais cientistas de IA, incluindo Jeff Dean.

Pioneira de modelos multimodais, quer dar aos modelos visuais capacidade de raciocínio

Andrew Dai, chinês, graduado em ciência da computação em Cambridge e doutor em aprendizado de máquina em Edimburgo, fez estágio no Google durante seu doutorado, juntou-se ao Google em 2012 e permaneceu lá por 14 anos até empreender.

Yinfei Yang
Fonte da imagem: LinkedIn de Andrew Dai

Logo após se juntar ao Google, ele coescreveu com Quoc V. Le o primeiro artigo sobre pré-treinamento de modelos de linguagem e fine-tuning supervisionado, intitulado “Semi-supervised Sequence Learning”. Esse artigo estabeleceu as bases para o surgimento do GPT. Seu outro artigo fundador é “Glam: Efficient scaling of language models with mixture-of-experts”, que abriu caminho para a arquitetura MoE hoje dominante.

Yinfei Yang Fonte da imagem: Google

Durante seu tempo no Google, ele também participou profundamente de quase todos os treinamentos de grandes modelos, desde o PaLM até o Gemini 1.5 e o Gemini 2.5. Sob a coordenação de Jeff Dean, ele passou a liderar o componente de dados do Gemini em 2023 (incluindo dados sintéticos), e essa equipe posteriormente expandiu-se para centenas de pessoas.

Fonte da imagem: LinkedIn de Yinfei Yang

Co-fundador com Andrew Dai é Yinfei Yang, que trabalhou por quatro anos no Google Research, focado em aprendizado de representações multimodais, e depois se juntou à Apple para liderar o desenvolvimento de modelos multimodais.

Fonte da imagem: arxiv

Sua pesquisa representativa, "Scaling up visual and vision-language representation learning with noisy text supervision", impulsionou o desenvolvimento do aprendizado de representações multimodais.

O cofundador da Elorian AI também inclui Seth Neel, que foi professor assistente da Harvard University e especialista em dados e IA.

Por que discutir quais artigos inovadores os cofundadores da Elorian AI escreveram? Porque o que eles pretendem fazer não é uma otimização de engenharia, mas uma atualização de paradigma na arquitetura subjacente, elevando a inteligência artificial da compreensão inteligente baseada em texto para a compreensão inteligente baseada em visão.

Atualmente, os modelos de IA, embora se destaquem em tarefas baseadas em texto, ainda enfrentam dificuldades nas tarefas mais básicas de alinhamento visual (visual grounding), mesmo os mais avançados modelos multimodais de ponta.

Por exemplo, como inserir exatamente uma peça em um mecanismo para que funcione com maior precisão e eficiência? Essas tarefas de física espacial são simples até para alunos do ensino fundamental, mas são difíceis para os atuais modelos de linguagem multimodal.

Ainda assim, é preciso buscar pistas na biologia: no cérebro humano, a visão é a base subjacente que sustenta muitos processos cognitivos; a capacidade humana de utilizar visão e raciocínio espacial é muito mais antiga do que o raciocínio lógico linguístico.

Por exemplo, para ensinar alguém a percorrer um labirinto, descrever com palavras pode confundir, mas fazer um esboço gráfico permite que a pessoa entenda imediatamente.

Por exemplo, mesmo um pássaro, que não possui linguagem, consegue reconhecer e raciocinar sobre características geográficas por meio da visão, permitindo-lhe realizar migrações globais de longa distância. Esse é um sinal forte de que, para realmente avançar na capacidade de raciocínio das máquinas, a visão provavelmente é o caminho correto de evolução.

Então, imagine que, desde o início da construção do modelo, tentasse-se incrustar esse instinto visual biológico no gene da IA, criando um modelo multmodal nativo capaz de “compreender e processar simultaneamente texto, imagens, vídeos e áudio”, permitindo que o modelo adquira capacidade de compreensão visual. Andrew Dai e sua equipe pretendem construir um “sinestésico” nato, ensinando às máquinas não apenas a “ver” o mundo, mas também a “entender” o mundo.

Para Andrew Dai e sua equipe, compreender profundamente o "mundo físico" real é a chave essencial para alcançar o próximo salto na inteligência machine e, finalmente, atingir a "Inteligência Artificial Geral Visual (Visual AGI)".

O VLM com inferência pós-processamento não é o caminho correto para a inferência visual

Já houve equipes que tentaram fazer isso antes; na verdade, a equipe da Gemini, onde Andrew Dai trabalhava anteriormente, já era uma das mais avançadas globalmente no campo multimodal. No entanto, os modelos multimodais tradicionais ainda se baseiam principalmente em VLMs (modelos visuais-linguísticos), cuja lógica é construída sobre um processo em “duas etapas”: primeiro, transformar a entrada visual em linguagem e, em seguida, realizar raciocínio baseado em texto (às vezes auxiliado por ferramentas externas).

No entanto, a inferência pós-processamento tem limitações inerentes: por um lado, facilita alucinações do modelo; por outro, muitas tarefas visuais simplesmente não podem ser descritas com precisão por meio de texto.

Além disso, modelos de geração visual como o NanoBanana demonstram excelente capacidade em geração multimodal, mas capacidade de geração não é igual a capacidade de raciocínio; seu “pensamento” antes da geração ainda depende fundamentalmente de modelos de linguagem, e não de raciocínio nativo.

Para desenvolver modelos capazes de compreender verdadeiramente a complexidade de espaço, estrutura e relações no mundo visual, será necessária uma inovação disruptiva na tecnologia subjacente.

Então, como inovar? Os fundadores da Elorian AI têm anos de experiência na área de multimodalidade, e sua abordagem consiste em integrar profundamente o treinamento multimodal com uma nova arquitetura projetada especificamente para inferência multimodal. Em vez de tratar imagens como entradas estáticas, eles treinam o modelo para interagir diretamente e operar sobre representações visuais, permitindo que ele analise autonomamente sua estrutura, relações e restrições físicas.

Of course, another core element is data, which is key to determining the performance and success of these models.

Andrew Dai afirmou que eles dão grande importância à qualidade dos dados, à proporção de mistura de dados, à origem dos dados e à diversidade dos dados, e realizaram inovações na camada de dados, reestruturando a cadeia de raciocínio no espaço visual e utilizando ampla e profundamente dados sintéticos.

Esses esforços combinados darão origem a novos sistemas de IA capazes de transcender a “percepção” visual simples e avançar para a “raciocínio” visual de nível superior.

Este sistema de IA pode ser um modelo base de raciocínio visual: ou seja, construir um modelo altamente geral, mas que se destaca extremamente em um conjunto específico de habilidades, sendo essa habilidade específica o raciocínio visual.

Como é um modelo base geral, seus campos de aplicação devem ser amplos.

Primeiro, na área de robôs, ele pode servir como o núcleo neural subjacente de sistemas poderosos, dotando-os da capacidade de operar autonomamente em diversos ambientes desconhecidos.

Por exemplo, na área de robôs, enviar um robô para lidar com uma falha de segurança emergencial em um ambiente perigoso exige que o robô tome decisões rápidas e precisas no momento. Se o robô não possuir um modelo base com capacidade de raciocínio profundo, as pessoas não ousariam permitir que ele aperte botões aleatoriamente ou opere alavancas. Mas se ele tiver uma capacidade de raciocínio extremamente forte, ele poderia pensar: “Antes de operar este painel, talvez eu deva puxar esta alavanca primeiro para ativar o mecanismo de proteção de segurança.”

Além disso, na gestão de desastres, modelos com raciocínio visual podem monitorar e prevenir incêndios florestais por meio da análise de imagens de satélite; na área de engenharia, eles conseguem compreender com precisão diagramas visuais complexos e esquemas de sistemas — essa capacidade é significativa porque as leis que regem o mundo físico diferem fundamentalmente do mundo puramente codificado: você não pode projetar as asas de um avião apenas escrevendo algumas linhas de código puro.

No entanto, atualmente os modelos e capacidades da Elorian AI ainda permanecem no papel; eles planejam lançar, em 2026, um modelo que atinja o estado da arte em raciocínio visual, momento em que será possível verificar se seus resultados correspondem às afirmações feitas.

Quando a IA realmente possuir capacidade de "raciocínio visual", como ela alterará o mundo físico?

Para que a IA compreenda e influencie o mundo físico real, a tecnologia já passou por várias iterações.

Da reconhecimento de imagens na era tradicional de CV, até modelos de geração de imagens/Modelos multimodais da IA generativa, e depois aos modelos do mundo, a compreensão do mundo físico tem sido constantemente aprimorada.

E o modelo base de raciocínio visual provavelmente avançará ainda mais, pois, ao conseguir realizar raciocínio visual, a IA poderá compreender mais profundamente o mundo físico, alcançando assim um nível superior de inteligência artificial.

Imagine quando modelos com compreensão profunda e operação refinada fornecerem energia ao setor de inteligência embutida e ao setor de hardware de IA, ampliando significativamente suas aplicações. Por exemplo, robôs podem realizar produção industrial com maior confiabilidade ou na área de cuidados médicos; hardware de IA, especialmente dispositivos vestíveis, torna-se assistentes pessoais mais inteligentes.

No entanto, por trás dessas tecnologias, ainda são os dados. Andrew Dai também mencionou anteriormente que a qualidade dos dados, a proporção de mistura de dados, a origem dos dados e a diversidade dos dados determinam o desempenho do modelo.

No campo da IA física, as empresas chinesas estão mais próximas do nível mundial, tanto no nível dos modelos quanto no nível dos dados, em comparação com os grandes modelos de texto. Se conseguirem aproveitar sua vantagem em dados e aplicações mais ricas para acelerar a velocidade de iteração, haverá maiores oportunidades de alcançar o nível líder, seja em inteligência embutida ou hardware de IA, seja aplicado na indústria, na medicina ou no lar, e também a oportunidade de surgir empresas de nível mundial.