O artigo discute as trajetórias de desenvolvimento de modelos mundiais no campo da inteligência embodiada. Atualmente, existem duas abordagens: a corrente "substitucionista" da Silicon Valley, que busca substituir totalmente o VLA pelo WAM, e a corrente predominante no país, a "fusão", que considera os modelos mundiais como um complemento de capacidades do VLA. O artigo aponta que os modelos mundiais enfrentam três bolhas: generalização excessiva da definição, barreiras elevadas de poder computacional e dificuldades de implementação prática. O artigo argumenta que um verdadeiro modelo mundial deve estar integrado a ciclos de negócios reais, ajudando máquinas a agir no mundo físico, em vez de buscar apenas realismo na geração de imagens.

Autor do artigo, fonte: Laboratório A Priori

De VLA a WAM: uma revolução superestimada e uma evolução subestimada.

Nos últimos seis meses, houve duas grandes ondas de entusiasmo mediático no campo da inteligência embodiada. Uma ocorreu na tela: de Sora a diversos modelos de geração de vídeo, todos exibindo seus poderes, com detalhes como a água derramada se espalhando e o movimento de personagens em espaços contínuos, elevando a narrativa de “a IA recriando a realidade” ao auge, enquanto gritos de “os modelos do mundo chegaram!” ecoavam por toda parte. A outra ocorreu no túmulo: o cientista-chefe de pesquisa da NVIDIA, Jim Fan, usou uma meme mostrando um WAM (World Action Model) em pé diante de um túmulo marcado como VLA (Visual-Language-Action Model), declarando “VLA está morto, viva o modelo do mundo”, levando diretamente para o centro do palco a disputa entre as abordagens. (Este artigo discute apenas os modelos do mundo na inteligência embodiada.)

Duas festas compartilham a mesma palavra-chave: modelo mundial.

Mas, paradoxalmente, quanto mais pessoas falam sobre inteligência embutida, mais nebulosa se torna sua definição: alguns chamam de modelo do mundo a geração de vídeos realistas, outros chamam de modelo do mundo a simulação de movimentos de robôs, e outros ainda chamam de modelo do mundo o ambiente de simulação para veículos autônomos. Sob o mesmo conceito, estão reunidos objetivos tecnológicos e demandas comerciais completamente diferentes.

O maior perigo dos modelos de mundo hoje não é nunca a “definição vaga”, mas sim que todos estão usando apenas o lado mais fácil de exibir e mais propenso a gerar pontos de viralização para definir todo o seu valor. Quando a exibição de “criar mundos” supera a essência de “usar mundos”, os modelos de mundo estão sendo desviados pelas pessoas mais habilidosas em contar histórias, afastando-os do verdadeiro destino que deveriam ter: os cenários físicos reais da Physical AI.

Claro que modelos mundiais precisam da capacidade de “criar mundos”. Sem aquelas impressionantes demonstrações de geração, eles não teriam entrado tão rapidamente no campo da atenção pública e do capital. Mas, para a indústria da Physical AI, gerar um mundo sempre foi apenas o começo do problema. O mundo precisa finalmente ser controlado, verificado e corrigido, tornando-se, por fim, um espaço de simulação e base de decisão para a ação da máquina. A geração de vídeos pode abrir a porta para os modelos mundiais, mas não pode percorrer sozinho o caminho até o mundo físico real.

Nunca nos faltam novos conceitos e novas narrativas; a inteligência embodied certamente trilhará seu próprio caminho geral. Quando isso acontecer, se esse caminho for chamado de VLA, WAM ou qualquer outro nome, talvez não importe mais.

After all, it has become embedded in our lives.

Modelos mundiais não são equivalentes a "gerar imagens"

Você se lembra do Sora?

Na época, quando a OpenAI lançou o Sora, o título do relatório era “Video generation models as world simulators”, anunciando que modelos de geração de vídeo tinham o potencial de se tornar um caminho viável para um “simulador universal do mundo físico”. As capacidades demonstradas pelo Sora na época, em vídeos longos — como movimento de câmera, consistência 3D local e manutenção do estado dos objetos — fizeram o público sentir, pela primeira vez de forma intuitiva: a IA parece realmente estar aprendendo a “construir um mundo”. Em comparação com texto e imagens, o vídeo é naturalmente mais alinhado à percepção humana intuitiva do “mundo” — com tempo, espaço, movimento e mudanças contínuas — facilitando a ilusão de que o modelo já compreende as leis da física.

Essas capacidades são naturalmente adequadas para apresentações em lançamentos e mais fáceis de atrair a atenção de capital e mídia. Com o tempo, “geração de vídeo = modelo do mundo” tornou-se a porta de entrada padrão para muitas pessoas.

Isso certamente não está errado. Em cenários nativamente digitais, a abordagem de geração de vídeo é intrinsicamente eficiente e já gerou inúmeras startups unicórnio. Seus produtos podem ser usados na indústria de jogos para gerar cenas dinâmicas em tempo real, reduzindo custos artísticos e aumentando a liberdade dos jogadores; em setores de alto custo de erro, como aeroespacial e manufatura avançada, eles expandem os limites dos testes e enriquecem os cenários de simulação, oferecendo valor comercial claro. Nesse contexto, o "mundo" gerado não é uma imagem para o espectador, mas um ambiente simulado interativo e passível de experimentação.

A verdadeira mal-entendido ocorre na fronteira entre domínios, quando modelos mundiais encontram inteligência embodiada: muitos assumem que, como o modelo pode gerar um mundo digital contínuo e realista, ele possui compreensão, previsão e capacidade de ação sobre o mundo físico.

A análise do diretor do Instituto de Pesquisa de Inteligência Artificial Beijing Zhiyuan, Wang Zhongyuan, é perspicaz: a tecnologia de geração de vídeos, atualmente amplamente considerada como representante de modelos mundiais, é, na verdade, apenas uma simulação ao nível de pixels. “Modelos de geração de vídeo podem produzir um grupo de porcos voando no céu junto com aviões, pois seus dados de treinamento contêm uma grande quantidade de conteúdo de filmes de ficção científica; seu objetivo nunca foi reproduzir as leis do mundo físico real.”

Um cenário corporal clássico é suficiente para ilustrar a lacuna: pegar uma xícara. O modelo pode gerar xícaras com aparência consistente sob diferentes ângulos — isso é consistência visual, algo que ele aprendeu com dados de vídeo; mas, ao estender a mão para tocar, qual é o coeficiente de atrito? O material suporta a força de aperto correspondente? Quando a xícara cai sobre a mesa, é porque o modelo memorizou “xícaras geralmente estão na mesa” ou realmente compreende gravidade, força de apoio e restrições de contato? Respostas mecânicas complexas, mudanças de estado após o contato e restrições causais das leis físicas reais não podem ser cobertas por um único vídeo gerado. Quando um carro gerado se movendo lateralmente é inserido na cadeia de treinamento de direção autônoma sem verificação, o mundo físico real certamente reagirá com um retrocesso doloroso.

Em outras palavras, a geração de vídeo é uma forma de modelo do mundo que já foi implementada em muitos cenários, mas não é o modelo do mundo que a inteligência embodied busca, nem tampouco a forma central no contexto da Physical AI. Definir o modelo do mundo da inteligência embodied pela aparência visual de “criar um mundo” é, na essência, usar uma régua do mundo digital para medir problemas do mundo físico.

VLA está morto? Modelos mundiais não são revoluções, são complementos

"VLA está morto, WAM assumiu o cargo" é a narrativa mais popular da indústria.

Nos últimos dois anos, o VLA foi a abordagem dominante na inteligência embutida. Ele adotou a ideia de pré-treinamento de grandes modelos de linguagem, estabelecendo um mapeamento entre “percepção - instrução - ação” por meio de grandes volumes de dados de teleoperação, permitindo que os robôs passem de ações rígidas e repetitivas para compreender linguagem natural e decompor tarefas complexas. Todos os principais players da indústria já utilizaram o VLA como base tecnológica central.

Mas a fraqueza do VLA é muito clara: trata-se essencialmente de aprendizado por imitação, baseado em memória e mapeamento, sem compreensão subjacente das leis físicas. Diante de novos cenários ou objetos nunca vistos nos dados, sua capacidade de generalização falha rapidamente. A abordagem WAM proposta por Jim Fan visa exatamente esse ponto crítico. Seu núcleo lógico consiste em passar da “compreensão semântica” para a “previsão física”: em vez de gerar diretamente ações, primeiro prevê o estado futuro do mundo e, em seguida, retrocede para determinar a sequência de ações — como se o robô “rehearsasse” mentalmente as consequências antes de agir, aumentando assim sua capacidade de adaptação a cenários desconhecidos.

Assim, a teoria da revolução se espalhou rapidamente: VLA é um paradigma obsoleto, e os modelos mundiais são a próxima geração da inteligência embutida. Mas na prática industrial real, as coisas não são tão simples quanto “ou vive ou morre”.

A indústria está se dividindo em duas linhas claras, impulsionadas por filosofias tecnológicas e demandas comerciais distintas:

Uma é a corrente liderada pela Vale do Silício, alternativa. Representada por NVIDIA e Google DeepMind, baseia-se em poder computacional e reservas de dados abundantes, buscando uma reestruturação completa do paradigma. A NVIDIA, no Cosmos 3, incorpora linguagem, imagem, vídeo e sequências de ação dentro de um único framework de modelo físico de IA, tentando tornar geração, simulação e previsão de ações módulos não mais isolados; o Waymo World Model, lançado em parceria entre Waymo e Google DeepMind, aproveitando a capacidade do modelo Genie 3, não serve apenas para gerar cenários de cauda longa, como clima raro ou animais invadindo a via, mas principalmente para fazer com que esses cenários sejam controlados por ações de direção, layout da estrada e condições linguísticas, testando a reação dos sistemas de direção autônoma em cenários contrafactuais.

Este caminho é o mais ambicioso e o mais alinhado com a “narrativa revolucionária”, mas possui uma barreira de entrada extremamente alta, sendo um jogo para as maiores gigantes.

Outra abordagem mais comum no mercado interno é a “fusão”. A esmagadora maioria dos jogadores não optou por começar do zero, mas sim incorporar o modelo do mundo como um complemento de capacidades da VLA, integrando-o na arquitetura existente. Em maio de 2026, Zhi Square lançou o modelo grande embutido da VLA, AlphaBrain. Inspirado no mecanismo de divisão de funções do cérebro humano — “cérebro-cerebelo-tronco” —, ele integra a capacidade de “simulação” do modelo do mundo dentro da arquitetura da VLA por meio da cooperação entre “sistemas rápidos e lentos”: o sistema lento é responsável pela percepção da situação ambiental e pelo planejamento de comportamentos de alto nível, enquanto o sistema rápido lida com sensores finos e respostas rápidas. A avaliação de Guo Yandong, fundador da Zhi Square, é direta: “O modelo do mundo e a VLA não entram em conflito de forma alguma; são, na verdade, um ramo de uma mesma linha tecnológica. Para realizar tarefas de raciocínio de longo prazo, é necessário combinar modelo do mundo + VLA, ou fundir o modelo do mundo com a VLA.”

A Galaxy General também avançou muito; seu modelo LDA-1B, lançado em abril deste ano, realiza simultaneamente aprendizado de estratégia, previsão física e percepção visual dentro de um único framework, pela primeira vez unificando modelos de mundo e modelos de ação em uma escala industrial de 1 bilhão de parâmetros. Os resultados relacionados já foram selecionados para a conferência de robótica RSS, e os pesos do modelo e o código de treinamento já estão abertos. Eles não se concentram em escolher entre VLA ou modelo de mundo, mas adotam uma abordagem mais prática: compartilhar o mesmo modelo para previsão e execução, aproveitando as vantagens de cada um e compensando suas fraquezas.

Na nossa visão, “substituição” e “fusão” não têm certeza absoluta de certo ou errado, apenas escolhas diferentes em estágios distintos. O VLA não morrerá realmente, e os modelos mundiais não são revoluções que derrubam tudo; eles complementam a capacidade mais ausente do VLA: a previsão física. A relação final entre ambos será mais provavelmente uma colaboração em camadas, e não uma luta até a morte. O que realmente decide o sucesso de uma rota nunca foi o quão moderno o conceito é, mas quem consegue primeiro conectar a cadeia de dados, simulação e implantação em máquinas reais, permitindo que robôs entrem verdadeiramente em cenários reais.

O modelo mundial ainda não foi implementado, mas já se levantou uma euforia conceitual excessiva

Quando o entusiasmo conceitual precede a implementação técnica, a bolha é quase um produto inevitável. Na atual corrida dos modelos de mundo, pelo menos três bolhas preocupantes já emergiram.

A primeira camada é definir a bolha. O modelo mundial de hoje tornou-se uma cesta onde tudo pode ser colocado. Yann LeCun o define como uma previsão do estado mundial em camada abstrata, Li Feifei o define como uma representação de espaço 3D interativo, a NVIDIA o posiciona como um simulador generativo de IA física, startups usam geração de vídeo como substituto, e outras apenas renomeiam motores de simulação tradicionais como modelos mundiais. Já há dezenas de empresas no país que afirmam estar desenvolvendo modelos mundiais, mas provavelmente não estão se referindo à mesma coisa. Quando um conceito técnico pode ser interpretado infinitamente, ele frequentemente perde seu significado como padrão técnico. Por trás da generalização da definição estão a necessidade de financiamento e a narrativa de marketing, afinal, chamar de “modelo mundial” é sempre mais valioso do que chamar de “ferramenta de geração de vídeo” ou “solução de otimização de simulação”.

A segunda bolha é a bolha de poder de processamento. A linha principal de treinamento de modelos mundiais baseia-se em quantidades massivas de dados de vídeo e poder de processamento extremamente elevado — exatamente o terreno favorável da NVIDIA. Jensen Huang declarou diretamente na conferência GTC que, até 2027, os chips Blackwell e Rubin, juntamente com os sistemas complementares projetados para modelos de inteligência embutida, gerarão pelo menos um trilhão de dólares em receita para a NVIDIA. De certa forma, a iniciativa das principais empresas da Silicon Valley de promover a rota do “modelo mundial universal multimodal” se alinha perfeitamente com a lógica comercial da NVIDIA de “vender infraestrutura de poder de processamento”. No entanto, a barreira de entrada para essa abordagem é praticamente ilimitada para a maioria das empresas: equipes menores que já investiram em VLA já têm dificuldade em arcar com tais custos afundados, muito menos iniciar do zero na corrida dos modelos mundiais. Quando todos discutem a mesma rota de alto poder de processamento, mas poucos conseguem calcular claramente a relação entre investimento e retorno, isso em si é um sinal de bolha.

A terceira e mais fatal é a bolha de implementação. Todos os narrativas conceituais precisam finalmente responder à mesma pergunta: será que realmente melhoram o desempenho real? E a realidade é que a lacuna de transição da simulação para o mundo real não desaparecerá automaticamente apenas porque o nome do modelo mudou de VLA para WAM. Um pequeno artefato de colisão, anti-gravidade ou fronteira nebulosa em um vídeo se tornará um erro de percepção física fixo no treinamento de robôs; uma previsão que parece plausível, mas viola as leis da física, pode ser ainda mais enganosa para o robô real do que não usar nenhum modelo para treinamento.

O cientista-chefe da Ant Spirit, Shen Yujun, apontou a diferença fundamental: modelos gerativos no mundo digital podem perseguir alta definição e realismo, e um pouco de lentidão não importa; já os modelos do mundo físico têm como requisito primordial ser rápidos, estáveis e precisos, capazes de fornecer feedback em tempo real e suportar ações. Muitas equipes se concentram em tornar os cenários no mundo digital cada vez mais realistas, mas ignoram que os dados de interação física real são o recurso mais escasso. Modelos do mundo podem produzir métricas impressionantes em simulações, mas enquanto não validarem valor real em linhas de produção fabril, armazéns logísticos ou estradas abertas, permanecem como explorações tecnológicas em laboratório, e não como infraestrutura industrial.

Então, qual deveria ser o modelo do mundo para Physical AI ou inteligência embodied? A resposta nunca está nos vídeos de demonstração de lançamentos, mas nas necessidades de cenários reais. Seu critério central de avaliação nunca foi “o mundo gerado é suficientemente realista?”, mas sim “consegue ajudar máquinas a agir melhor no mundo físico?”, “consegue reduzir o custo de tentativa e erro?”, “consegue melhorar a capacidade de generalização?”, “consegue ser integrado em ciclos de negócios reais?”

Do ponto de vista das práticas atuais da indústria, os participantes verdadeiramente alinhados com o caminho correto estão todos fazendo a mesma coisa: transformar os modelos mundiais de uma abordagem “orientada a apresentação” para uma “orientada a tarefas”. Em outras palavras, a forma final dos modelos mundiais não é um “produto” independente, mas sim uma capacidade fundamental embutida em diversos sistemas físicos. Ela está oculta nos backends de simulação de veículos autônomos, nos módulos de planejamento de movimentos de robôs e nos sistemas de previsão das linhas de produção fabril, realizando silenciosamente previsões, tentativas e correções. Na maioria das vezes, os usuários nem percebem sua existência.

Essa é a era dos modelos mundiais, embora eles também possam não ser chamados de modelos mundiais.

Modelos Mundiais em Inteligência Embodiment: Um Caminho a Seguir Além da Geração Visual

Modelos mundiais não são equivalentes a "gerar imagens"

VLA está morto? Modelos mundiais não são revoluções, são complementos

O modelo mundial ainda não foi implementado, mas já se levantou uma euforia conceitual excessiva