Em 3 de junho de 2026, a equipe da World Labs, em parceria com a professora da Universidade de Stanford, Fei-Fei Li, publicou um artigo de análise conceitual com um título direto, quase sem adornos: “Uma Taxonomia Funcional de Modelos do Mundo”. A primeira frase do artigo desvenda um acordo tácito da indústria: “Modelos do mundo são um dos termos mais importantes e mais abusados no campo atual da inteligência artificial.”
O contexto desta frase é algo que qualquer pessoa que tenha acompanhado o setor de IA conhece bem.
Em fevereiro de 2024, a OpenAI lançou o modelo de geração de vídeo Sora, cujo relatório técnico continha claramente o título “Modelos de geração de vídeo como simuladores do mundo”. Na época, Jim Fan, diretor de robótica da NVIDIA, deixou um comentário no LinkedIn que passou a ser amplamente citado: “Sora é, essencialmente, um modelo do mundo que permite apenas a ausência de ação como única ação”. Por outro lado, segundo relatos públicos, a equipe de IA da Tesla mencionou repetidamente em eventos públicos que o componente de previsão interno do sistema de direção autônoma total é chamado de “modelo do mundo” ou “simulador do mundo”. Motores de jogos, ferramentas de geração 3D e modelos de inteligência embutida — diversos produtos e tecnologias — foram colocados no mesmo saco e rotulados com o mesmo rótulo.
Um gerador de vídeos, uma rede de previsão para automação, um modelo de controle robótico e um motor físico — o que eles têm em comum? Quase nada. Mas todos são chamados de “modelos do mundo”.
Após mais de dois anos de confusão conceitual, finalmente alguém tentou organizar sistematicamente tudo isso. A equipe de Li Fei-Fei não lançou um novo modelo, não divulgou um novo benchmark e não demonstrou nenhuma funcionalidade de produto. Eles fizeram algo mais fundamental: retornaram à origem teórica do processo de decisão markoviano parcialmente observável e reduziram todos os sistemas atualmente chamados de “modelos do mundo” a três projeções diferentes de um único ciclo cognitivo.
As três projeções são: renderizador, simulador e planejador. No quadro de classificação da World Labs, o Sora e modelos semelhantes de geração de vídeo pertencem ao renderizador.
Por que um termo pode abranger tantos significados tão contraditórios?
Para entender a origem dessa confusão, é necessário primeiro questionar uma pergunta mais básica: quando uma empresa diz “estamos desenvolvendo modelos mundiais”, o que ela realmente quer dizer?
Para a OpenAI, o objetivo do Sora é “compreender e representar o mundo físico em vídeos”. De acordo com o relatório técnico, o Sora, ao aprender padrões estatísticos em grandes quantidades de dados de vídeo, consegue gerar imagens que obedecem ao senso comum visual: copos caem e se quebram no chão, aviões de papel voam quando lançados, e pessoas alternam os passos ao caminhar. Essas cenas parecem “entender a física”.
Para a Tesla, o "modelo do mundo" é a rede neural no sistema FSD que prevê a trajetória de movimento dos participantes da via nos próximos segundos. Ele precisa gerar posições 3D, velocidade e orientação precisas, para que o módulo de planejamento de trajetória calcule decisões de condução seguras. Este modelo não precisa gerar pixels; ele produz vetores e distribuições de probabilidade.
Para empresas de robótica, um “modelo do mundo” é um mecanismo interno de simulação que permite que braços robóticos prevejam “Se empurrar esta xícara 5 centímetros para a esquerda, ela cairá?”. Ele precisa compreender as propriedades dos objetos, a mecânica de contato e a estabilidade, produzindo uma avaliação da viabilidade da ação.
Os objetivos das três categorias de empresas são completamente diferentes. As empresas de geração de vídeo se preocupam com a fidelidade dos pixels, as empresas de automação autônoma se preocupam com a precisão da previsão do estado físico e as empresas de robótica se preocupam com a previsibilidade das consequências dos movimentos. Todas estão desenvolvendo “modelos do mundo”, mas não estão fazendo a mesma coisa.
World Labs aponta diretamente para o núcleo do problema no artigo: esses sistemas são todos chamados pelo mesmo nome porque, de fato, cada um deles representa um aspecto da "compreensão do mundo". Contudo, cada um realiza apenas uma etapa do ciclo completo de cognição, mas é apresentado por linguagem de marketing, mídia e narrativas de capital como um modelo completo do mundo.
Outro impulsionador da confusão conceitual é a tensão intrínseca ao próprio termo. A expressão “modelo do mundo” carrega uma atribuição narrativa grandiosa, soando mais imaginativa e capaz de sustentar altas valorações e histórias de financiamento do que “modelo de geração de vídeo” ou “modelo de previsão de vídeo”. Quando a capacidade técnica não consegue acompanhar as expectativas do público, torna-se inevitável que o conceito se torne uma ferramenta de marketing.
Voltando aos anos 1960, o que seria um “modelo mundial” completo?
O framework de classificação da World Labs é baseado em uma teoria aparentemente antiga: processo de decisão markoviano parcialmente observável.
Este quadro descreve um ciclo completo de interação entre um agente e o ambiente. O agente encontra-se em um determinado estado do ambiente, executa uma ação que altera o estado do ambiente, e, por meio de sensores, obtém uma observação parcial que desencadeia uma atualização do estado interno; esse estado cognitivo atualizado impulsiona a próxima ação. O ciclo se repete.
Neste framework, as funções completas do "modelo do mundo" devem incluir três etapas: gerar observações a partir do estado (pixels, nuvens de pontos etc. vistos pelos olhos humanos ou capturados por sensores), prever o próximo estado a partir da ação e do estado atual (prever mudanças físicas), e gerar ações a partir das observações e do objetivo (planejamento de decisão).
Os modelos de linguagem aprendem padrões estatísticos de sequências de texto, enquanto os modelos do mundo aprendem as características estatísticas do espaço e do tempo. Como a luz reflete em superfícies de diferentes materiais, como os objetos se movem sob a influência da gravidade, como a energia é transferida após colisões de corpos rígidos — esses são os padrões que os modelos do mundo buscam capturar.
A equipe do World Labs aponta no artigo que todos os sistemas atualmente denominados "modelos do mundo" são, na verdade, apenas projeções de uma única etapa do ciclo completo descrito acima. Alguns sistemas realizam apenas a renderização "do estado para a observação", outros apenas a inferência de estado "da ação para o próximo estado", e alguns apenas o planejamento "da observação para a ação". Cada um deles captura apenas um arco do ciclo, mas é rotulado como se representasse o círculo inteiro.
O valor deste framework de análise reside em fornecer um sistema de comparação que vai além das estratégias de marketing. Independentemente de como uma empresa envolve seu produto, basta colocá-lo de volta no ciclo POMDP, observar o que ele recebe como entrada, o que produz como saída e quais etapas estão faltando, para que seus limites de capacidade sejam totalmente expostos.
Limites de capacidade dos renderizadores, simuladores e planejadores
Na taxonomia da World Labs, a primeira categoria é definida como “renderizadores”. Seu objetivo central é gerar saídas de pixels de alta fidelidade orientadas à percepção visual humana. A entrada é uma representação do estado do ambiente (pode ser uma descrição textual, parâmetros de cena 3D ou codificação implícita), e a saída é uma sequência contínua de quadros.
A direção da otimização do renderizador é o realismo visual, e não a precisão física. O artigo da World Labs esclarece que os edifícios gerados pelo renderizador podem estar “instáveis”, pois ele não resolve realmente as equações da mecânica estrutural; os respingos de líquido gerados podem parecer realistas, mas o volume do líquido, a velocidade do fluxo e a força de impacto podem não corresponder em nada aos valores físicos reais. Portanto, esse tipo de modelo não pode ser usado para projeto arquitetônico, treinamento de robôs ou qualquer tarefa que exija simulações fisicamente precisas.
O Genie 3 do Google, diversos modelos de texto para vídeo e quase todas as ferramentas de geração de vídeo por IA pertencem a esta categoria. O Sora também está incluído.
A segunda categoria é o “simulador”. Seu objetivo principal não é gerar imagens para visualização humana, mas sim gerar estados precisos para uso em cálculos posteriores. A entrada consiste no estado atual do ambiente e nas forças externas (ou ações), e a saída é o próximo estado, fiel às leis físicas e geométricas do mundo real. Os estados gerados pelo simulador podem ser utilizados para análise de tensões, cálculo de consumo energético e detecção de colisões, além de servirem como entrada para renderizadores a fim de gerar imagens visualizáveis; no entanto, seu valor central reside na computabilidade do próprio estado.
O NVIDIA Omniverse é um exemplo típico desse tipo de sistema. Não é um modelo nativo de IA, mas sim uma plataforma de gêmeos digitais que integra motores físicos tradicionais e cálculos acelerados por IA. A World Labs avalia no artigo que os simuladores são a ponte entre renderização e planejamento, mas a escassez de dados de anotação física 3D de alta qualidade é o principal gargalo. Segundo estimativas da World Labs no artigo, os dados utilizados para treinar esses modelos são alguns ordens de grandeza menores do que os vídeos disponíveis na internet.
A terceira categoria é o “planejador”. Seus inputs são dados de observação (imagens da câmera, nuvens de pontos do LiDAR, leituras de sensores táteis, etc.) e instruções de objetivo, e sua saída é qual ação deve ser executada em seguida. Modelos VLA (visuais-linguísticos-ação) e Modelos de Ação Mundial pertencem a esta categoria.
As diferenças entre as três categorias não são discrepâncias técnicas sutis, mas sim uma divisão funcional fundamental. O renderizador produz pixels para serem vistos por humanos, o simulador produz estados para serem calculados por máquinas e o planejador produz ações para serem executadas por atuadores. Um sistema pode possuir simultaneamente múltiplas capacidades, mas quando a maioria dos sistemas chamados de “modelos do mundo” fazem essencialmente apenas renderização, equiparar “renderização” com “compreensão do mundo” é um grave desajuste cognitivo.
Uma discussão que durou dois anos: Sora é realmente um modelo mundial?
Em fevereiro de 2024, a OpenAI lançou o Sora, cujo título do relatório técnico era diretamente “Modelo de geração de vídeo como simulador do mundo”. Essa escolha de palavras imediatamente provocou intensos debates na comunidade acadêmica e entre desenvolvedores.
Os apoiadores argumentam que os vídeos gerados pelo Sora demonstram consistência espacial 3D, persistência de objetos e alguma compreensão intuitiva das interações físicas. Um hambúrguer mordido deixa marcas de dentes, e um cachorro correndo na neve espalha flocos de neve — esses detalhes parecem indicar que o modelo aprendeu algumas leis físicas.
O argumento central dos oponentes vem da definição clássica de modelo do mundo no campo do aprendizado por reforço: um modelo do mundo deve ser capaz de prever transições de estado com base em ações. Ou seja, dado um estado atual e uma entrada de ação, o modelo deve produzir o próximo estado após a ação. O Sora não consegue fazer isso. Os usuários não podem dizer ao Sora “empurre aquela xícara para a esquerda” e depois observar se a xícara cairá, para qual direção ela cairá ou para onde os cacos voarão.
O comentário de Jim Fan capturou precisamente essa contradição: “Sora é, essencialmente, um modelo do mundo, mas só permite ações nulas (no-op) como única ação.” Isso significa que Sora realmente prevê como o ambiente muda ao longo do tempo, mas esse processo de mudança não é influenciado por nenhuma intervenção externa; ele se desenvolve apenas ao longo da cadeia causal inerente aos dados de vídeo. Ele não está realizando inferência interativa, mas sim continuando uma sequência de observações passivas.
No subreddit r/MachineLearning do Reddit, muitos pesquisadores de aprendizado por reforço expressaram críticas mais afiadas: sistemas que não conseguem prever transições de estado com base em ações não podem ser chamados de modelos do mundo, apenas de modelos de previsão de vídeo.
O quadro de classificação da World Labs fornece uma resposta definitiva a esse debate. No ciclo POMDP, as ações são a entrada chave que impulsiona as transições de estado; um sistema sem essa entrada é apenas uma projeção da etapa de "geração de observações" do ciclo cognitivo completo. O Sora é um renderizador, não um modelo mundial completo, muito menos um simulador mundial.
Mas isso não significa que o Sora não tenha valor. O renderizador resolve um problema diferente: como gerar imagens que atendam às expectativas visuais humanas. Esse problema, por si só, é extremamente difícil e possui enorme valor comercial. O problema está em apresentar a capacidade de renderização como se fosse “compreensão do mundo”, o que pode enganar tomadores de decisão tecnológica e investidores, levando-os a acreditar que esses modelos já possuem capacidades de inferência física ou interação corporal.
Valor da indústria da esclarecimento de conceitos
Esclarecer os limites da definição de “modelo mundial” não é um exercício acadêmico de detalhes linguísticos. Ele afeta diretamente a escolha tecnológica, a avaliação de investimentos e o nível de percepção pública sobre as capacidades da IA.
Para uma empresa de fabricação que está avaliando se utilizar um determinado “modelo do mundo” para treinar robôs, é essencial compreender se esse modelo é um renderizador, um simulador ou um planejador, a fim de evitar milhões de dólares em erros e tentativas. Um modelo que apenas gera imagens em vídeo, por mais realistas que sejam, não pode substituir o cálculo preciso das forças atuantes nos objetos, suas trajetórias e as consequências das colisões.
Para instituições de investimento, distinguir entre três tipos de projeções permite identificar com maior precisão a posição tecnológica de um projeto. Uma startup que se autodenomina “modelo do mundo”, mas cujo produto é, na essência, um renderizador, tem como concorrentes empresas de geração de vídeo, e não plataformas de gêmeos digitais ou modelos de controle robótico. Isso determina diretamente a forma de estimar o tamanho do mercado e a escolha das empresas de referência.
Para a comunidade acadêmica, uma classificação clara é um pré-requisito para estabelecer referências comparáveis. Se o termo “modelos do mundo” continuar sendo generalizado, os pesquisadores terão dificuldade em definir o que constitui uma melhoria ou uma ruptura, e a revisão por pares será baseada em ambiguidades.
A World Labs também aponta no artigo que esclarecer os conceitos não tem como objetivo criar oposição. A direção futura será a fusão dos três tipos de projeções. Um modelo que realmente compreenda as propriedades físicas de uma xícara deveria ser capaz de renderizar simultaneamente sua aparência visual, simular o processo físico quando ela é derrubada e planejar como um robô pode segurá-la de forma estável. Mas, antes que a tecnologia alcance esse estágio, reconhecer os limites individuais é mais realista do que imaginar a fusão.
Segundo estimativas da World Labs no artigo, simuladores e tecnologias de gêmeos digitais, representados pelo NVIDIA Omniverse, visam mercados potenciais superiores a trilhões de dólares em setores como fábricas, armazéns e cadeias de suprimentos. Esse número deriva da avaliação das próprias empresas; o momento em que o mercado alcançará realmente esse tamanho depende da capacidade dos simuladores de superar a limitação da escassez de dados físicos 3D de alta qualidade.
Para o setor de IA no estágio atual, o reconhecimento mais importante talvez seja simples: ser capaz de gerar vídeos realistas não equivale a compreender o mundo físico; ser chamado de modelo do mundo não significa realmente simular o mundo. Transcender a linguagem de marketing e examinar quais entradas um sistema recebe, quais resultados produz e qual componente está faltando no ciclo POMDP é a forma mais honesta de avaliar os limites da capacidade técnica.
