Fei-Fei Li quer resolver um debate que vem se arrastando na comunidade de IA há algum tempo: o que realmente conta como um “modelo de mundo” e o que é apenas um gerador de vídeo sofisticado vestindo um jaleco.
O professor de Stanford e CEO da World Labs publicou “Uma Taxonomia Funcional de Modelos Mundiais” em 3 de junho de 2026, apresentando um framework que classifica os modelos mundiais em três funções distintas: renderizador, simulador e planejador. O artigo argumenta que esses três papéis formam um loop interconectado que sustenta o que Li chama de “inteligência espacial”, o tipo de IA que realmente consegue compreender e interagir com ambientes físicos.
Três empregos, um modelo
A função de renderização lida com a geração visual. Ela cria representações visuais de alta fidelidade a partir de entradas de dados. Isso é exatamente o que a maioria dos “modelos de mundo” atuais realmente fazem, e Li faz o argumento pontual de que sistemas presos nesse nível não são verdadeiros modelos de mundo.
A função simuladora vai mais fundo. Ela não apenas mostra como algo parece. Ela modela física, causa e efeito, e a maneira como os objetos interagem ao longo do tempo. Um renderizador pode mostrar uma bola rolando em direção à borda de um penhasco. Um simulador sabe que a bola cairá.
A função do planejador utiliza a compreensão do simulador sobre como o mundo funciona para traçar cursos de ação. É a diferença entre uma IA que observa uma cozinha e uma que consegue descobrir como fazer um sanduíche para você sem quebrar todos os pratos do armário.
Essas três funções não operam isoladamente. O artigo de Li as descreve como formando um loop contínuo, no qual cada capacidade alimenta e fortalece as demais. Um renderizador informa ao simulador sobre o contexto visual, o simulador fornece ao planejador previsões fundamentadas na física e os objetivos do planejador moldam o que o renderizador e o simulador precisam priorizar.
Por que a robótica precisa disso tão urgentemente
Li argumentou, incluindo em um manifesto anterior de novembro de 2025, que modelos mundiais podem preencher a lacuna entre simulação e realidade. Se você conseguir construir uma réplica digital suficientemente precisa do mundo físico, os robôs podem treinar lá primeiro.
A World Labs já começou a colocar essa teoria em prática. A empresa lançou o Marble, seu primeiro produto comercial, em novembro de 2025. O Marble gera mundos 3D persistentes e de alta fidelidade a partir de prompts multimodais, o que significa que você pode descrever um ambiente usando texto, imagens ou outros inputs, e o Marble cria um espaço 3D navegável a partir dessa descrição. O sistema já está sendo utilizado em ambientes de simulação robótica.
Diferentemente de um vídeo, que é uma sequência fixa de quadros, os mundos da Marble mantêm geometria e física consistentes à medida que você se move por eles. Um robô treinado em um ambiente da Marble pode se aproximar da mesma prateleira de ângulos diferentes e encontrar os mesmos objetos nas mesmas posições.
O dinheiro por trás da missão
A World Labs arrecadou US$ 1 bilhão em fevereiro de 2026, ampliando uma rodada anterior de US$ 230 milhões. A lista de investidores inclui AMD, Autodesk, NVIDIA e Fidelity.
Os US$ 1,23 bilhão em financiamento total colocam a World Labs em companhia rara para uma startup de IA focada em inteligência espacial, em vez da corrida armamentista de modelos de linguagem grande que tem dominado as manchetes.
