Autor: Matt White, Chefe Tecnológico Global de IA da Linux Foundation
Compilado por: Felix, PANews

Wang Xingxing (CEO da Unitree Technologies) e Matt White
Há algumas semanas, em Xangai, um amigo de viagem (inteligente, que normalmente lê notícias e observa o mundo, mas não tem muito conhecimento sobre robótica) fez, durante o jantar, a pergunta que eu estava esperando desde o início da viagem.
Os cães robóticos que vemos correndo por aí, os robôs humanóides que demonstram artes marciais no palco de demonstração da Unitree e os braços mecânicos que dobram roupas — como eles conseguem fazer isso? Eles são impulsionados por modelos de linguagem de grande porte (LLMs)? Como exatamente isso funciona? Existe algum modelo de linguagem controlando seus movimentos?
Essa é uma ótima pergunta, e, honestamente: em certo sentido, sim, mas a verdadeira história é muito mais interessante do que isso. Os robôs que você vê nas redes sociais não são ChatGPT com carcaças metálicas. Eles executam uma pilha tecnológica (várias camadas de IA trabalhando em conjunto). Essa pilha tecnológica mudou mais nos últimos três anos do que nos últimos trinta. Modelos de linguagem são apenas uma parte disso. Modelos visuais, modelos de ação, árvores de comportamento, circuitos de controle clássicos e uma nova família de sistemas chamada “modelo do mundo” também são componentes fundamentais. E o “modelo do mundo” talvez seja o desenvolvimento mais importante de todos.
Este é um artigo longo que começará desde o início, descrevendo gradualmente cada grande transformação, até chegar à fase atual: os robôs não apenas conseguem reagir ao mundo, mas também imaginar o mundo.
Um: A era pré-LLM: quando os robôs ainda eram apenas software
Durante décadas, fabricar robôs significava escrever grandes quantidades de código, e quase todo esse código não precisava ser aprendido.
Os robôs industriais clássicos são estruturas em forma de torre compostas por módulos cuidadosamente projetados. Por exemplo, o braço mecânico laranja que soldava chassi de Toyota nos anos 90, ou o BigDog da Boston Dynamics no início dos anos 2000.
- Percepção: filtrar a imagem da câmera, realizar detecção de bordas e identificar a posição da peça usando correspondência geométrica.
- Estimativa de estado: combinar codificadores de rodas, giroscópio e acelerômetro (fusão de sensores) para determinar a posição e a velocidade de movimento do robô.
- Planejamento: Dada a pose de destino, calcular um caminho sem colisões no mapa conhecido usando algoritmos como A* ou RRT.
- Controle: Na camada mais básica, o controlador PID ajusta o torque do motor centenas ou milhares de vezes por segundo para seguir esse caminho.
Esses níveis geralmente são escritos por diferentes pessoas em diferentes laboratórios e são cuidadosamente costurados juntos. Comportamentos (por exemplo, “pegue se o copo for vermelho, caso contrário, espere”) são codificados como máquinas de estado ou árvores de comportamento: fluxogramas que o robô executa passo a passo.

As vantagens deste método são evidentes. Ele é previsível e atende aos padrões de segurança. É por isso que seu carro é equipado com um sistema de freios ABS eficaz.
As desvantagens são igualmente evidentes. Esse robô só pode demonstrar seu nível de inteligência nos cenários previstos pelos engenheiros. Assim que for colocado em uma nova fábrica, novas condições de iluminação ou novas cores de copos, ele entrará em colapso. Sua capacidade de generalização é quase nula.
Dois: O aprendizado de máquina entra silenciosamente
Na década de 2010, o aprendizado profundo começou a abordar problemas na camada de percepção. Redes neurais convolucionais (CNNs) que superaram humanos na tarefa de classificação de imagens do ImageNet podiam ser treinadas novamente para detectar pontos de agarre em objetos, segmentar móveis em ambientes ou reconhecer posturas humanas. De repente, a camada de "percepção", localizada no topo da pilha tecnológica, não precisava mais ser projetada manualmente — você podia treiná-la diretamente.
Em seguida, o mecanismo de aprendizado se espalhou para a camada de "controle". Pesquisadores da Universidade da Califórnia em Berkeley, DeepMind e OpenAI demonstraram que o aprendizado por reforço (que permite que agentes robóticos tentem milhões de vezes em ambientes simulados e reforcem comportamentos eficazes) pode gerar padrões de locomoção surpreendentemente habilidosos, manipulação de objetos com as mãos (a resolução do cubo Mágico com uma mão pela OpenAI em 2019 foi um marco) e estratégias de movimento adaptativas a diferentes terrenos.
Outra linha de pesquisa paralela é o aprendizado por imitação, geralmente chamado de clonagem de comportamento: registrar centenas de tentativas de um operador humano controlando um robô para realizar uma tarefa, e depois treinar uma rede neural para prever quais ações o humano tomaria com base no que o robô observa.
A chave disso tudo é que cada estratégia aprendida é muito restrita. Treinar uma rede para pegar um bloco vermelho faz com que ela não saiba como lidar com uma xícara amarela. Treiná-la para caminhar sobre a grama faz com que ela caia no chão de azulejos. A capacidade de generalização ainda é um desafio urgente.
É digno de nota que, durante esse período, surgiu uma infraestrutura que ainda sustenta quase tudo hoje: o ROS, Robot Operating System (lançado pela primeira vez em novembro de 2007). O ROS não é um sistema operacional no sentido do Windows ou Linux, mas sim um framework de middleware, um sistema de tubulação robótica genérico. Ele permite que “nós de câmera”, “nós de navegação”, “nós de controlador de braço robótico” e dezenas de outros nós publiquem e assinem mensagens por meio de um barramento compartilhado.
A versão atual do ROS2 opera na camada inferior da maioria dos robôs científicos e comerciais em todo o mundo, desde os laboratórios da Universidade de Stanford até startups chinesas de robôs humanoides, sem exceção. Quando as pessoas falam sobre o “sistema operacional” de robôs, quase sempre se referem ao ROS2 mais os diversos pacotes de percepção, planejamento e controle que nele rodam.

ROS2: Não é um sistema operacional, mas sim um canal geral que permite que softwares robóticos independentes se comuniquem entre si.
Três: Aplicação de LLM no campo de robótica
Em seguida, o ChatGPT foi lançado.
De repente, surgiu algo assim: LLM. Ele é capaz de ler instruções simples em inglês, realizar raciocínio em múltiplos passos, escrever código e chamar funções. Robóticos quase imediatamente perceberam que este era exatamente o elo ausente que vinham tentando resolver há anos. A parte mais difícil para fazer robôs realizarem tarefas úteis em lares ou escritórios geralmente não é o controle de motores, mas a interação humano-robô: como as pessoas informam ao robô o que fazer, e como o robô divide esse objetivo em ações atômicas que já sabe executar?
O primeiro uso de LLMs em robôs foi tratar o modelo de linguagem como um compilador de linguagem natural sobre o ROS. O padrão é o seguinte:
Traiga a xícara de café da bancada da cozinha e coloque-a sobre minha mesa.
O LLM gera um plano com base na lista de habilidades atômicas disponíveis para o robô: pode ser uma sequência de chamadas de função, um autômato de estados ou uma árvore de comportamento escrita em XML.
Os nós ROS2 executarão o plano passo a passo. Se algum passo falhar, as informações de falha serão relatadas ao LLM para que ele replaneje.
O projeto SayCan do Google em 2022 foi uma versão muito concisa dessa ideia: o LLM propõe habilidades, um modelo independente de "afordabilidade" avalia a probabilidade atual de sucesso de cada habilidade, e o robô escolhe a combinação de habilidades com a pontuação conjunta mais alta. Frameworks abertos como ROS-LLM, ROSGPT e ROSA, liderados pelo laboratório de pesquisa da Huawei, promoveram esse modelo.
Isso é de fato um avanço significativo. De repente, você pode dizer ao robô “limpe a mesa e coloque os recicláveis na lixeira azul”, e ele tentará executar algumas ações razoáveis. Mas note que ainda existem alguns problemas: o modelo de linguagem ainda está no nível de planejamento. As instruções de ação reais são geradas por controladores inferiores, cuidadosamente projetados ou treinados especificamente. O modelo de linguagem é apenas um agendador inteligente, não responsável por acionar.

Quatro: Modelos visuais-linguísticos-de-ação (VLA), quando o cérebro começa a controlar robôs

O robô Keenon XMAN-R1 está retirando medicamentos das prateleiras na farmácia automatizada da empresa Galbot, em Pequim. Apenas 100 mil dólares.
A próxima grande evolução será mais difícil, mas também mais importante. Os pesquisadores propuseram uma pergunta mais ambiciosa: e se o modelo não apenas pudesse planejar, mas também gerar diretamente instruções de ação? E se imagens da câmera e instruções de linguagem fossem inseridas diretamente em uma rede neural, resultando nos movimentos articulares para o próximo milissegundo?
Este é o modelo visuo-linguístico-ativo (VLA). Ele agora é a principal abordagem nos campos de robôs humanoides e robôs quadrúpedes.
O primeiro robô de visão e linguagem amplamente conhecido foi o RT-2, lançado pelo Google DeepMind em 2023. Sua genialidade reside em usar um grande modelo de visão e linguagem (já treinado para descrição de imagens e respostas a perguntas) e continuar treinando-o com dados de demonstrações robóticas, tratando ações robóticas como outro tipo de token a ser previsto. A mesma rede neural que antes poderia gerar “um gato sentado sobre um tapete” agora pode gerar uma sequência de tokens que codificam “mover a pata direita 3 centímetros para frente, fechar a pata, levantar 5 centímetros”. O raciocínio e a ação são realizados no mesmo modelo.
Em seguida, em meados de 2024, uma equipe liderada pela Universidade de Stanford lançou o OpenVLA, um modelo VLA de código aberto com 7 bilhões de parâmetros, treinado no conjunto de dados Open X-Embodiment. Esse conjunto reúne mais de um milhão de fragmentos de treinamento provenientes de 21 laboratórios de pesquisa diferentes, abrangendo 22 tipos distintos de corpos robóticos. Pela primeira vez, pessoas fora do Google puderam baixar um modelo robótico geral e começar a modificá-lo. Ele transformou o campo inteiro da noite para o dia.
Atualmente, os principais VLA, embora em número reduzido, estão se desenvolvendo rapidamente:
- π0 e π0.5 da Physical Intelligence: excelente adaptação a tarefas.
- NVIDIA Isaac GR00T N1.7: pesos abertos, licença comercial, projetado especificamente para robôs humanóides, é o modelo que a maioria das empresas de hardware chinesas atualmente está utilizando seus próprios dados para pós-treinamento.
- Helix e Helix-02 atualizado da Figure AI: tecnologia proprietária, mas de grande importância arquitetônica.
- AgiBot's Genie Envisioner: plataforma baseada no modelo mundial chinês.
- SmolVLA, NORA, ACoT-VLA, CogACT: a academia está vendo um aumento no número de VLA, explorando diferentes direções de design.
Como funciona o VLA (sem fórmulas matemáticas)
Você pode imaginar o VLA como a fusão de três sinais de entrada em um único sinal de saída.
O primeiro fluxo de dados é o dado visual. Câmeras RGB (às vezes sensores de profundidade ou LiDAR), às vezes sensores táteis nas pontas dos dedos, são processados por um codificador visual (geralmente um modelo Transformer como DINOv2 ou SigLIP), que comprime cada imagem em centenas de “tokens visuais”, resumindo o que o robô vê.
O segundo fluxo de dados é a linguagem. Sua instrução (“Passe-me a chave de fenda”) é convertida em tokens, assim como no ChatGPT.
Esses dois fluxos de dados são conectados e inseridos em um “backbone” Transformer (geralmente um pequeno modelo de linguagem de código aberto, como Qwen3 ou Llama). Esse backbone é responsável pelo raciocínio, combinando as informações que ele vê com as informações para as quais foi perguntado.
Terceiro fluxo de dados: ação, fluindo da outra extremidade. Aqui é onde as diferentes arquiteturas divergem:
- Token de ação discreta: o modelo gera diretamente tokens que podem ser decodificados como ângulos articulares ou posições do efetor final, assim como o ChatGPT gera palavras. Este método é simples, mas pode causar travamentos em operações de alta frequência.
- Head de ação de diffusion ou flow-matching: uma rede micro independente recebe a saída do backbone e desfaz o ruído para gerar uma trajetória suave de posições articulares, assim como modelos de diffusion de imagem, mas gerando movimento. É isso que o π0 faz, produzindo ações mais suaves e naturais.
- Action chunking: Instead of predicting the next single instruction, predict the entire set of instructions for the next half-second to smooth out jitter.

No modelo VLA: dois fluxos de entrada, saída de instruções de movimento, raciocínio e ação integrados em uma única rede.
Essa é a mudança arquitetônica crucial: inferência e ação não são mais separadas. Ensinar a rede neural a identificar uma xícara também a ensina a pegá-la. É esse acoplamento que permite que as VLA realizem generalizações, algo que seus predecessores não conseguiam fazer.
Cinco: Estratégia de Cérebro Duplo, como LLM e VLA trabalham juntos
Há um detalhe raramente explicado em marketing. Os robôs humanóides de melhor desempenho hoje não executam um único sistema VLA, mas sim dois modelos com velocidades diferentes que se comunicam entre si. Isso às vezes é chamado de arquitetura de sistema duplo ou sistema 1 / sistema 2, inspirada no quadro psicológico de Daniel Kahneman, que sustenta que os humanos possuem um cérebro intuitivo rápido e um cérebro reflexivo lento.
O Helix da Figure AI tornou esse design clássico, e agora ele (e suas variantes) é quase universalmente imitado. Em particular, o NVIDIA GR00T N1.7 adotou esse design, assim como a maioria dos robôs humanóides chineses. Sua estrutura é a seguinte:
- Sistema 2 (S2): cérebro de pensamento lento. Um modelo visuo-linguístico com 7 bilhões de parâmetros, operando a uma frequência de aproximadamente 7–9 Hz (ou seja, 7 a 9 vezes por segundo). Seu trabalho é observar cenas, interpretar instruções, realizar raciocínio em múltiplos passos (por exemplo, “a tigela está atrás da caixa de cereal; preciso mover a caixa primeiro”) e emitir intenções de alto nível — geralmente um conjunto compacto de vetores internos, e não palavras em si.
- Sistema 1 (S1): Cérebro de reação rápida. Um modelo de política visuomotora muito menor (aproximadamente 80 milhões de parâmetros), operando a 200 Hz. Ele recebe o vetor de intenção de S2 mais os dados dos sensores mais recentes e gera instruções articulares contínuas. Ele não possui qualquer tipo de “pensamento” real, apenas reage.
Recentemente, a empresa Figure adicionou o System 0 ao Helix-02. Localizado abaixo do sistema de dois cérebros, é uma camada reflexiva, não uma terceira camada cognitiva. Trata-se de uma rede com 10 milhões de parâmetros, operando a 1 kHz, responsável por gerenciar o equilíbrio básico e a coordenação corporal inteira, substituindo mais de 100 mil linhas de código C++ de controle de movimento escrito manualmente. Você pode pensar no S0 como uma medula espinhal adquirida: ela não realiza raciocínio nem planejamento, apenas mantém o corpo ereto e coordenado, enquanto o pensamento é conduzido pelo sistema de dois cérebros acima.

A arquitetura de dois cérebros dos robôs humanoides modernos: o Sistema 2 pensa lentamente, o Sistema 1 reage rapidamente—abaixo deles há uma camada de reflexo do Sistema 0, responsável por manter o equilíbrio, o contato tátil e a coordenação corporal completa
Essa divisão decorre das limitações da física. Se comandos de movimento forem emitidos apenas a cada 200 milissegundos (a velocidade de operação de um grande VLA), os movimentos do robô serão tão lentos quanto se estivessem ocorrendo debaixo d'água. A taxa de atualização dos comandos de movimento deve ser mais rápida do que a oscilação natural das articulações que controla, o que significa que são necessárias centenas ou milhares de atualizações por segundo. Nenhum modelo Transformer com 7 bilhões de parâmetros consegue operar tão rapidamente em um robô alimentado por bateria.
Portanto, as tarefas cognitivas são divididas: o modelo grande e lento é responsável pelo pensamento; o modelo pequeno e rápido é responsável pela ação. Eles não se comunicam em inglês, mas por meio de vetores latentes aprendidos: o modelo lento emite objetivos abstratos, e o modelo rápido sabe como interpretá-los.
Seis: Questões sobre nuvem, computação de borda e localização do “cérebro”
Onde exatamente são realizados todos esses cálculos?
Atualmente, existe quase um consenso forte, quase ideológico, entre as equipes de robôs de que os circuitos de controle centrais relacionados à segurança devem operar localmente. Há duas razões para isso:
Latência. O tempo de ida e volta da rede Wi-Fi ou celular é de pelo menos 30-80 ms. Os comandos de ação precisam ser atualizados a cada 1-5 ms. Esse ciclo de rede simplesmente não consegue funcionar corretamente.
Confiança. Robôs operam em fábricas, armazéns, cozinhas, hospitais e outros locais. A conexão de rede pode cair a qualquer momento. Se um robô parar assim que o Wi-Fi for interrompido, ele se tornará um risco à segurança.
Então, a divisão moderna é aproximadamente a seguinte:
Embutido (local), executando em dispositivos como o módulo NVIDIA Jetson Thor ou AGX Thor (aproximadamente 2.000 TFLOPS, 128 GB de memória, consumo de energia de 40 a 130 W):
- Todas as funções de S0/S1: equilíbrio, movimento, controle fino dos movimentos.
- VLA em si (sistema 2), para se adaptar às limitações de hardware, está sendo cada vez mais quantizado para formatos FP8 ou FP4. Modelos na faixa de 2 a 7 bilhões de parâmetros agora podem ser executados localmente no dispositivo.
- Percepção, fusão de sensores e programas de monitoramento de segurança que podem cobrir qualquer outra operação.
Nuvem ou servidor remoto (se houver):
- Interface conversacional (“Ei, robô, o que eu devo fazer para o jantar?”): essas interfaces podem tolerar atrasos.
- Cluster learning: Thousands of robots send remote operation data back to the server to be aggregated into the next version of the model.
- É necessário realizar planejamento de longo prazo em larga escala, possivelmente utilizando modelos de escala avançados.
- Painel e monitoramento do operador.
Além disso, existe uma camada intermediária em crescimento: servidores de borda locais, localizados em fábricas ou armazéns, que se comunicam com clusters de robôs por meio de redes locais, com latência de apenas alguns milissegundos. LLMs maiores podem ser implantados nesse nível, responsáveis por executar tarefas de agendamento avançadas que os robôs individuais não precisam gerenciar sozinhos.
A onda de robôs humanoides na China é construída com base nessa suposição: Unitree, AgiBot, Xpeng IRON, Fourier, EngineAI. Seus robôs são equipados com capacidade de computação embarcada (geralmente Jetson, às vezes também chips nacionais como o Huawei Ascend), enquanto a nuvem é usada para aprendizado em cluster e interfaces de conversa, e não para loops de controle.

Localização real de execução do cérebro do robô: circuitos críticos para segurança operam localmente, enquanto a nuvem é usada para processar tarefas que podem esperar
Sete: Por que os modelos de código aberto estão se tornando silenciosamente o centro das atenções
Se você apenas observar a demonstração, poderá achar que este campo é dominado por poucas empresas americanas bem financiadas. Mas a realidade é muito mais complexa. A velocidade do desenvolvimento da física baseada em IA é em grande parte determinada por modelos de pesos abertos que qualquer um pode baixar e ajustar.
Os modelos listados abaixo, embora poucos, são de grande importância:
- OpenVLA (Stanford University): O primeiro modelo robótico geral de 7B aberto.
- NVIDIA Isaac GR00T (N1, N1.5, N1.7): pesos abertos em breve, licenças comerciais também em breve; o modelo foi treinado com dezenas de milhares de horas de vídeos em primeira pessoa humanos. O GR00T N1.7 será lançado em março de 2026, momento em que qualquer usuário com um robô humanoide poderá usar gratuitamente sua arquitetura de sistema duplo.
- Physical Intelligence's π0: weights released for research.
- NVIDIA Cosmos: Modelo base de mundo aberto.
- AgiBot World: Grande conjunto de dados aberto da startup de Xangai, com demonstrações de robôs humanóides controlados remotamente.
- LeRobot da Hugging Face: uma biblioteca aberta que se tornou o ponto de encontro para todas as plataformas acima.
- mimic robotics's mimic-video: um modelo de vídeo-ação de código aberto com eficiência de amostra 10 vezes maior que as VLA tradicionais.
Isso é importante por duas razões. Primeiro, startups de robôs não precisam mais gastar dezenas de milhões de dólares para pré-treinar um modelo básico: elas podem pegar o GR00T ou o π0 e fazer o pós-treinamento com os dados dos próprios robôs. Unirobo, ZhiJi Power, Booster, Galbot e dezenas de empresas chinesas menores estão fazendo exatamente isso. É por isso que uma empresa com apenas centenas de funcionários consegue produzir robôs humanóides que conseguem andar, falar e dobrar roupas: eles estão em pé sobre os ombros de uma pilha de tecnologia aberta.
Em segundo lugar, modelos abertos são a única abordagem viável para resolver problemas de segurança. Se um modelo totalmente fechado estiver sendo executado dentro de um robô em uma linha de produção e ninguém externo tiver qualquer capacidade de inspecionar sua lógica de inferência, isso certamente será um pesadelo regulatório. Modelos abertos permitem que auditores, pesquisadores e operadores verifiquem realmente o que foi treinado no robô.
Oito: Quais outras questões ainda não foram resolvidas?
Se você já viu muitos vídeos de demonstração de robôs, certamente também viu muitos vídeos de falhas de robôs. Os robôs atuais da geração LLM+VLA são realmente impressionantes, mas também apresentam limitações óbvias. Aqui estão os problemas que eles têm:
- Recuperação no meio da tarefa. A capacidade da VLA de lidar com mudanças inesperadas é superior a qualquer tecnologia anterior. Mas quando as coisas realmente dão errado (por exemplo, falha na captura, objeto rolando, alguém entrando na área de trabalho), retornar ao curso correto ainda é uma fraqueza. O robô repetirá cegamente ações falhas.
- Eficiência de amostra. Treinar um VLA do zero requer milhares de horas de dados de operação remota. Já os humanos conseguem aprender a operar uma nova ferramenta em minutos. Essa diferença de eficiência é enorme.
- Generalização entre entidades. Um modelo treinado com o braço robótico Franka no laboratório de Stanford não pode ser perfeitamente transferido para o robô humanoide Unitree no armazém de Shenzhen. As formas físicas são diferentes.
- Tarefas de longo prazo. Qualquer tarefa que exija comportamentos contínuos por mais de 30-60 segundos e inclua múltiplos subobjetivos tende a se desviar do objetivo. Tarefas como “faça meu café da manhã” sempre permanecem inalcançáveis.
- Conhecimento físico. O VLA é treinado por imitação, não por compreensão. Ele não compreende realmente o princípio de que a água derrama quando se derruba um copo. Ele apenas viu alguns exemplos e prevê o que acontecerá a seguir com base em correspondência de padrões.
- Raciocínio espacial. Embora sejam multimodais, apresentam desempenho surpreendentemente fraco em tarefas como “contornar obstáculos em vez de atravessá-los” ou “empilhar esses objetos sem que caiam”.
Essa última série de fraquezas levou o setor a apostar em um modelo totalmente diferente.
Nove: Modelos Mundiais
Imagine se, em vez de treinar um robô para prever ações, você o treinasse para prever as consequências dessas ações.
Um Modelo Mundial (World Model) é uma rede neural que, com base no estado atual do mundo (geralmente um vídeo ou uma sequência de imagens) e em ações pré-definidas, prevê como o mundo será a seguir. Em termos simples, você pode imaginá-lo como um preditor de vídeo aprendizado com um volante: você mostra a ele os últimos segundos da câmera e diz “o robô moverá o braço 10 cm para frente”, e ele gera um vídeo realista prevendo a cena do próximo segundo.
Why is this important?
Uma vez que se tem um modelo do mundo, o robô pode pensar antes de agir. Ele pode antecipar três a quatro ações candidatas diferentes, prever os resultados de cada uma, atribuir pontuações e escolher a melhor opção. Tudo isso é feito antes de qualquer movimento motor. É exatamente assim que funcionam os motores de xadrez: eles não memorizam movimentos, mas simulam o futuro. Essa capacidade nunca foi possuída antes no campo dos robôs físicos, pois nunca se dispôs de modelos suficientemente precisos para simular o mundo real, tão complexo e variado.

Modelos mundiais permitem que robôs simulem diversos cenários futuros possíveis, avaliem-nos e escolham a melhor opção antes de qualquer motor ser ativado.
Como será o modelo mundial em 2026?
Existem muitos modelos mundiais de ponta atualmente, mas estão se desenvolvendo rapidamente. Aqui estão alguns modelos:
- NVIDIA Cosmos: uma série de modelos baseados em mundos abertos, incluindo Cosmos Predict 2.5 (modelo gerativo), Cosmos Transfer 2.5 (modelo de simulação controlável), Cosmos Reason 2 (inferidor de visão e linguagem para robôs) e o mais recente Cosmos Policy. O Cosmos Policy vai além, gerando diretamente ações para controle por meio de pós-treinamento do modelo do mundo. O Cosmos foi treinado com dezenas de milhares de horas de GPU em dados de vídeo (Cosmos Predict 2.5 é o modelo do mundo desta série).
- DeepMind Genie 3: um modelo de mundo interativo que gera ambientes totalmente navegáveis com base em prompts de texto, operando a 24 quadros por segundo e mantendo-se estável por vários minutos. Inicialmente projetado para ambientes de jogos.
- Meta V-JEPA 2: Utilizou mais de um milhão de horas de vídeos da web para pré-treinamento e apenas 62 horas de vídeos de robôs para treinamento condicionado por ação. Em braços robóticos reais em diferentes laboratórios, sem qualquer treinamento específico para tarefas, alcançou 80% de sucesso em tarefas de pegar e colocar em zero-shot. O método "JEPA" é arquitetonicamente muito diferente de outros métodos.
- DeepMind Dreamer 4: Aprendeu a coletar diamantes no Minecraft (uma tarefa de 20 mil passos) usando apenas dados offline, sem qualquer interação com o ambiente. Isso demonstra que o aprendizado por reforço real em mundos virtuais é viável.
- AgiBot's Genie Envisioner: uma plataforma de modelo unificado da China, treinada com mais de 3.000 horas de vídeos de operação de robôs humanóides do mundo real. Ele pode gerar tanto trajetórias previstas quanto trajetórias de ação executáveis. A AgiBot utiliza o NVIDIA Cosmos Predict 2 como rede principal e realiza pós-treinamento com seus próprios dados. Este é exatamente o modelo descrito anteriormente de “pilha de tecnologia aberta + dados próprios”.
- Toyota Research Institute's world model based on Cosmos: for remote operation data augmentation and navigation.

Seis modelos mundiais mais importantes de 2025-2026, cada um propondo uma visão diferente sobre como as máquinas devem aprender física.
Dez: arquitetura alternativa, pois o campo ainda não está definido
Não há um padrão unificado para construir modelos do mundo. A disputa arquitetônica é uma das discussões mais interessantes atualmente na área de IA, e afeta diretamente o que os robôs poderão fazer no futuro. Três campos merecem atenção:
Difusão de vídeo em nível de pixel (escola Cosmos/Sora): usar modelos de difusão para prever os pixels reais dos quadros futuros. A vantagem é que pode ser usado como gerador de dados sintéticos, capaz de renderizar demonstrações de robôs totalmente novas que nunca ocorreram. A desvantagem é o alto custo, às vezes viola as leis da física e prever pixels que nunca serão vistos é um desperdício.
Arquitetura de Previsão de Embedding Conjunto, conhecida como JEPA (escola de LeCun): em vez de prever pixels, prevê representações abstratas do próximo quadro. Descarta detalhes texturais e mantém apenas a essência semântica dos elementos na cena. A vantagem é eficiência, com foco nos fatores cruciais para a ação. A desvantagem é que é mais difícil de usar. Modelos V-JEPA, V-JEPA 2 e o novo modelo híbrido JEPA-VLA estão explorando este campo.
Modelos de mundo potenciais (escola Genie/Dreamer): aprender a comprimir um vídeo inteiro em uma “linguagem de ação” potencial que capture a estrutura do comportamento, e então treinar o modelo do mundo para prever o próximo estado potencial com base na próxima ação potencial. A vantagem é que permite treinar com vídeos da web sem ações e depois adicionar poucos dados reais de robôs. A desvantagem é que as ações potenciais não são compreensíveis por humanos, tornando a análise de segurança mais complexa.

Pixel diffusion, JEPA e ações latentes: o mesmo objetivo, maneiras radicalmente diferentes de construir modelos do mundo
Eleven: Aplicações práticas de robôs baseados em modelos mundiais
Se avançarmos alguns anos, a arquitetura de robôs humanóides de ponta pode parecer assim:
VLA carrega um modelo mundial. Quando o robô encontra uma nova situação, ele executa operações semelhantes às seguintes:
- VLA propôs algumas opções de ações subsequentes (ainda é uma estratégia).
- O modelo mundial recebe cada ação candidata e simula um vídeo hipotético de 1 a 3 segundos.
- Os avaliadores de valor atribuirão pontuações com base nos resultados imaginados: o copo foi levantado? Algo caiu? Alguém foi atingido?
- O robô escolherá a ação com a pontuação mais alta e executará apenas sua primeira parte.
- Real sensor data feedback; cyclic repetition.
Isso é controle preditivo baseado em modelo, uma tecnologia usada há anos para estabilizar foguetes e drones, mas que substitui equações físicas derivadas manualmente por modelos mundiais aprendidos. Sua escalabilidade vem do fato de que os modelos mundiais são pré-treinados com milhões de horas de vídeo, e não porque alguém escreveu equações de Navier-Stokes para ambientes de cozinha.
Seus benefícios se acumulam progressivamente:
- A situação de recuperação melhorou. Se ocorrer um erro na ação de captura, o modelo mundial pode imaginar várias rotas de correção e escolher a mais promissora.
- A capacidade de generalização foi aprimorada. O modelo mundial treinado com vídeos da web experimentou ordens de grandeza mais fenômenos físicos do que qualquer conjunto de dados de operação remota de robôs.
- Planejamento de longo prazo torna-se controlável. Planeje na imaginação, não na realidade.
- A lacuna entre simulação e realidade diminuiu. Anteriormente, era necessário treinar usando simuladores próprios (por exemplo, Isaac Sim, motor físico Newton) e confiar na transferência dos resultados para aplicações reais; agora, é possível treinar usando simuladores já treinados que correspondem a vídeos reais. Portanto, a lacuna é menor.
- Os dados sintéticos estão crescendo exponencialmente. Um modelo mundial pode gerar quase gratuitamente milhões de trajetórias de robôs diferentes, cobrindo diversas iluminações, materiais e configurações de objetos. Isso resolve um dos maiores gargalos do setor.
Além disso, possui uma importante vantagem de segurança. Robôs capazes de simular as consequências de ações podem recusar-se a executar operações perigosas: não por restrições de regras pré-definidas, mas porque antecipam que alguém poderá se ferir no futuro.

Dois modos de movimento: VLA reage ao que vê; robôs de modelo mundial pensam antes de se mover
十二: O que mais você deve saber
O verdadeiro problema central é o problema de dados: se não for possível alimentar o modelo com dados, todas as inovações de arquitetura do mundo não farão diferença. Atualmente, a operação remota (humanos usando dispositivos VR para manipular robôs de forma marionete à distância) é o principal gargalo tecnológico. A vantagem competitiva de uma empresa de robótica está cada vez mais dependendo de sua linha de coleta de dados, e não do modelo em si. Agi Robotics já estabeleceu armazéns repletos de operadores. A lei de escala de destreza do NVIDIA GR00T N1.7 indica que mais vídeos em primeira pessoa humana podem aumentar diretamente e previsivelmente a destreza dos robôs. Esta também é uma das razões pelas quais a China possui vantagem estrutural: custos mais baixos de mão de obra para coleta de dados, ambientes de implantação mais tolerantes e coordenação ativa do governo na cadeia de suprimentos.
A simulação é um universo paralelo. O Isaac Sim da NVIDIA, o novo mecanismo físico aberto Newton (versão 1.0 será lançada oficialmente em abril de 2026) e a plataforma Omniverse permitem que empresas treinem robôs em milhões de ambientes de simulação paralelos, sem precisar implantá-los no mundo real. A maioria das funcionalidades aparentemente "inteligentes" dos robôs é, na verdade, cultivada em ambientes simulados e depois transferida para o hardware.
Os benefícios econômicos começam a se manifestar. Unitree entregou cerca de 5.500 robôs humanoides em 2025 e planeja atingir de 10.000 a 20.000 unidades em 2026. O preço médio caiu de US$ 85.000 para US$ 25.000 em dois anos. O R1 da Unitree é vendido por US$ 5.900. O preço de lançamento do Noetix Bumi é de US$ 1.400. Os preços dos componentes de hardware dos robôs humanoides estão se aproximando dos níveis dos produtos eletrônicos de consumo, enquanto a tecnologia de IA interna ainda está atrasada em relação aos produtos demonstrativos. Essa lacuna eventualmente se fechará, momento em que o crescimento do mercado impactará significativamente toda a indústria.
Os modos de falha parecem estranhos. Quando robôs baseados em LLM falham, eles o fazem de maneiras que robôs tradicionais não conseguem. Por exemplo, fazer coisas erradas com confiança, “alucinar” a percepção de certas funcionalidades, ou ficar presos em ciclos de diálogo com seu próprio planejador. A comunidade de robôs tradicionais manifesta um grau significativo de ceticismo quanto a isso, o que é compreensível, pois insistem que sistemas de aprendizado devem ser monitorados com segurança e sujeitos a restrições de comportamento. Os robôs mais confiáveis atualmente implantados são híbridos: cérebros VLA são colocados dentro de gaiolas de segurança projetadas manualmente.
A narrativa do “momento ChatGPT” é uma metáfora útil, mas enganosa: Jensen Huang tem dito a todos que o momento ChatGPT dos robôs já chegou. Ele diz isso porque a NVIDIA vende picaretas e pás. A versão mais honesta é: atualmente estamos aproximadamente na era do GPT-2 da IA física. É poderosa o suficiente para impressionar; mas ainda não é poderosa o suficiente para ser implantada sem supervisão. Ela está passando por iterações rápidas, mas ainda não atingiu o ponto de inflexão para uma adoção viral, e sim uma curva de crescimento lenta e constante.
Conclusão

Evolução do robô quadrúpede Unitree (da direita para a esquerda)
Na demonstração vista no escritório de Unitree, cinco robôs humanóides G1 realizaram artes marciais com movimentos cuidadosamente coreografados, controlados por um sistema de controle do tipo VLA embarcado, enquanto um operador remoto garantia que tudo ocorresse sem problemas. Fundamentalmente, não era totalmente autônomo. Mas todo o processo — percepção, planejamento, controle de movimento — estava sendo substituído por redes neurais. Dois anos depois, o mesmo robô conseguia realizar os mesmos movimentos sem coreografia, pois já havia antecipado todo o movimento e escolhido a melhor versão.
O desenvolvimento descrito neste artigo — desde controladores escritos manualmente, até percepção baseada em machine learning, depois planejadores de LLM, seguidos por VLA, arquitetura de dois sistemas e, finalmente, modelos mundiais — representa na verdade uma transição lenta da localização da inteligência robótica. Ele começou na mente dos engenheiros, evoluiu para código escrito manualmente, depois entrou na camada de percepção, depois no planejador, depois na camada de política. Agora, está finalmente se direcionando para a construção de modelos que aprendem o próprio mundo.
Cada transformação torna os robôs mais universais, mais adaptáveis e mais úteis. Se a transformação do modelo mundial funcionar, ela realmente dotará os robôs de capacidades poderosas: poderosas o suficiente para que a pergunta não seja mais “O que os robôs podem fazer?”, mas “O que devemos deixá-los fazer?”
Leia também: Análise de mais de 30 empresas de robôs humanóides: quem vencerá em 2026?
