Autor: Chen Junda
Zhi Xidong, 27 de março: Hoje, na Feira de Zhongguancun, Zhang Peng, CEO da Zhipu, Yang Zhilin, CEO da Moonshot (moderador), Luo Fuli, responsável pelo grande modelo MiMo da Xiaomi, Xia Lixue, CEO da Wuwen Xinqiong, e o professor assistente da Universidade de Hong Kong, Huang Chao, apareceram juntos raramente para uma conversa aprofundada sobre o futuro dos grandes modelos abertos e agentes inteligentes.
Esta conversa começa com o OpenClaw, o mais popular atualmente, e os convidados concordam que agentes permitem que grandes modelos realmente "comecem a trabalhar". O OpenClaw expande os limites das capacidades dos grandes modelos, mas também impõe exigências mais altas aos modelos. A Zhipu está pesquisando capacidades como planejamento de longo prazo e autoajuste, enquanto a equipe de Luo Fuli se concentra mais em reduzir custos e aumentar a velocidade por meio de inovações arquiteturais, até mesmo alcançando a autoevolução do modelo.
A infraestrutura também precisa acompanhar o ritmo dos agentes. Xia Lixue acredita que os atuais sistemas de computação e arquiteturas de software ainda são projetados para humanos, não para agentes — na verdade, são as capacidades operacionais humanas que limitam o potencial dos Agentes. Por isso, precisamos criar uma Infraestrutura Agente.
Na visão de vários convidados, o código aberto é um dos principais impulsionadores do desenvolvimento de grandes modelos e agentes. O professor assistente da Universidade de Hong Kong, Huang Chao, acredita que o florescimento do ecossistema de código aberto é essencial para que os agentes passem de uma fase de “brincadeira” para se tornarem verdadeiros “trabalhadores”. Apenas por meio da construção coletiva da comunidade é possível levar software, dados e tecnologia a uma forma totalmente nativa de agentes, formando finalmente um ecossistema global sustentável de IA.
Além disso, vários convidados discutiram temas como o aumento dos preços dos grandes modelos, o boom no uso de tokens e as palavras-chave da IA nos próximos 12 meses. Abaixo estão os principais pontos desta mesa-redonda:
1. Zhang Peng: Após o modelo aumentar, o custo de inferência também aumenta proporcionalmente; a recente estratégia de aumento de preços da Zhipu na verdade retorna ao valor comercial normal, e a concorrência de preços baixos a longo prazo não é benéfica para o desenvolvimento do setor.
2. Zhang Peng: A explosão de novas tecnologias, como agentes inteligentes, aumentou a demanda por tokens em 10 vezes, mas a demanda real pode ter crescido 100 vezes, com grande parte da demanda ainda não atendida; portanto, a capacidade de processamento permanece como um problema-chave nos próximos 12 meses.
3. Luo Fuli: Do ponto de vista dos fornecedores de modelos base grandes, o OpenClaw garante o piso dos modelos base e eleva o limite superior. A conclusão de tarefas dos modelos abertos nacionais + OpenClaw já está muito próxima da do Claude.
4. Luo Fuli: DeepSeek trouxe coragem e confiança às empresas nacionais de modelos grandes. Algumas inovações na estrutura dos modelos, aparentemente feitas para comprometer eficiência, desencadearam verdadeiras transformações, permitindo que a indústria alcance o mais alto nível de inteligência possível com recursos de computação limitados.
5. Luo Fuli: O evento mais importante no caminho da AGI nos próximos 12 meses é a “autoevolução”. A autoevolução permite que modelos grandes explorem como cientistas de ponta e é o único local capaz de “criar coisas novas”. A Xiaomi já aumentou a eficiência de pesquisa em 10 vezes utilizando Claude Code + modelos de ponta.
6. Xia Lixue: Quando a era da AGI chegar, a própria infraestrutura deverá ser um agente, gerenciando autonomamente toda a infraestrutura e iterando-a conforme as necessidades dos clientes de IA, alcançando autoevolução e autoiteração.
7. Xia Lixue: OpenClaw desencadeou o uso de tokens. A velocidade atual de consumo de tokens é como na época do 3G, quando o tráfego móvel acabava de começar, com apenas 100 MB de limite por mês.
8. Huang Chao: Muitos softwares futuros não serão voltados para humanos; software, dados e tecnologia se tornarão na forma Agent-Native, e os humanos talvez apenas precisem usar aqueles “GUIs que os deixem felizes”.
Aqui está o registro completo desta mesa-redonda:
01. OpenClaw é apenas um “esqueleto”; o consumo de tokens do modelo grande ainda está na era de 3G
Yang Zhilin: É uma grande honra ter convidados tão importantes hoje; vários convidados vêm das camadas de modelo, de computação e até da camada de agentes. A palavra-chave principal de hoje é open source, seguida por agentes.
A primeira pergunta é sobre o OpenClaw mais popular atualmente. Quais são os aspectos mais imaginativos ou impressionantes que as pessoas percebem no uso diário do OpenClaw ou de produtos semelhantes? Do ponto de vista técnico, como você vê a evolução do OpenClaw e dos agents relacionados hoje?

Zhang Peng: Muito cedo, comecei a brincar com o OpenClaw, que na época ainda se chamava Clawbot. Eu mesmo fiz as modificações, já que sou programador e tenho alguma experiência com essas coisas.
Acho que o maior avanço ou novidade trazido pelo OpenClaw é que ele não é mais exclusivo de programadores ou entusiastas da tecnologia. Pessoas comuns também podem acessar facilmente as capacidades dos modelos de ponta, especialmente em programação e agentes inteligentes.
Então, até agora, ao longo da minha interação com todos vocês, prefiro chamar o OpenClaw de “estrutura de suporte”. Ele oferece uma possibilidade, construindo uma estrutura sólida, prática e ao mesmo tempo flexível sobre os modelos básicos. Vocês podem usar, conforme sua preferência, muitas funcionalidades inovadoras fornecidas pelos modelos subjacentes.
Antes, minhas próprias ideias podiam ser limitadas por não saber programar ou por não dominar outras habilidades relacionadas, mas hoje, com o OpenClaw, finalmente consigo realizá-las por meio de uma interação muito simples.
OpenClaw me causou um grande impacto, ou me fez reconsiderar esse assunto.

Xia Lixue: Na verdade, quando comecei a usar o OpenClaw, não me acostumei logo, porque estava acostumado com o estilo de comunicação com grandes modelos; após usá-lo, senti que o OpenClaw respondia muito devagar.
Mas depois percebi um problema: ele é muito diferente dos chatbots anteriores, sendo essencialmente uma "pessoa" capaz de me ajudar a concluir tarefas complexas. Comecei a enviar tarefas mais complicadas e descobri que, na verdade, ele consegue fazer muito bem.
Isso me trouxe uma grande reflexão. O modelo, que originalmente conversava com base em tokens, agora se transformou em um agente, até mesmo em um camarão, capaz de ajudá-lo a concluir tarefas. Isso ampliou significativamente o espaço imaginativo da IA.
Ao mesmo tempo, as exigências sobre a capacidade de todo o sistema também aumentaram significativamente. É por isso que, quando comecei a usar o OpenClaw, senti que ele estava um pouco lento. Como fornecedor da camada de infraestrutura, vejo que o OpenClaw traz mais oportunidades e desafios para os grandes sistemas e ecossistemas por trás da IA.
Os recursos que temos atualmente não são suficientes para sustentar uma era de crescimento tão acelerado. Por exemplo, na nossa empresa, desde o final de janeiro, o uso de tokens praticamente dobra a cada duas semanas, aumentando cerca de 10 vezes até agora.
A última vez que vi essa velocidade foi quando usava celular 3G consumindo dados. Tenho a sensação de que o uso atual de tokens é como na época em que tínhamos apenas 100 MB de dados por mês.
Neste cenário, todos os nossos recursos precisam ser melhor otimizados e integrados, para que cada pessoa — não apenas na área de IA, mas em toda a sociedade — possa utilizar a capacidade de IA do OpenClaw.
Como jogador da infraestrutura, estou muito entusiasmado e profundamente impactado por esta era. Também acredito que há muitas oportunidades de otimização que ainda devemos explorar e tentar.
02. OpenClaw eleva o limite dos modelos nacionais; a ruptura no modo interativo tem grande significado
Luo Fuli: Eu vejo o OpenClaw como um evento extremamente revolucionário e disruptivo no processo de evolução do framework de agentes.
Na verdade, todas as pessoas ao meu redor que realizam codificação muito avançada ainda escolhem primeiro o Claude Code. Mas acredito que quem usa o OpenClaw perceberá que muitos de seus designs no framework de Agentes são mais avançados que os do Claude Code. Recentemente, muitas atualizações do Claude Code estão se aproximando do OpenClaw.
Minha experiência ao usar o OpenClaw foi que esse framework ampliou minha criatividade de forma contínua e em qualquer lugar. O Claude Code inicialmente só podia expandir minha criatividade na minha mesa, mas o OpenClaw pode expandir minha criatividade a qualquer momento e em qualquer lugar.
Os principais valores trazidos pelo OpenClaw são dois. O primeiro é que ele é de código aberto. O fato de ser de código aberto é muito benéfico para que toda a comunidade participe profundamente, valorize e impulsiona a evolução desse framework, o que é um pré-requisito importante.
Acho que um grande valor de frameworks de IA como o OpenClaw é ele elevar o limite de modelos nacionais que, embora estejam próximos dos modelos fechados, ainda não conseguiram alcançá-los completamente.
Na maioria dos cenários, você descobrirá que a conclusão de tarefas dele (modelo de código aberto nacional + OpenClaw) já está muito próxima do mais recente modelo do Claude. Ao mesmo tempo, ele garante bem o limite inferior—por meio de um sistema Harness, ou por meio de diversos recursos como seu sistema de Skills, assegurando a integridade e a precisão das tarefas.
Em resumo, do ponto de vista dos desenvolvedores das empresas de modelos base, o OpenClaw garante o piso dos modelos base e eleva o teto.

Além disso, acho que outro valor que traz para toda a comunidade é que despertou a conscientização de todos, mostrando que, além dos grandes modelos, a camada dos Agentes possui um enorme potencial de imaginação.
Recentemente, também observei que, além dos pesquisadores, cada vez mais pessoas na comunidade estão se envolvendo na transformação da AGI, com mais indivíduos começando a utilizar frameworks de Agentes mais poderosos, como Harness e Scaffold. Essas pessoas, de certa forma, estão usando essas ferramentas para substituir parte de seu próprio trabalho, liberando ao mesmo tempo seu tempo para se dedicar a coisas mais imaginativas.
Huang Chao: Acho que, primeiro, em termos de modelo de interação, a razão pela qual o OpenClaw se tornou tão popular pode ser que ele ofereceu uma experiência mais "humana". Na verdade, já estamos trabalhando com Agentes há cerca de um ou dois anos, mas agentes anteriores, como Cursor e Claude Code, davam mais a sensação de uma "ferramenta". O OpenClaw, pela primeira vez, introduziu a forma de "integração em um aplicativo de mensagens instantâneas", fazendo com que as pessoas se sentissem mais próximas do "J.A.R.V.I.S. pessoal" que imaginavam. Acho que isso pode ser uma ruptura no modelo de interação.
Além disso, o que ele trouxe de inspiração para toda a comunidade é que um framework simples, mas eficiente, como o Agent Loop, foi novamente comprovado como viável. Ao mesmo tempo, ele nos faz repensar uma questão: precisamos realmente de um superagente全能, capaz de fazer tudo, ou de um “gerente” melhor, como um sistema operacional leve ou uma estrutura de suporte?
A ideia trazida pelo OpenClaw é, por meio desse “pequeno sistema” ou “sistema operacional de lagosta” e seu ecossistema, permitir que todos adotem realmente uma mentalidade de “diversão”, impulsionando assim todas as ferramentas dentro do ecossistema.
Com o surgimento de habilidades como Skills e Harness, cada vez mais pessoas poderão projetar aplicativos voltados para sistemas como o OpenClaw, capacitando diversos setores. Acho que esse ponto está naturalmente muito ligado a todo o ecossistema de código aberto. Para mim, esses dois pontos são as maiores inspirações que obtivemos.
03. GLM novo modelo desenvolvido especificamente para "trabalhar", o aumento de preço é um retorno ao valor comercial normal
Yang Zhilin: Gostaria de fazer uma pergunta a Zhang Peng. Recentemente, vimos a lançamento do novo modelo GLM-5 Turbo pela Zhipu, e entendo que houve grandes melhorias na capacidade de Agent. Você poderia nos apresentar as diferenças entre este novo modelo e os outros? Além disso, observamos uma estratégia de aumento de preços — que sinal de mercado isso reflete?
Zhang Peng: Esta é uma ótima pergunta. Há alguns dias, realmente realizamos uma atualização de emergência, que é, na verdade, uma fase de nosso plano de desenvolvimento, apenas antecipada.
O principal objetivo é passar da “simples conversa” para o “verdadeiro trabalho” — algo que todos têm sentido recentemente: os grandes modelos não são mais apenas capazes de conversar, mas realmente ajudam as pessoas a realizar tarefas.
Mas as habilidades implícitas por trás de “fazer o trabalho” são muito altas. O modelo precisa planejar tarefas de longo prazo por conta própria, testar e errar continuamente, comprimir o contexto, fazer debug e possivelmente lidar com informações multimodais. Portanto, os requisitos de capacidade para esse modelo são bastante diferentes dos dos modelos gerais tradicionais voltados para conversas. O GLM-5 Turbo foi especificamente aprimorado nesses aspectos, especialmente no que você mencionou — fazer o modelo trabalhar e rodar por 72 horas, mantendo-se em loop contínuo; realizamos muitos esforços nisso.
Além disso, as pessoas também estão muito preocupadas com o consumo de tokens. Fazer um modelo inteligente realizar tarefas complexas consome uma quantidade enorme de tokens. Pessoas comuns podem não perceber isso claramente, mas ao verificar a fatura, notam que o dinheiro está sendo gasto muito rapidamente. Por isso, também fizemos otimizações nesse aspecto: ao enfrentar tarefas complexas, o modelo consegue concluí-las com maior eficiência no uso de tokens. Em geral, a arquitetura do modelo ainda é uma arquitetura geral de cooperação de múltiplas tarefas, apenas com reforços direcionais em suas capacidades.
Na verdade, o aumento de preço também é bem fácil de explicar. Já mencionamos que agora não se trata mais simplesmente de fazer uma pergunta e obter uma resposta; a cadeia de raciocínio por trás é muito longa. Muitas tarefas exigem interação com código e infraestrutura de baixo nível, além de constantes depurações e correções de erros, o que consome uma quantidade enorme. O número de tokens necessário para concluir uma tarefa complexa pode ser dez ou até cem vezes maior do que o necessário para responder a uma pergunta simples.
Portanto, o preço precisa ter um certo aumento, e o modelo também ficou maior, elevando os custos de inferência. Estamos retornando ao seu valor comercial normal, pois a concorrência baseada em preços baixos a longo prazo não é benéfica para o desenvolvimento de toda a indústria. É também por isso que estamos criando um ciclo comercial saudável, que permite otimizar continuamente a capacidade do modelo e oferecer a vocês um serviço ainda melhor.
04. Criar uma fábrica de tokens mais eficiente: a própria infraestrutura também deve ser um Agent
Yang Zhilin: Agora, há cada vez mais modelos de código aberto, e também está se formando um ecossistema, permitindo que diversos modelos ofereçam mais valor aos usuários em diferentes plataformas de computação. Com o boom no uso de tokens, os grandes modelos estão passando da era de treinamento para a era de inferência. Gostaria de perguntar a Li Xue: do ponto de vista da infraestrutura, o que significa a era de inferência para Wúwèn?
Xia Lixue: Somos uma fornecedora de infraestrutura nascida na era da IA, e atualmente também fornecemos suporte a Zhipu, Kimi, Mimo e outros, ajudando as pessoas a utilizarem fábricas de tokens de forma mais eficiente. Além disso, estamos colaborando com muitas universidades e instituições de pesquisa.
Então, temos estado refletindo sobre uma coisa: que infraestrutura é necessária para a era da AGI? E como podemos progressivamente implementar e simular isso. Já estamos plenamente preparados para os desafios que precisam ser resolvidos nas fases de curto, médio e longo prazo.
O problema mais direto atual é o que todos acabaram de mencionar — o aumento explosivo na quantidade de tokens trazida pelo Open, que exige otimizações mais elevadas no sistema. Ajustes de preço, por exemplo, são também uma forma de resposta a essa necessidade.
Sempre abordamos e resolvemos por meio da integração de software e hardware. Por exemplo, integramos quase todos os tipos de chips de computação, unindo dezenas de diferentes clusters de poder de processamento no país. Isso resolve o problema da escassez de recursos de computação nos sistemas de IA: quando os recursos são insuficientes, a melhor abordagem é utilizar todos os recursos disponíveis e garantir que cada unidade de computação seja empregada de forma estratégica, maximizando a eficiência de conversão.
Nesta fase, o que precisamos resolver é como criar uma fábrica de tokens mais eficiente. Realizamos muitas otimizações, incluindo o melhor ajuste entre modelos e recursos como memória de GPU em hardware, e também estamos analisando se há uma reação mais profunda entre as estruturas de modelos e hardware mais recentes. No entanto, resolver os problemas de eficiência atuais é apenas o primeiro passo para criar uma fábrica de tokens padronizada.

Voltado para a era dos Agentes, acreditamos que isso ainda não é suficiente. Como os Agentes são mais parecidos com seres humanos, podemos atribuir a eles uma tarefa. Estou firmemente convencido de que muitas das infraestruturas da era da nuvem foram projetadas para servir a um programa ou engenheiros humanos, e não para a IA. Isso é como criar uma infraestrutura com interfaces voltadas para humanos e depois adicionar uma camada extra para conectar Agentes — uma abordagem que, na verdade, limita o potencial dos Agentes com as capacidades operacionais humanas.
Por exemplo, um agente pode pensar e iniciar tarefas em milissegundos, mas capacidades fundamentais como o K8s (Kubernetes) não estão preparadas para isso, pois humanos geralmente iniciam tarefas em escala de minutos. Por isso, precisamos de capacidades ainda mais avançadas, que chamamos de “Agentic Infra”, ou seja, uma “fábrica inteligente de tokens” — é exatamente isso que a Wuwen Xinqiong está desenvolvendo.
Olhando mais longe, quando a verdadeira era da AGI chegar, acreditamos que até a própria infraestrutura deverá ser um agente. A fábrica que estamos construindo também deve ser capaz de se autoevoluir e se autoiterar, formando uma organização autônoma. Ela equivale a ter um CEO, que é, por sua vez, um agente — possivelmente o OpenClaw — responsável por gerenciar toda a infraestrutura, identificar automaticamente necessidades e iterar a infraestrutura com base nas demandas dos clientes de IA. Somente assim é possível estabelecer uma melhor integração entre IA e IA. Também estamos realizando pesquisas, como permitir uma comunicação mais eficaz entre agentes e capacidades como Cache to Cache.
Por isso, sempre pensamos que o desenvolvimento da infraestrutura e da IA não deve ser um estado isolado — apenas implementar requisitos assim que recebidos —, mas sim gerar uma reação química muito rica. Esse é o verdadeiro significado da cooperação entre software e hardware, entre algoritmos e infraestrutura, e também a missão que a Wuwen Xiong sempre buscou realizar. Obrigado.
05. Inovações que fazem concessões em eficiência também têm significado; a DeepSeek traz coragem e confiança para a equipe nacional
Yang ZhiLin: Em seguida, gostaria de fazer uma pergunta a Fu Li. Recentemente, a Xiaomi fez uma grande contribuição para a comunidade ao lançar novos modelos e abrir o código das tecnologias subjacentes. Gostaria de perguntar: em relação aos grandes modelos, quais você acha que são as vantagens únicas da Xiaomi?
Luo Fuli: Acho que podemos primeiro deixar de lado a questão das vantagens únicas da Xiaomi; eu gostaria de discutir mais sobre a vantagem geral das equipes chinesas que desenvolvem grandes modelos. Acho que esse tópico tem um valor mais amplo.
Há cerca de dois anos, as equipes de modelos base da China já começaram a alcançar excelentes avanços — como superar as limitações de baixo poder computacional, especialmente sob condições de largura de banda restrita de interconexão NVLink, realizando inovações na estrutura de modelos que parecem ser “compromissos por eficiência”, como a série DeepSeek V2, V3, MoE, MLA, entre outros.
Mas depois vimos que essas inovações desencadearam uma transformação: como alcançar o mais alto nível de inteligência com uma capacidade de computação fixa. Foi isso que deu coragem e confiança a todas as equipes de modelos base no país. Embora hoje nossos chips nacionais, especialmente os chips de inferência e os chips de treinamento, já não estejam mais sujeitos a essas limitações, foi exatamente sob essas restrições que surgiram novas explorações em estruturas de modelos para maior eficiência de treinamento e custos de inferência mais baixos.
Assim como estruturas recentes como Hybrid Sparse e Linear Attention, por exemplo, a NSA da DeepSeek e a KSA da Kimi, a Xiaomi também possui o HySparse, voltado para a próxima geração de estruturas. Todas essas são inovações de arquitetura de modelo distintas da geração MoE, desenvolvidas para a era dos Agentes.
Por que acho a inovação estrutural tão importante? Na verdade, se as pessoas realmente usarem o OpenClaw, perceberão que ele se torna mais fácil e mais inteligente com o uso. Um dos pressupostos é o comprimento do contexto de inferência. Contexto longo é um tópico sobre o qual discutimos há muito tempo, mas atualmente existem realmente modelos que desempenham bem, com alto desempenho e baixo custo de inferência em contextos longos?
Na verdade, muitos modelos não são incapazes de lidar com contextos de 1M ou 10M, mas sim porque o custo e a velocidade de inferência para contextos de 1M e 10M são muito altos e lentos. Somente ao reduzir os custos e aumentar a velocidade será possível atribuir aos modelos tarefas com verdadeiro valor de produtividade elevada, permitindo realizar tarefas de maior complexidade nesses contextos longos e até mesmo alcançar a autoiteração do modelo.
A chamada autoiteração do modelo significa que ele pode, em um ambiente complexo, realizar sua própria evolução por meio de contextos extremamente longos. Essa evolução pode ser tanto no próprio framework do Agente quanto nos próprios parâmetros do modelo — pois acho que o contexto em si é, na verdade, uma forma de evolução dos parâmetros. Portanto, como implementar uma arquitetura de contexto longo e como realizar inferência eficiente de contexto longo no lado de inferência é uma competição abrangente.
Além da fase de pré-treinamento, em que otimizamos a arquitetura para eficiência em contextos longos — um problema que começamos a explorar há cerca de um ano —, agora estamos iterando um novo paradigma de inovação na fase de pós-treinamento para alcançar estabilidade e alto desempenho em tarefas de longo prazo.
Estamos pensando em como construir algoritmos de aprendizado mais eficazes, como coletar textos com dependências de longo prazo reais em contextos de 1M, 10M e 100M, bem como integrar dados de trajetórias gerados por ambientes complexos. Isso é o que estamos fazendo no pós-treinamento.
Mas, a longo prazo, devido ao rápido avanço dos grandes modelos, aliado ao suporte do framework Agent, como Li Xue mencionou, a demanda por inferência aumentou cerca de dez vezes no período recente. Então, o aumento total no uso de tokens este ano poderá chegar a 100 vezes?
Aqui entra outra dimensão de competição — capacidade de processamento, ou chips de inferência, e até mesmo, mais abaixo, energia. Por isso, acho que se todos pensarmos juntos sobre esse problema, posso aprender ainda mais com vocês. Obrigado.
06. O Agent possui três módulos principais; a explosão de múltiplos Agentes trará um impacto
Yang Zhilin: Uma contribuição muito perspicaz. Agora, gostaria de perguntar a Huang Chao: você desenvolveu projetos de Agentes influentes como o Nanobot e tem muitos seguidores na comunidade. Do ponto de vista do Harness ou da aplicação de Agentes, quais direções tecnológicas você acha que serão importantes e merecem atenção?
Huang Chao: Acho que, se abstrairmos a tecnologia dos Agentes, os módulos-chave são Planning, Memory e Tool Use.

Vamos começar pelo Planning. O problema atual está principalmente em tarefas de longo prazo ou contextos muito complexos, como 500 passos ou mais; muitos modelos não conseguem fazer um bom planejamento. Acho que, em essência, os modelos podem não possuir esse tipo de conhecimento implícito, especialmente em alguns domínios verticais complexos. Portanto, no futuro, pode ser necessário consolidar o conhecimento de várias tarefas complexas diretamente nos modelos — esse pode ser um caminho.
Claro, Skill e Harness também ajudam, em certa medida, a mitigar os erros trazidos pelo Planning, pois fornecem Skills de alta qualidade, orientando intrinsicamente o modelo a realizar tarefas mais desafiadoras.
Vamos falar novamente sobre Memory. A sensação com Memory é que ele sempre apresenta problemas de compressão de informação imprecisa e recuperação incorreta. Especialmente em tarefas de longo prazo e cenários complexos, a pressão sobre o Memory aumenta drasticamente. Atualmente, projetos como o OpenClaw utilizam, na verdade, o formato mais simples de Memory baseado em sistema de arquivos, em Markdown, compartilhando arquivos. No futuro, o Memory poderá evoluir para um design hierárquico e precisará se tornar mais genérico.
Para ser honesto, o mecanismo atual de Memory é difícil de tornar universal — porque os cenários de Coding, Deep Research e multimodal têm grandes diferenças em seus modos de dados; como realizar uma busca e indexação eficazes para esses Memory, mantendo ao mesmo tempo eficiência, é sempre um equilíbrio.
Além disso, agora que o OpenClaw reduziu significativamente a barreira para criar Agentes, no futuro pode haver não apenas um “lagosta”. Vi que o Kimi também lançou um mecanismo chamado Agent Swarm; no futuro, cada pessoa pode ter “um grupo de lagostas”.
Comparado a um único camarão, o aumento contextual trazido por um grupo de camarões é fácil de imaginar, o que colocará uma pressão enorme sobre a memória. Atualmente, ainda não existe um mecanismo eficaz para gerenciar o contexto gerado por esse “grupo de camarões”, especialmente em cenários complexos como codificação avançada ou descobertas científicas — tanto o modelo quanto toda a arquitetura do agente enfrentam grande pressão.
Falando novamente sobre o uso de ferramentas, ou seja, a área de Habilidades. Os problemas atuais das Habilidades são semelhantes aos que o MCP enfrentava no passado — o MCP tinha questões como falta de garantia de qualidade e riscos de segurança. Agora, as Habilidades enfrentam o mesmo problema: apesar de haver muitas Habilidades aparentemente disponíveis, poucas são de alta qualidade, e Habilidades de baixa qualidade afetam a precisão com que os Agentes concluem tarefas. Além disso, há o problema de injeção maliciosa. Portanto, do ponto de vista do uso de ferramentas, pode ser necessário que a comunidade melhore todo o ecossistema de Habilidades, até mesmo permitindo que as Habilidades se autoevoluam e criem novas Habilidades durante a execução.
Em geral, desde Planning, Memory até Tool Use, esses são os pontos dolorosos atuais dos Agentes e também possíveis direções futuras.
07. Palavras-chave para os próximos 12 meses: ecossistema, token sustentável, autoevolução e poder de processamento
Yang Zhilin: É possível ver que os dois convidados discutiram, de perspectivas diferentes, um problema comum — à medida que a complexidade das tarefas aumenta, o contexto explode. Do ponto de vista do modelo, é possível aumentar o comprimento nativo do contexto; do ponto de vista do Agent Harness, mecanismos como Planning, Memory e Multi-Agent também podem suportar tarefas mais complexas, dentro das capacidades específicas do modelo. Acredito que essas duas direções gerarão mais reações químicas no futuro, aprimorando ainda mais a capacidade de conclusão das tarefas.
Por fim, vamos a uma perspectiva aberta. Por favor, usem uma única palavra para descrever a tendência do desenvolvimento de grandes modelos nos próximos 12 meses e suas expectativas. Vamos começar com Huang Chao.
Huang Chao: 12 meses nesse campo de IA parecem muito distantes; não sabemos como estará em 12 meses.
Yang Zhilin: Originalmente aqui estava escrito cinco anos, eu alterei.
Huang Chao: Sim, haha. Uma palavra que me veio à mente é “ecossistema”. Agora, o OpenClaw está deixando todos muito ativos, mas, no futuro, os Agentes realmente precisam se tornar “trabalhadores”, e não apenas algo que as pessoas usam por diversão ou por curiosidade. O futuro deve permitir que eles se consolidem verdadeiramente como ferramentas para trabalho árduo e como verdadeiros colegas de equipe.
Isso exige o esforço de todo o ecossistema, especialmente o código aberto; após abrir as pesquisas tecnológicas e as tecnologias de modelo, toda a comunidade precisa colaborar para construí-lo — seja na iteração dos modelos, na iteração da plataforma Skill ou em várias ferramentas, tudo precisa ser melhor voltado para a criação de um ecossistema para lagostas.
Uma tendência bastante evidente é se o software do futuro ainda será feito para ser usado por humanos? Acredito que, no futuro, muitos softwares talvez não sejam mais voltados para humanos — pois os humanos precisam de uma interface gráfica (GUI), enquanto o futuro pode ser nativamente voltado para Agentes. Interessantemente, as pessoas só usarão aquelas interfaces gráficas que as deixem felizes. E agora, todo o ecossistema está passando do modelo GUI e MCP para o modelo CLI. Isso exige que o ecossistema transforme sistemas de software, dados e diversas tecnologias em formatos nativos para Agentes, para que todo o desenvolvimento se torne ainda mais rico.
Luofuli: Reduzir a questão a um ano acho muito significativo. Se fossem cinco anos, a partir da minha definição de AGI, acho que já foi alcançada. Portanto, se eu tivesse que descrever em uma frase o evento mais crucial no caminho da AGI nos próximos doze meses, acredito que seja “autoevolução”.
Essa palavra soa um pouco mística, e nos últimos anos as pessoas já mencionaram várias vezes. Mas recentemente, tenho uma compreensão mais profunda, ou seja, tenho uma abordagem mais prática e viável para a “autoevolução”. A razão é que, com modelos poderosos, não conseguimos aproveitar o limite máximo dos modelos pré-treinados no paradigma Chat; já o framework Agent ativa esse limite. Quando permitimos que o modelo execute tarefas de maior duração, percebemos que ele pode aprender e evoluir por conta própria.
Uma tentativa simples é: adicionar uma restrição verificável ao framework de Agent existente e definir um loop para que o modelo continue iterando e otimizando o objetivo. Você perceberá que ele consegue gerar continuamente soluções melhores. Essa autoevolução já pode funcionar por um ou dois dias, embora isso dependa da complexidade da tarefa.
Por exemplo, em algumas pesquisas científicas, como explorar estruturas de modelo melhores, já que as estruturas de modelo têm critérios de avaliação, como um PPL mais baixo. Nesses tipos de tarefas determinísticas, descobrimos que ele já consegue otimizar e executar sozinho por dois ou três dias.
Então, do meu ponto de vista, a autoevolução é o único lugar onde é possível "criar coisas novas". Não substitui a produtividade dos seres humanos existentes, mas, como os melhores cientistas, explora o que ainda não existe no mundo. Há um ano, eu acharia que essa linha do tempo seria de três a cinco anos, mas recentemente acredito que realmente deve ser reduzida para um a dois anos. Talvez muito em breve possamos combinar grandes modelos com um poderoso framework de agente de autoevolução, alcançando pelo menos uma aceleração exponencial na pesquisa científica.
Recentemente, percebi que os colegas do nosso grupo que trabalham com modelos de grande porte têm um fluxo de trabalho altamente incerto e criativo, mas, com o auxílio do Claude Code e modelos de ponta, nossa eficiência de pesquisa aumentou cerca de dez vezes. Estou ansioso para que esse paradigma se espalhe para disciplinas e áreas mais amplas, por isso acho que a “autoevolução” é extremamente importante.
Xia Lixue: Minha palavra-chave é "token sustentável". Vejo que o desenvolvimento da IA ainda está em um processo contínuo e longo, e também desejamos que tenha uma longevidade duradoura. Do ponto de vista da infraestrutura, um grande problema é que os recursos são, em última análise, finitos.
Assim como na época em que se falava sobre desenvolvimento sustentável, como uma fábrica de tokens, a capacidade de fornecer tokens de forma contínua, estável e em grande escala, permitindo que os modelos mais avançados realmente sirvam a um número maior de serviços downstream, é um problema que consideramos muito importante.
Precisamos ampliar nossa perspectiva para todo o ecossistema — da energia à capacidade de processamento, passando pelo token e chegando às aplicações, criando uma iteração econômica sustentável. Não apenas vamos utilizar todas as capacidades de processamento no país, mas também exportar essas habilidades para o exterior, permitindo que os recursos globais sejam conectados e integrados.
Também acho que “sustentável” na verdade está construindo a economia de tokens característica da China. No passado, falávamos sobre “Made in China”, transformando a capacidade de fabricação de baixo custo da China em produtos de qualidade exportados globalmente.
O que precisamos fazer agora é “AI Made in China” — transformar de forma sustentável, por meio da fábrica de tokens, as vantagens da China em energia e outros setores em tokens de alta qualidade, exportando-os globalmente e tornando-se a fábrica de tokens do mundo. Este é o valor que desejo ver a China trazer ao mundo por meio da inteligência artificial este ano.
Zhang Peng: Vou ser mais direto. Enquanto todos estão olhando para as estrelas, eu vou me manter no chão. Minha palavra-chave é "poder de hash".
Já mencionei que todas as tecnologias e frameworks de agentes aumentaram a criatividade e a eficiência de todos em dez vezes, mas isso só funciona se vocês realmente conseguirem usá-los. Não adianta fazer uma pergunta e esperar que ela pense por muito tempo sem dar uma resposta — isso certamente não é aceitável. Por isso, muitos avanços na pesquisa e muitas coisas que gostaríamos de fazer acabam sendo impedidos.
Há dois anos, lembro-me de um acadêmico ter dito no Fórum de Zhongguancun: “Sem cartões, sem emoção; falar de cartões machuca os sentimentos.” Acho que hoje chegamos novamente a esse ponto, mas a situação é diferente. Agora entramos na fase de inferência, e a demanda está realmente explodindo — aumentando dez, cem vezes. Há pouco você disse que o uso aumentou dez vezes, mas talvez a demanda tenha aumentado cem vezes? E há uma grande quantidade de demanda ainda não atendida. O que fazer? Talvez todos nós possamos pensar juntos em soluções.
