Expertos discuten el impacto de OpenClaw en los agentes de IA y los desafíos de cómputo

Autor: Chen Junda

Zhixidongxi informa el 27 de marzo: hoy, en el Foro Zhongguancun, Zhang Peng, CEO de Zhipu; Yang Zhilin, CEO de Moonshot AI (que actuó como moderador); Luo Fuli, responsable del gran modelo MiMo de Xiaomi; Xia Lixue, CEO de Wuwen Xinqiong; y el profesor asistente de la Universidad de Hong Kong, Huang Chao, se reunieron raramente en un mismo escenario para llevar a cabo un profundo diálogo sobre el futuro de los grandes modelos abiertos y los agentes inteligentes.

Esta conversación comienza con OpenClaw, el tema más popular en este momento, y los invitados coinciden en que los agentes hacen que los modelos grandes realmente comiencen a "trabajar". OpenClaw amplía los límites de capacidad de los modelos grandes, pero también impone requisitos más altos a los modelos; Zhipu está investigando capacidades como planificación a largo plazo y autoconfiguración, mientras que el equipo de Luo Fuli se enfoca más en reducir los costos y aumentar la velocidad mediante innovaciones arquitectónicas, e incluso lograr la autoevolución del modelo.

La infraestructura también debe seguir el ritmo de los agentes. Xia Lixue cree que los sistemas de potencia de cálculo y la arquitectura de software actuales aún están diseñados para humanos, no para agentes, y que en realidad se está limitando el espacio de actuación de los Agentes mediante las capacidades operativas humanas. Por lo tanto, necesitamos crear una Infraestructura Agente.

En la opinión de varios invitados, el código abierto es uno de los impulsores clave del desarrollo de modelos grandes y agentes inteligentes. El profesor asistente de la Universidad de Hong Kong, Huang Chao, considera que el auge del ecosistema de código abierto es fundamental para que los agentes pasen de ser “un pasatiempo” a convertirse en verdaderos “trabajadores”. Solo mediante la colaboración comunitaria se puede lograr que el software, los datos y la tecnología se transformen completamente en formas nativas de agentes, generando finalmente un ecosistema global sostenible de IA.

Además, varios invitados debatieron sobre temas como el aumento de precios de los modelos grandes, el auge en el uso de tokens y las palabras clave para la IA en los próximos 12 meses. A continuación, se presentan los puntos clave de este foro redondo:

1. Zhang Peng: Después de que los modelos se vuelvan más grandes, el costo de inferencia también aumenta proporcionalmente; la reciente estrategia de aumento de precios de Zhipu en realidad vuelve a un valor comercial normal, y la competencia a largo plazo con precios bajos no es beneficiosa para el desarrollo de la industria.

2. Zhang Peng: La explosión de nuevas tecnologías como los agentes inteligentes ha aumentado la demanda de tokens en 10 veces, pero la demanda real podría haber crecido 100 veces, y aún existe una gran cantidad de demanda no satisfecha; por lo tanto, la capacidad de cómputo sigue siendo un problema clave en los próximos 12 meses.

3. Luo Fuli: Desde la perspectiva de los proveedores de modelos base grandes, OpenClaw garantiza el mínimo del modelo base y eleva el límite superior. La completitud de tareas de los modelos de código abierto nacionales + OpenClaw ya está muy cerca de Claude.

4. Luo Fuli: DeepSeek ha brindado valentía y confianza a los fabricantes nacionales de modelos grandes. Algunas innovaciones en la estructura del modelo, que parecían ser compromisos por eficiencia, han provocado verdaderos cambios, permitiendo que la industria alcance el nivel más alto de inteligencia posible con una capacidad de cómputo limitada.

5. Luo Fuli: Lo más importante en el próximo año del camino de la AGI será la "autoevolución". La autoevolución permite que los modelos grandes exploren como científicos de élite y es el único lugar donde se puede "crear algo nuevo". Xiaomi ya ha aumentado la eficiencia de investigación en 10 veces utilizando Claude Code + modelos de élite.

6. Xia Lixue: Cuando llegue la era de la AGI, la propia infraestructura debería ser un agente, gestionándose de forma autónoma y iterando la infraestructura según las necesidades de los clientes de IA, logrando autoevolución y autoiteración.

7. Xia Lixue: OpenClaw ha desencadenado el uso de tokens. La velocidad actual de consumo de tokens es como la sensación de los inicios de la era 3G, cuando solo tenías 100 MB de datos mensuales.

8. Huang Chao: En el futuro, muchos software no estarán orientados a humanos; el software, los datos y la tecnología se programarán en forma Agent-Native, y los humanos podrían necesitar solo usar aquellos "GUI que los hagan felices".

Aquí tienes el registro completo de esta mesa redonda:

01. OpenClaw es simplemente “andamiaje”; el consumo de tokens del modelo grande aún se encuentra en la era de 3G

Yang Zhilin: Es un gran honor contar hoy con tantos invitados de primer nivel; varios de ellos provienen de las capas de modelos, capacidad de cómputo y hasta la capa de agentes. La palabra clave principal de hoy es open source, seguida por agentes.

La primera pregunta es sobre OpenClaw, actualmente el más popular. ¿Qué aspectos de OpenClaw o productos similares que usan diariamente les parecen más imaginativos o memorables? Desde el punto de vista técnico, ¿cómo ven la evolución de OpenClaw y los agentes relacionados hoy en día?

Zhang Peng: Desde muy temprano empecé a jugar con OpenClaw, cuando aún se llamaba Clawbot. Lo hice yo mismo, ya que también soy programador, y tengo cierta experiencia jugando con estas cosas.

Creo que el mayor avance o novedad que OpenClaw aporta a todos es que ya no es exclusivo de programadores o entusiastas de la tecnología. Las personas comunes también pueden utilizar fácilmente las capacidades de los modelos más avanzados, especialmente en programación y agentes inteligentes.

Por lo tanto, hasta ahora, durante mi interacción con todos ustedes, prefiero referirme a OpenClaw como una “andamiaje”. Proporciona una posibilidad, construyendo un andamiaje sólido, conveniente pero muy flexible sobre la base del modelo. Ustedes pueden utilizar, según sus preferencias, muchas funciones innovadoras ofrecidas por los modelos subyacentes.

Antes, mis propias ideas podrían haber estado limitadas por no saber programar o por no dominar otras habilidades relacionadas, pero hoy, con OpenClaw, finalmente puedo lograrlo mediante una comunicación muy sencilla.

OpenClaw me impactó mucho, o me hizo volver a considerar este asunto.

Xia Lixue: Al principio, cuando empecé a usar OpenClaw, no me acostumbré, porque estaba acostumbrado a interactuar con modelos grandes; después de usarlo, sentí que OpenClaw respondía muy lentamente.

Pero luego me di cuenta de un problema: es muy diferente de los chatbots anteriores, ya que es esencialmente una "persona" que puede ayudarme a completar tareas grandes. Al comenzar a enviarle tareas más complejas, descubrí que en realidad puede hacerlas muy bien.

Esto me ha dejado una gran impresión. El modelo, que al principio chatteaba por tokens, ahora puede convertirse en un agente, incluso en una langosta, para ayudarte a completar tareas. Esto amplía enormemente el espacio de imaginación para la IA.

Al mismo tiempo, los requisitos para la capacidad de todo el sistema también se han vuelto muy altos. Por eso, al principio usé OpenClaw y sentí que era un poco lento. Como proveedor de la capa de infraestructura, veo que OpenClaw trae más oportunidades y desafíos para el gran sistema y ecosistema detrás de la IA.

Los recursos que tenemos actualmente no son suficientes para respaldar esta era de crecimiento tan rápido. Por ejemplo, en nuestra empresa, desde finales de enero, el uso de tokens se ha duplicado aproximadamente cada dos semanas, y ahora ha aumentado casi diez veces.

La última vez que vi esta velocidad fue cuando usaba un teléfono 3G y consumía datos móviles. Tengo la sensación de que el uso actual de tokens es como la época en que solo tenías 100 MB de datos mensuales.

En este contexto, todos nuestros recursos necesitan ser optimizados e integrados de manera más eficiente, para que cada persona, no solo en el ámbito de la IA, sino en toda la sociedad, pueda aprovechar la capacidad de IA de OpenClaw.

Como jugador de la infraestructura, estoy muy emocionado y profundamente conmovido por esta era. También creo que aún hay muchas oportunidades de optimización que debemos explorar y probar.

02. OpenClaw eleva el límite superior de los modelos nacionales; el avance en el modo interactivo tiene un significado importante

Luo Fuli: Yo mismo considero OpenClaw como un evento revolucionario y disruptivo en el proceso de evolución del marco de agentes.

En realidad, todas las personas a mi alrededor que realizan codificación muy profunda aún eligen primero Claude Code. Pero creo que quienes usan OpenClaw percibirán que muchos de sus diseños en el marco de Agentes están por delante de Claude Code. Recientemente, muchas actualizaciones de Claude Code están avanzando hacia OpenClaw.

Cuando uso OpenClaw, mi experiencia es que este marco me permite expandir mi imaginación en cualquier momento y lugar. Claude Code inicialmente solo podía extender mis ideas en mi escritorio, pero OpenClaw puede extender mis ideas en cualquier momento y lugar.

Los valores principales que OpenClaw aporta son dos. El primero es que es de código abierto. El hecho de ser de código abierto es muy beneficioso para que toda la comunidad participe profundamente, valore e impulse la evolución de este marco, lo cual es un requisito previo muy importante.

Creo que un gran valor de marcos de IA como OpenClaw es que eleva el límite superior de los modelos nacionales, cuyo nivel está cerca de los modelos cerrados pero aún no los han alcanzado por completo.

En la mayoría de los escenarios, descubrirás que su completitud de tareas (modelo de código abierto nacional + OpenClaw) ya está muy cerca del último modelo de Claude. Al mismo tiempo, garantiza eficazmente un nivel mínimo: a través de un sistema Harness, o aprovechando su体系 de habilidades y otros diseños, asegura la integridad y precisión de las tareas.

En resumen, desde la perspectiva de los desarrolladores de proveedores de modelos base grandes, OpenClaw garantiza el piso de los modelos base grandes y eleva su techo.

Además, creo que otro valor que aporta a toda la comunidad es que ha encendido la conciencia de todos, mostrando que en el nivel de los Agentes, más allá de los modelos grandes, existe un enorme potencial de imaginación.

Recientemente también he observado que, además de los investigadores, cada vez más personas en la comunidad están participando en la transformación de la AGI, y más personas están comenzando a utilizar marcos de agentes más potentes como Harness y Scaffold. Estas personas, de cierta manera, están utilizando estas herramientas para reemplazar parte de su trabajo, liberando así su tiempo para dedicarlo a cosas más imaginativas.

Huang Chao: Creo que, en primer lugar, desde el punto de vista del modelo de interacción, una de las razones por las que OpenClaw ha tenido tanto éxito es que ofrece una experiencia más "humana". Hemos estado trabajando en Agentes durante unos uno o dos años, pero antes, Agentes como Cursor o Claude Code transmitían más una sensación de "herramienta". OpenClaw, por primera vez, se integra como una aplicación de mensajería instantánea, generando una sensación más cercana al "J.A.R.V.I.S. personal" que uno imagina. Creo que esto podría representar un avance en el modelo de interacción.

Además, lo que inspira a toda la comunidad es que se ha vuelto a demostrar que marcos simples pero eficientes como Agent Loop son viables. Al mismo tiempo, nos invita a replantearnos una pregunta: ¿necesitamos realmente un superagente integral capaz de hacerlo todo, o necesitamos un mejor “administrador”, como un sistema operativo ligero o una estructura de soporte?

La idea que OpenClaw aporta es crear un "sistema pequeño" o "sistema operativo de langosta" junto con su ecosistema, para que todos adopten una mentalidad de "diversión", lo que a su vez impulse todas las herramientas dentro del ecosistema.

Con la aparición de habilidades como Skills y Harness, cada vez más personas pueden diseñar aplicaciones para sistemas como OpenClaw, potenciando diversos sectores. Creo que esto se integra naturalmente con todo el ecosistema de código abierto. En mi opinión, estos dos puntos son las mayores lecciones que hemos obtenido.

03. GLM nuevo modelo diseñado específicamente para "trabajar", el aumento de precio es un retorno al valor comercial normal

Yang Zhilin: Quisiera hacerle una pregunta a Zhang Peng. Recientemente vimos que Zhipu lanzó el nuevo modelo GLM-5 Turbo, y entiendo que se mejoró significativamente la capacidad de Agent. ¿Podrías presentarnos las diferencias entre este nuevo modelo y los demás? Además, hemos observado una estrategia de aumento de precios; ¿qué señales de mercado refleja esto?

Zhang Peng: Es una excelente pregunta. Hace unos días realmente realizamos una actualización de emergencia, lo cual forma parte de nuestra hoja de ruta de desarrollo general, solo que lo lanzamos con anticipación.

El objetivo principal es pasar de la "simple conversación" a "trabajar de verdad" — lo que todos han percibido recientemente: los grandes modelos ya no solo pueden chatear, sino que realmente pueden ayudar a las personas a trabajar.

Pero las habilidades implícitas detrás de “hacer el trabajo” son muy exigentes. El modelo debe planificar tareas de largo plazo por sí mismo, probar y corregir errores constantemente, comprimir el contexto, depurar y posiblemente manejar información multimodal. Por lo tanto, los requisitos de capacidad del modelo son realmente distintos a los de los modelos generales orientados a conversaciones tradicionales. GLM-5 Turbo se ha fortalecido específicamente en estos aspectos, especialmente en lo que mencionaste: hacer que el modelo trabaje y funcione durante setenta y dos horas, manteniendo un bucle continuo; hemos realizado muchos esfuerzos en esto.

Además, mucha gente también se preocupa por el consumo de tokens. Realizar tareas complejas con un modelo inteligente consume una gran cantidad de tokens. Quizás las personas comunes no lo perciban claramente, pero al revisar sus facturas notarán que el dinero se gasta muy rápido. Por eso, también hemos realizado optimizaciones en este aspecto: cuando se enfrenta a tareas complejas, el modelo puede completarlas con una eficiencia de tokens más alta. En general, la arquitectura del modelo sigue siendo una arquitectura general de colaboración multi-tarea, pero hemos reforzado selectivamente sus capacidades.

En realidad, esto de aumentar los precios también es bastante fácil de explicar. Antes mencioné que ya no se trata simplemente de hacer una pregunta y obtener una respuesta; la cadena de razonamiento detrás es muy larga. Muchas tareas requieren interactuar con código y la infraestructura subyacente, además de realizar constantemente depuración y corrección de errores, lo que consume una cantidad enorme de recursos. El número de tokens necesario para completar una tarea compleja puede ser diez o incluso cien veces mayor que el necesario para responder una pregunta sencilla.

Por lo tanto, el precio necesita aumentar algo, y el modelo también se ha vuelto más grande, lo que ha incrementado los costos de inferencia. Lo estamos ajustando a su valor comercial normal, ya que competir a largo plazo con precios bajos no beneficia el desarrollo de toda la industria. Esto también nos permite establecer un ciclo comercial positivo que optimice continuamente la capacidad del modelo y les brinde un mejor servicio.

04. Crear una fábrica de tokens más eficiente: la infraestructura misma debe ser un Agente

Yang Zhilin: Actualmente, cada vez hay más modelos de código abierto y también se está formando un ecosistema, permitiendo que diversos modelos ofrezcan más valor a los usuarios en diferentes plataformas de capacidad de cómputo. Con el auge del uso de tokens, los modelos grandes están pasando de la era del entrenamiento a la era de la inferencia. Me gustaría preguntarle a Li Xue: desde el punto de vista de la infraestructura, ¿qué significa la era de la inferencia para Wuwen?

Xia Lixue: Somos un proveedor de infraestructura nacido en la era de la IA, y actualmente también brindamos soporte a Zhipu, Kimi, Mimo y otros, para que puedan utilizar fábricas de tokens de manera más eficiente. Además, estamos colaborando con muchas universidades e institutos de investigación.

Por eso hemos estado reflexionando sobre una cosa: ¿qué tipo de infraestructura necesita la era de la AGI? Y cómo podemos lograrla y anticiparla paso a paso. Ya estamos plenamente preparados para abordar los problemas que deben resolverse en las etapas a corto, mediano y largo plazo.

El problema más directo actual es el que acaban de mencionar: el aumento masivo en la cantidad de tokens impulsada por Open ha generado una mayor necesidad de optimización del sistema. Incluso la ajuste de precios es, en realidad, una forma de responder a esta necesidad.

Hemos abordado y resuelto esto siempre mediante la integración de software y hardware. Por ejemplo, hemos integrado casi todos los tipos de chips de cálculo, conectando uniformemente una docena de chips diferentes en China y decenas de clusters de poder de cómputo distintos. Esto resuelve el problema de la escasez de recursos de cómputo en los sistemas de IA; cuando los recursos son insuficientes, la mejor solución es utilizar todos los recursos disponibles y asegurar que cada unidad de cómputo se utilice de manera óptima para lograr la máxima eficiencia de conversión.

Por lo tanto, en esta etapa, lo que necesitamos resolver es cómo crear una fábrica de tokens más eficiente. Hemos realizado muchas optimizaciones, incluyendo la mejor adaptación posible entre el modelo y los recursos de memoria gráfica en el hardware, y también estamos explorando si existe una reacción más profunda entre las estructuras de modelos y hardware más recientes. Sin embargo, resolver los problemas de eficiencia actuales solo ha creado una fábrica de tokens estandarizada.

En la era de los Agentes, creemos que esto no es suficiente. Debido a que los Agentes son más como personas, puedes asignarles una tarea. Estoy firmemente convencido de que muchas de las infraestructuras de la era de la nube actual fueron diseñadas para servir a un programa o a ingenieros humanos, no para la IA. Esto es equivalente a crear una infraestructura con interfaces diseñadas para humanos y luego agregar una capa adicional para conectar Agentes; este enfoque realmente limita el potencial de los Agentes mediante las capacidades operativas humanas.

Por ejemplo, un agente puede pensar y lanzar tareas en milisegundos, pero capacidades subyacentes como K8s (Kubernetes) no están preparadas para esto, ya que los humanos suelen lanzar tareas a nivel de minutos. Por lo tanto, necesitamos capacidades aún más avanzadas, que llamamos “Agentic Infra”, es decir, una “fábrica inteligente de tokens”, que es precisamente lo que Wuenxiong está desarrollando.

Desde una perspectiva más a largo plazo, cuando llegue verdaderamente la era de la AGI, creemos que incluso la infraestructura misma debería ser un agente. La fábrica que estamos construyendo también debe ser capaz de evolucionar y autoiterarse, formando una organización autónoma. Equivale a tener un CEO, y ese CEO es en sí mismo un agente, posiblemente OpenClaw, que gestiona toda la infraestructura y genera automáticamente solicitudes e itera la infraestructura según las necesidades de los clientes de IA. Solo así podrán la IA y la IA acoplarse de manera más eficaz. También estamos realizando algunas exploraciones, como permitir una mejor comunicación entre agentes y capacidades como Cache to Cache.

Por eso hemos estado reflexionando sobre el hecho de que el desarrollo de la infraestructura y la inteligencia artificial no debería ser un estado aislado — simplemente cumplir con una solicitud cuando se recibe — sino que debe generar una reacción química muy rica. Este es el verdadero significado de la colaboración entre software y hardware, entre algoritmos e infraestructura, y también es la misión que Wuwen Xinqiong siempre ha buscado lograr. Gracias.

05. La innovación que compromete la eficiencia también tiene sentido; DeepSeek brinda coraje y confianza al equipo nacional.

Yang Zhilin: A continuación, me gustaría hacerle una pregunta a Fuli. Recientemente, Xiaomi ha realizado una gran contribución a la comunidad al lanzar nuevos modelos y abrir el código de sus tecnologías subyacentes. Quisiera preguntarte: en cuanto a los grandes modelos, ¿cuáles crees que son las ventajas únicas de Xiaomi?

Luo Fuli: Creo que primero podríamos dejar de lado el tema de las ventajas únicas de Xiaomi y en su lugar hablar sobre las fortalezas generales de los equipos chinos que desarrollan modelos grandes. Considero que este tema tiene un valor más amplio.

Hace aproximadamente dos años, los equipos de modelos base de China ya habían logrado excelentes avances: cómo superar las limitaciones de capacidad de cómputo de bajo nivel, especialmente bajo condiciones de ancho de banda restringido en interconexiones NVLink, realizando innovaciones en la arquitectura de modelos que parecían ser “compromisos por eficiencia”, como la serie DeepSeek V2, V3, MoE, MLA, entre otros.

Pero luego vimos que lo que impulsaron estas innovaciones fue una transformación: cómo lograr el nivel más alto de inteligencia con una capacidad de cómputo fija. Esto es lo que brindó valentía y confianza a todos los equipos de modelos base nacionales de DeepSeek. Aunque hoy en día nuestros chips nacionales, especialmente los chips de inferencia y los chips de entrenamiento, ya no están sujetos a estas limitaciones, fue precisamente bajo estas restricciones que se impulsó una nueva exploración de estructuras de modelos con mayor eficiencia de entrenamiento y menores costos de inferencia.

Como estructuras recientemente aparecidas como Hybrid Sparse y Linear Attention, por ejemplo, la NSA de DeepSeek y la KSA de Kimi, Xiaomi también tiene HySparse, diseñada para la próxima generación de estructuras. Todas estas son innovaciones en la arquitectura de modelos distintas a la generación actual de MoE, orientadas hacia la era de los Agentes.

¿Por qué considero tan importante la innovación estructural? En realidad, si realmente usan OpenClaw, descubrirán que se vuelve más fácil y más inteligente con el uso. Uno de los presupuestos clave es la longitud del contexto de inferencia. El contexto largo ha sido un tema del que hemos hablado mucho, pero ¿existen realmente modelos que ahora desempeñen bien, con alto rendimiento y bajo costo de inferencia en contextos largos?

En realidad, muchos modelos no son incapaces de manejar contextos de 1M o 10M, sino que el costo y la lentitud del razonamiento con contextos de 1M o 10M son demasiado altos. Solo al reducir los costos y aumentar la velocidad se podrán asignar tareas de verdadero valor productivo a los modelos, realizar tareas de mayor complejidad en estos contextos largos e incluso lograr la autoiteración del modelo.

La autoiteración del modelo consiste en que puede lograr su propia evolución en un entorno complejo, aprovechando contextos extremadamente largos. Esta evolución puede afectar tanto al propio marco de Agent como a los parámetros del modelo —pues considero que el contexto en sí mismo es una forma de evolución de los parámetros. Por lo tanto, cómo implementar una arquitectura de contexto largo y cómo lograr una inferencia eficiente con contexto largo en la fase de inferencia constituye una competencia integral.

Además de la fase de preentrenamiento, donde ya nos enfocamos en arquitecturas eficientes para contextos largos —un problema que comenzamos a explorar hace aproximadamente un año—, ahora lo que realmente estamos iterando en la fase de postentrenamiento es un nuevo paradigma de innovación para lograr estabilidad y un alto límite de rendimiento en tareas de largo alcance.

Estamos trabajando en cómo diseñar algoritmos de aprendizaje más eficientes, cómo recopilar textos con dependencias a largo plazo reales en contextos de 1M, 10M y 100M, así como combinar datos de trayectorias generados por entornos complejos. Esto es lo que estamos haciendo actualmente en la post-entrenamiento.

Pero a largo plazo, debido al rápido avance de los modelos grandes y el impulso del marco Agent, como mencionó Li Xue, la demanda de inferencia ha crecido casi diez veces en el último período. ¿Podría el aumento total en el uso de tokens este año alcanzar 100 veces?

Aquí entra en juego otra dimensión de competencia: la potencia de cómputo, o los chips de inferencia, e incluso más abajo, la energía. Por lo tanto, creo que si todos reflexionamos juntos sobre este problema, probablemente aprenderé más de ustedes. Gracias.

06.Agent cuenta con tres módulos clave; la explosión de múltiples Agentes generará un impacto

Yang Zhilin: Un aporte muy perspicaz. A continuación, me gustaría preguntarle a Huang Chao: has desarrollado proyectos de agentes influyentes como Nanobot y cuentas con muchos seguidores en la comunidad. Desde la perspectiva del harness o la aplicación de agentes, ¿cuáles son las direcciones tecnológicas que consideras más importantes y que merecen la atención de todos?

Huang Chao: Creo que, si se abstraen las tecnologías de los Agentes, los módulos clave son Planning, Memory y Tool Use.

Primero, hablemos de la planificación. El problema actual radica principalmente en tareas a largo plazo o contextos muy complejos, como tareas de 500 pasos o más, donde muchos modelos no pueden realizar una buena planificación. Creo que, en esencia, los modelos podrían carecer de este tipo de conocimiento implícito, especialmente en algunos dominios verticales complejos. Por lo tanto, en el futuro podría ser necesario consolidar el conocimiento de diversas tareas complejas dentro del modelo, lo que podría ser una dirección prometedora.

Por supuesto, Skill y Harness también mitigan en cierta medida los errores provocados por Planning, ya que proporcionan habilidades de alta calidad que, en esencia, guían al modelo para completar tareas más difíciles.

Hablemos de Memory. Memory da la sensación de que siempre tiene problemas con la compresión inexacta de la información y la recuperación imprecisa. Especialmente en tareas de largo alcance y escenarios complejos, la carga sobre Memory aumenta considerablemente. Actualmente, proyectos como OpenClaw utilizan en su mayoría un Memory simple en formato Markdown tipo sistema de archivos, compartiendo archivos para hacerlo. En el futuro, Memory podría evolucionar hacia un diseño jerárquico y también necesitará volverse más universal.

Honestamente, el mecanismo de Memory actual es difícil de hacer universal: debido a que los escenarios de codificación, investigación profunda y multimodal tienen diferencias significativas en sus modalidades de datos, lograr una recuperación e indexación efectivas de estos Memory, al mismo tiempo que se mantiene la eficiencia, siempre es un equilibrio.

Además, ahora que OpenClaw ha reducido significativamente el umbral para crear Agentes, es posible que en el futuro no solo haya un "cangrejo". He visto que Kimi también ha lanzado mecanismos como Agent Swarm, y en el futuro, cada persona podría tener "un grupo de cangrejos".

Es imaginable que un grupo de langostas genere un aumento masivo de contexto en comparación con una sola langosta, lo que ejercería una gran presión sobre la memoria. Actualmente, aún no existe un mecanismo efectivo para gestionar el contexto generado por un “grupo de langostas”, especialmente en escenarios complejos como la programación avanzada o descubrimientos científicos, donde tanto el modelo como toda la arquitectura del agente enfrentan una gran presión.

Sobre el uso de herramientas, es decir, la sección de habilidades. Los problemas actuales de las habilidades son similares a los que tenía MCP en su momento: MCP enfrentaba problemas de calidad no garantizada y riesgos de seguridad. Ahora, las habilidades presentan los mismos problemas: aunque parezca que hay muchas habilidades, son pocas las de alta calidad, y las habilidades de baja calidad afectan la precisión con que los agentes completan sus tareas. Además, existe el problema de inyecciones maliciosas. Por lo tanto, desde la perspectiva del uso de herramientas, es posible que sea necesario que la comunidad mejore todo el ecosistema de habilidades, e incluso permita que las habilidades se autoevolucionen durante la ejecución para generar nuevas habilidades.

En general, desde Planning hasta Memory y el uso de herramientas, estos son los puntos dolorosos actuales de los Agentes y también posibles direcciones futuras.

07. Palabras clave para los próximos 12 meses: ecosistema, token sostenible, autoevolución y poder de cómputo

Yang Zhilin: Se puede observar que ambos invitados discutieron desde perspectivas distintas un problema común: a medida que aumenta la complejidad de las tareas, el contexto se expande enormemente. Desde el nivel del modelo, se puede aumentar la longitud del contexto nativo; desde el nivel de Agent Harness, mecanismos como Planning, Memory y Multi-Agent también pueden respaldar tareas más complejas bajo ciertas capacidades del modelo. Creo que estos dos enfoques generarán más sinergias en el futuro, mejorando aún más la capacidad de completar tareas.

Por último, una perspectiva abierta. Por favor, describan con una sola palabra la tendencia del desarrollo de los modelos grandes en los próximos 12 meses y sus expectativas. Empecemos por Huang Chao.

Huang Chao: 12 meses en el campo de la IA parecen muy lejanos; no sabemos cómo habrá evolucionado dentro de 12 meses.

Yang Zhilin: Aquí originalmente decía cinco años, pero lo cambié.

Huang Chao: Sí, jaja. Una palabra que se me ocurre es “ecosistema”. Ahora OpenClaw está generando mucha actividad, pero en el futuro, los Agentes realmente deben convertirse en “trabajadores”, no solo en algo con lo que la gente juegue por curiosidad. En el futuro, debe asentarse realmente como una herramienta para trabajar y convertirse en un verdadero compañero de trabajo.

Se necesita el esfuerzo de todo el ecosistema, especialmente el código abierto; una vez que se abran las exploraciones tecnológicas y las tecnologías de modelos, toda la comunidad debe colaborar para construirlo: ya sea la iteración de los modelos, la iteración de la plataforma Skill o diversas herramientas, todo debe crearse mejor orientado a la langosta para desarrollar el ecosistema.

Una tendencia clara es: ¿el software del futuro seguirá siendo para humanos? Creo que muchos software futuros probablemente no estarán diseñados directamente para humanos, ya que los humanos necesitan una interfaz gráfica de usuario (GUI), mientras que el futuro podría ser nativo para agentes. Lo interesante es que las personas solo usarán aquellas GUIs que les generen placer. Actualmente, todo el ecosistema ha pasado del modelo GUI y MCP al modelo CLI. Esto requiere que el ecosistema convierta los sistemas de software, los datos y diversas tecnologías en formas nativas para agentes, para que el desarrollo sea mucho más rico.

Ro Fuli: Reducir la pregunta a un año me parece muy significativo. Si fuera de cinco años, desde mi definición de AGI, ya lo considero alcanzado. Por lo tanto, si tuviera que describir en una frase lo más crucial en el camino de la AGI durante el próximo año, creo que es “autoevolución”.

Esta palabra suena un poco mística, y durante el último año se ha mencionado varias veces. Pero recientemente he tenido una comprensión más profunda, o mejor dicho, he desarrollado una solución más práctica y viable para lograr la “autoevolución”. La razón es que, tras contar con modelos potentes, en el paradigma de Chat no hemos aprovechado en absoluto el límite superior de los modelos preentrenados, mientras que el marco de Agentes activa ese límite. Cuando permitimos que el modelo realice tareas de mayor duración, descubrimos que puede aprender y evolucionar por sí mismo.

Un intento sencillo es: agregar una restricción verificable al marco de Agent existente y establecer un bucle para que el modelo itere continuamente hacia la optimización del objetivo; notarás que puede generar constantemente mejores soluciones. Esta autoevolución ya puede funcionar durante uno o dos días, aunque depende de la complejidad de la tarea.

Por ejemplo, en algunas investigaciones científicas, como explorar estructuras de modelo más eficientes, dado que las estructuras de modelo tienen criterios de evaluación, como un PPL más bajo. En estas tareas deterministas, hemos descubierto que ya puede optimizar y ejecutar de forma autónoma durante dos o tres días.

Desde mi punto de vista, la autoevolución es el único lugar donde se puede "crear algo nuevo". No reemplaza la productividad de las personas existentes, sino que, como los científicos más destacados, explora cosas que aún no existen en el mundo. Hace un año pensaba que esta línea de tiempo se extendería entre tres y cinco años, pero recientemente creo que realmente debería reducirse a uno o dos años. Es posible que muy pronto podamos combinar grandes modelos con un marco potente de Agentes de autoevolución para lograr al menos una aceleración exponencial en la investigación científica.

Recientemente he descubierto que los compañeros de nuestro grupo que investigan modelos grandes tienen un flujo de trabajo altamente incierto y creativo, pero con la ayuda de Claude Code junto con modelos de élite, nuestra eficiencia de investigación ha aumentado casi diez veces. Estoy ansioso por que este paradigma se extienda a disciplinas y campos más amplios, por lo que considero que la “autoevolución” es fundamental.

Xia Lixue: Mi palabra clave es "token sostenible". Veo que el desarrollo de la IA aún está en un proceso prolongado y también deseamos que tenga una longevidad duradera. Desde la perspectiva de la infraestructura, un gran problema es que los recursos son finalmente limitados.

Al igual que en su momento se hablaba del desarrollo sostenible, como una fábrica de tokens, la capacidad de proporcionar tokens de forma sostenible, estable y a gran escala, para que los modelos de élite puedan realmente servir a un mayor número de servicios descendientes, es un problema que consideramos muy importante.

Necesitamos ampliar nuestra perspectiva a toda la ecosistema: desde la energía hasta la capacidad de cómputo, pasando por los tokens y finalmente hasta las aplicaciones, para lograr una iteración económica sostenible. No solo vamos a aprovechar todas las capacidades de cómputo del país, sino también a exportar estas capacidades al extranjero, permitiendo que los recursos globales se conecten e integren.

También creo que “sostenible” en realidad está construyendo la economía de tokens con características chinas. Anteriormente hablábamos de “Made in China”, convirtiendo la capacidad de fabricación económica de China en productos de calidad exportados a nivel global.

Ahora lo que debemos hacer es "AI Made in China": convertir de manera sostenible las ventajas de China en energía y otros aspectos en tokens de alta calidad a través de fábricas de tokens, exportándolos globalmente para convertirnos en la fábrica de tokens del mundo. Esto es lo que quiero ver este año: el valor que China aporta al mundo a través de la inteligencia artificial.

Zhang Peng: Voy a ser más breve. Todos miran hacia las estrellas, yo me mantengo más terrenal. Mi palabra clave es "potencia de cálculo".

Como ya se mencionó, todas las tecnologías y marcos de agentes han aumentado la creatividad y la eficiencia diez veces, pero con la condición de que realmente se puedan utilizar. No puedes plantear un problema y esperar que piense durante mucho tiempo sin dar una respuesta; eso definitivamente no funciona. Por esa razón, muchos avances en la investigación y muchas cosas que se quieren hacer se ven obstaculizados.

Hace dos años recuerdo que un académico dijo en el Foro Zhongguancun: “Sin tarjetas, sin emoción; hablar de tarjetas daña los sentimientos.” Creo que hoy hemos llegado de nuevo a este punto, pero la situación es diferente. Ahora hemos entrado en la fase de inferencia, y la demanda está experimentando una explosión: creciendo diez o cien veces. Hace un momento mencionaste que el volumen aumentó diez veces, pero ¿y si la demanda real es cien veces mayor? ¿Qué hacemos con la gran cantidad de demanda que aún no se ha satisfecho? Tal vez todos juntos podamos pensar en soluciones.