Huawei lanza el benchmark Claw-Anything para probar agentes de IA en tareas de asistente personal

Aquí tienes un número humilde para el ciclo de hype de la IA: GPT-5.5, uno de los modelos de lenguaje más avanzados del planeta, obtuvo solo un 34,5% al solicitarle que funcione como un asistente personal siempre activo en un entorno digital realista. Claude Opus 4.7 lo hizo aún peor, con un 31,8%.

Esos resultados provienen de Claw-Anything, un nuevo conjunto de pruebas publicado por investigadores de Huawei en colaboración con el Instituto de Tecnología de Pekín y la Universidad de Pekín. El artículo, publicado el 25 de mayo de 2026, no solo evalúa si la IA puede responder preguntas, sino si realmente puede gestionar tu vida digital.

Lo que realmente mide Claw-Anything

La prueba simula una vida digital completa y luego pide a los asistentes de IA que la gestionen a través de flujos de eventos de largo plazo y múltiples servicios de backend interdependientes. En lugar de pedirle a la IA que resuma un correo electrónico, se le pide que monitoree simultáneamente su bandeja de entrada, calendario, aplicaciones de mensajería y sistemas de archivos, y luego tome las acciones adecuadas sin que se le indique.

Anuncio

La complejidad es sustancial. Las tareas implican un promedio de 10.1 servicios interdependientes, con algunos escenarios que alcanzan hasta 18. La prueba incluye 200 entornos de tareas verificados por humanos con un promedio de 191,7k palabras de contexto por entorno.

La evaluación de referencia analiza las interacciones tanto de la interfaz gráfica de usuario como de la interfaz de línea de comandos en múltiples dispositivos. También prueba el comportamiento proactivo: ¿puede la IA notar que algo necesita hacerse antes de que lo pidas?

La tubería de entrenamiento ofrece un atisbo de esperanza

El equipo de investigación desarrolló una tubería automatizada que generó 2,000 entornos de entrenamiento para ajustar finamente modelos de IA en estas tareas complejas de asistentes. Qwen3.5-27B, un modelo de código abierto más pequeño, mostró una mejora del 23,7% en el rendimiento después de ser ajustado finamente con trayectorias exitosas de tareas de estos entornos.

ClawBench y WildClawBench, que prueban tareas prácticas multipaso similares dentro del amplio ecosistema OpenClaw, muestran que los mejores modelos de IA obtienen puntuaciones entre el 33% y el 62%.

Por qué los inversores en criptomonedas deben prestar atención

La tasa de aprobación del 34,5% para GPT-5.5 es particularmente notable porque muchos proyectos de IA en cripto se construyen sobre los modelos de OpenAI. Los resultados del ajuste fino con Qwen3.5-27B sugieren que el entrenamiento especializado en trayectorias exitosas específicas del dominio puede mejorar significativamente el rendimiento. Esto significa que los proyectos de IA cripto más propensos a generar valor real son probablemente aquellos que invierten fuertemente en la curación de datos de entrenamiento de alta calidad provenientes de interacciones reales en la cadena.

La participación de Huawei en la evaluación de inteligencia artificial de código abierto, junto con el marco más amplio OpenClaw, indica que la carrera por construir asistentes de IA confiables se vuelve cada vez más global. La evaluación prueba específicamente el tipo de coordinación compleja, multietapa y multiservicio que los agentes de IA cripto necesitarían realizar de manera confiable: gestionar carteras DeFi en múltiples protocolos, monitorear propuestas de gobernanza, reequilibrar según las condiciones del mercado y puentear activos entre cadenas.