Huawei lanza el benchmark Claw-Anything para probar agentes de IA en tareas de asistente personal

iconCryptoBriefing
Compartir
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumen

expand icon
Huawei lanzó el benchmark Claw-Anything el 25 de mayo de 2026, en asociación con el Instituto de Tecnología de Pekín y la Universidad de Pekín. El benchmark evalúa a los agentes de IA en la gestión de tareas complejas de la vida digital a través de múltiples servicios. GPT-5.5 obtuvo un 34,5%, mientras que Claude Opus 4.7 obtuvo un 31,8%. El benchmark incluye 200 tareas verificadas por humanos con un promedio de 191,7k palabras de contexto. Una tubería de entrenamiento mejoró el rendimiento de Qwen3.5-27B en un 23,7%. Esta actualización de noticias de IA + cripto destaca nuevas herramientas para evaluar noticias de activos digitales y capacidades de IA.

Aquí tienes un número humilde para el ciclo de hype de la IA: GPT-5.5, uno de los modelos de lenguaje más avanzados del planeta, obtuvo solo un 34,5% al solicitarle que funcione como un asistente personal siempre activo en un entorno digital realista. Claude Opus 4.7 lo hizo aún peor, con un 31,8%.

Esos resultados provienen de Claw-Anything, un nuevo conjunto de pruebas publicado por investigadores de Huawei en colaboración con el Instituto de Tecnología de Pekín y la Universidad de Pekín. El artículo, publicado el 25 de mayo de 2026, no solo evalúa si la IA puede responder preguntas, sino si realmente puede gestionar tu vida digital.

Lo que realmente mide Claw-Anything

La prueba simula una vida digital completa y luego pide a los asistentes de IA que la gestionen a través de flujos de eventos de largo plazo y múltiples servicios de backend interdependientes. En lugar de pedirle a la IA que resuma un correo electrónico, se le pide que monitoree simultáneamente su bandeja de entrada, calendario, aplicaciones de mensajería y sistemas de archivos, y luego tome las acciones adecuadas sin que se le indique.

Anuncio

La complejidad es sustancial. Las tareas implican un promedio de 10.1 servicios interdependientes, con algunos escenarios que alcanzan hasta 18. La prueba incluye 200 entornos de tareas verificados por humanos con un promedio de 191,7k palabras de contexto por entorno.

La evaluación de referencia analiza las interacciones tanto de la interfaz gráfica de usuario como de la interfaz de línea de comandos en múltiples dispositivos. También prueba el comportamiento proactivo: ¿puede la IA notar que algo necesita hacerse antes de que lo pidas?

La tubería de entrenamiento ofrece un atisbo de esperanza

El equipo de investigación desarrolló una tubería automatizada que generó 2,000 entornos de entrenamiento para ajustar finamente modelos de IA en estas tareas complejas de asistentes. Qwen3.5-27B, un modelo de código abierto más pequeño, mostró una mejora del 23,7% en el rendimiento después de ser ajustado finamente con trayectorias exitosas de tareas de estos entornos.

ClawBench y WildClawBench, que prueban tareas prácticas multipaso similares dentro del amplio ecosistema OpenClaw, muestran que los mejores modelos de IA obtienen puntuaciones entre el 33% y el 62%.

Por qué los inversores en criptomonedas deben prestar atención

La tasa de aprobación del 34,5% para GPT-5.5 es particularmente notable porque muchos proyectos de IA en cripto se construyen sobre los modelos de OpenAI. Los resultados del ajuste fino con Qwen3.5-27B sugieren que el entrenamiento especializado en trayectorias exitosas específicas del dominio puede mejorar significativamente el rendimiento. Esto significa que los proyectos de IA cripto más propensos a generar valor real son probablemente aquellos que invierten fuertemente en la curación de datos de entrenamiento de alta calidad provenientes de interacciones reales en la cadena.

La participación de Huawei en la evaluación de inteligencia artificial de código abierto, junto con el marco más amplio OpenClaw, indica que la carrera por construir asistentes de IA confiables se vuelve cada vez más global. La evaluación prueba específicamente el tipo de coordinación compleja, multietapa y multiservicio que los agentes de IA cripto necesitarían realizar de manera confiable: gestionar carteras DeFi en múltiples protocolos, monitorear propuestas de gobernanza, reequilibrar según las condiciones del mercado y puentear activos entre cadenas.

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.