Huawei ra mắt benchmark Claw-Anything để kiểm tra các tác nhân AI trong các nhiệm vụ trợ lý cá nhân

Đây là một con số khiêm tốn cho chu kỳ huyền thoại về AI: GPT-5.5, một trong những mô hình ngôn ngữ tiên tiến nhất trên thế giới, chỉ đạt 34,5% khi được yêu cầu hoạt động như một trợ lý cá nhân luôn sẵn sàng trong môi trường kỹ thuật số thực tế. Claude Opus 4.7 thậm chí còn kém hơn với 31,8%.

Những kết quả này đến từ Claw-Anything, một tiêu chuẩn mới được các nhà nghiên cứu của Huawei hợp tác với Đại học Công nghệ Bắc Kinh và Đại học Bắc Kinh công bố. Bài báo, được phát hành vào ngày 25 tháng 5 năm 2026, không chỉ kiểm tra xem AI có thể trả lời câu hỏi hay không, mà còn kiểm tra xem AI có thực sự có thể điều hành cuộc sống kỹ thuật số của bạn hay không.

Claw-Anything thực sự đo lường gì

Bộ chuẩn mô phỏng một cuộc sống kỹ thuật số hoàn chỉnh, sau đó yêu cầu các trợ lý AI quản lý nó qua các luồng sự kiện dài hạn và nhiều dịch vụ nền tảng phụ thuộc lẫn nhau. Thay vì yêu cầu AI tóm tắt một email, bạn đang yêu cầu nó theo dõi hộp thư đến, lịch, các ứng dụng nhắn tin và hệ thống tệp cùng lúc, sau đó thực hiện hành động phù hợp mà không cần được nhắc nhở.

Quảng cáo

Độ phức tạp là đáng kể. Các nhiệm vụ liên quan đến trung bình 10,1 dịch vụ phụ thuộc lẫn nhau, với một số kịch bản đạt tới 18. Bộ chuẩn bao gồm 200 môi trường nhiệm vụ được xác minh bởi con người, với trung bình 191,7k từ ngữ cảnh trên mỗi môi trường.

Bài kiểm tra đánh giá cả tương tác giao diện người dùng đồ họa và giao diện dòng lệnh trên nhiều thiết bị. Nó cũng kiểm tra hành vi chủ động: liệu AI có thể nhận ra cần làm điều gì đó trước khi bạn yêu cầu không?

Quy trình đào tạo mang đến một tia hy vọng

Đội ngũ nghiên cứu đã xây dựng một đường ống tự động tạo ra 2.000 môi trường huấn luyện để tinh chỉnh các mô hình AI trên các nhiệm vụ trợ lý phức tạp này. Qwen3.5-27B, một mô hình mã nguồn mở nhỏ hơn, đã cho thấy sự cải thiện hiệu suất 23,7% sau khi được tinh chỉnh trên các quỹ đạo nhiệm vụ thành công từ các môi trường này.

ClawBench và WildClawBench, những công cụ kiểm tra các nhiệm vụ thực tế nhiều bước tương tự trong hệ sinh thái OpenClaw rộng lớn hơn, cho thấy các mô hình AI hàng đầu đạt điểm từ 33% đến 62%.

Tại sao các nhà đầu tư tiền điện tử nên chú ý

Tỷ lệ đỗ 34,5% của GPT-5.5 đặc biệt đáng chú ý vì nhiều dự án AI trong lĩnh vực tiền mã hóa được xây dựng dựa trên các mô hình của OpenAI. Kết quả tinh chỉnh với Qwen3.5-27B cho thấy việc đào tạo chuyên sâu trên các quỹ đạo thành công đặc thù lĩnh vực có thể cải thiện đáng kể hiệu suất. Điều đó có nghĩa là các dự án AI tiền mã hóa có khả năng mang lại giá trị thực sự cao nhất có lẽ là những dự án đầu tư mạnh tay vào việc tuyển chọn dữ liệu đào tạo chất lượng cao từ các tương tác thực tế trên chuỗi.

Sự tham gia của Huawei vào việc đánh giá hiệu năng AI nguồn mở, cùng với khung OpenClaw rộng lớn hơn, cho thấy cuộc đua xây dựng trợ lý AI đáng tin cậy ngày càng mang tính toàn cầu. Bài kiểm tra này đặc biệt đánh giá khả năng phối hợp đa bước, đa dịch vụ phức tạp mà các tác nhân AI trong lĩnh vực tiền mã hóa cần thực hiện một cách đáng tin cậy: quản lý danh mục DeFi trên nhiều giao thức, theo dõi các đề xuất quản trị, tái cân bằng dựa trên điều kiện thị trường và chuyển đổi tài sản giữa các chuỗi.