Huawei ra mắt benchmark Claw-Anything để kiểm tra các tác nhân AI trong các nhiệm vụ trợ lý cá nhân

iconCryptoBriefing
Chia sẻ
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconTóm tắt

expand icon
Huawei đã ra mắt benchmark Claw-Anything vào ngày 25 tháng 5 năm 2026, hợp tác cùng Đại học Công nghệ Bắc Kinh và Đại học Bắc Kinh. Benchmark này kiểm tra khả năng của các tác nhân AI trong việc quản lý các nhiệm vụ cuộc sống kỹ thuật số phức tạp trên nhiều dịch vụ. GPT-5.5 đạt 34,5%, trong khi Claude Opus 4.7 đạt 31,8%. Benchmark bao gồm 200 nhiệm vụ được xác minh bởi con người với trung bình 191,7k từ ngữ cảnh. Một đường ống đào tạo đã tăng hiệu suất của Qwen3.5-27B lên 23,7%. Bản cập nhật tin tức AI + tiền điện tử này làm nổi bật các công cụ mới để đánh giá tin tức tài sản kỹ thuật số và khả năng AI.

Đây là một con số khiêm tốn cho chu kỳ huyền thoại về AI: GPT-5.5, một trong những mô hình ngôn ngữ tiên tiến nhất trên thế giới, chỉ đạt 34,5% khi được yêu cầu hoạt động như một trợ lý cá nhân luôn sẵn sàng trong môi trường kỹ thuật số thực tế. Claude Opus 4.7 thậm chí còn kém hơn với 31,8%.

Những kết quả này đến từ Claw-Anything, một tiêu chuẩn mới được các nhà nghiên cứu của Huawei hợp tác với Đại học Công nghệ Bắc Kinh và Đại học Bắc Kinh công bố. Bài báo, được phát hành vào ngày 25 tháng 5 năm 2026, không chỉ kiểm tra xem AI có thể trả lời câu hỏi hay không, mà còn kiểm tra xem AI có thực sự có thể điều hành cuộc sống kỹ thuật số của bạn hay không.

Claw-Anything thực sự đo lường gì

Bộ chuẩn mô phỏng một cuộc sống kỹ thuật số hoàn chỉnh, sau đó yêu cầu các trợ lý AI quản lý nó qua các luồng sự kiện dài hạn và nhiều dịch vụ nền tảng phụ thuộc lẫn nhau. Thay vì yêu cầu AI tóm tắt một email, bạn đang yêu cầu nó theo dõi hộp thư đến, lịch, các ứng dụng nhắn tin và hệ thống tệp cùng lúc, sau đó thực hiện hành động phù hợp mà không cần được nhắc nhở.

Quảng cáo

Độ phức tạp là đáng kể. Các nhiệm vụ liên quan đến trung bình 10,1 dịch vụ phụ thuộc lẫn nhau, với một số kịch bản đạt tới 18. Bộ chuẩn bao gồm 200 môi trường nhiệm vụ được xác minh bởi con người, với trung bình 191,7k từ ngữ cảnh trên mỗi môi trường.

Bài kiểm tra đánh giá cả tương tác giao diện người dùng đồ họa và giao diện dòng lệnh trên nhiều thiết bị. Nó cũng kiểm tra hành vi chủ động: liệu AI có thể nhận ra cần làm điều gì đó trước khi bạn yêu cầu không?

Quy trình đào tạo mang đến một tia hy vọng

Đội ngũ nghiên cứu đã xây dựng một đường ống tự động tạo ra 2.000 môi trường huấn luyện để tinh chỉnh các mô hình AI trên các nhiệm vụ trợ lý phức tạp này. Qwen3.5-27B, một mô hình mã nguồn mở nhỏ hơn, đã cho thấy sự cải thiện hiệu suất 23,7% sau khi được tinh chỉnh trên các quỹ đạo nhiệm vụ thành công từ các môi trường này.

ClawBench và WildClawBench, những công cụ kiểm tra các nhiệm vụ thực tế nhiều bước tương tự trong hệ sinh thái OpenClaw rộng lớn hơn, cho thấy các mô hình AI hàng đầu đạt điểm từ 33% đến 62%.

Tại sao các nhà đầu tư tiền điện tử nên chú ý

Tỷ lệ đỗ 34,5% của GPT-5.5 đặc biệt đáng chú ý vì nhiều dự án AI trong lĩnh vực tiền mã hóa được xây dựng dựa trên các mô hình của OpenAI. Kết quả tinh chỉnh với Qwen3.5-27B cho thấy việc đào tạo chuyên sâu trên các quỹ đạo thành công đặc thù lĩnh vực có thể cải thiện đáng kể hiệu suất. Điều đó có nghĩa là các dự án AI tiền mã hóa có khả năng mang lại giá trị thực sự cao nhất có lẽ là những dự án đầu tư mạnh tay vào việc tuyển chọn dữ liệu đào tạo chất lượng cao từ các tương tác thực tế trên chuỗi.

Sự tham gia của Huawei vào việc đánh giá hiệu năng AI nguồn mở, cùng với khung OpenClaw rộng lớn hơn, cho thấy cuộc đua xây dựng trợ lý AI đáng tin cậy ngày càng mang tính toàn cầu. Bài kiểm tra này đặc biệt đánh giá khả năng phối hợp đa bước, đa dịch vụ phức tạp mà các tác nhân AI trong lĩnh vực tiền mã hóa cần thực hiện một cách đáng tin cậy: quản lý danh mục DeFi trên nhiều giao thức, theo dõi các đề xuất quản trị, tái cân bằng dựa trên điều kiện thị trường và chuyển đổi tài sản giữa các chuỗi.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.