Bảng xếp hạng AI Agent OpenClaw: 10 mô hình hàng đầu được xếp hạng theo tỷ lệ thành công

icon MarsBit
Chia sẻ
AI summary iconTóm tắt

Bạn muốn biết mô hình nào mạnh nhất trong các nhiệm vụ đại lý thực tế của OpenClaw?

MyToken đã tổng hợp một bộ tiêu chuẩn minh bạch tập trung vào đánh giá năng lực thực tế của các đại lý mã hóa AI, chỉ xem xét một chiều cạnh cốt lõi là tỷ lệ thành công (tốc độ và chi phí thuộc về các chiều cạnh độc lập khác, sẽ được phân tích riêng sau này). Hoàn toàn công khai, có thể tái tạo, chỉ trình bày tiêu chuẩn đánh giá nghiêm ngặt + bảng xếp hạng Top 10 tỷ lệ thành công mới nhất.

I. Tiêu chí đánh giá: Tỷ lệ thành công

Tiêu chuẩn cụ thể: Tỷ lệ số lượng nhiệm vụ được đại lý AI hoàn thành đầy đủ và chính xác. Mỗi nhiệm vụ đều sử dụng quy trình chuẩn hóa cao:

  • Chỉ dẫn người dùng chính xác

Gửi đầy đủ cho tác nhân để mô phỏng cảnh yêu cầu thực tế của người dùng

  • Hành vi mong đợi

Đều nêu rõ các cách tiếp cận được chấp nhận và các điểm quyết định then chốt

  • Tiêu chí đánh giá (danh sách kiểm tra)

Liệt kê danh sách các tiêu chí xác định thành công dưới dạng các yếu tố nguyên tử có thể kiểm tra từng mục một

Hai, ba phương pháp đánh giá

Lần đánh giá này chủ yếu sử dụng 3 phương pháp xếp hạng

  • Kiểm tra tự động: Script Python xác minh trực tiếp các kết quả khách quan như nội dung tệp, bản ghi thực thi, gọi công cụ, v.v.

  • Đánh giá mô hình LLM lớn: Claude Opus chấm điểm theo thang điểm chi tiết (chất lượng nội dung, mức độ phù hợp, tính toàn vẹn, v.v.)

  • Chế độ hỗn hợp: Kết hợp kiểm tra khách quan tự động với đánh giá định tính của LLM

Tất cả các định nghĩa nhiệm vụ, Prompt và logic đánh giá đều được công khai để có thể kiểm tra lại và xác minh.

Ba, nhiệm vụ dùng để đánh giá

Bài kiểm tra hiệu năng này bao gồm 23 nhiệm vụ thuộc các danh mục khác nhau, bao quát nhiều khía cạnh như tương tác cơ bản, thao tác tệp/mã, sáng tạo nội dung, nghiên cứu và phân tích, gọi công cụ hệ thống, lưu trữ bộ nhớ lâu dài, v.v., phản ánh sát thực các tình huống mà nhà phát triển thường xuyên sử dụng OpenClaw:

  1. Kiểm tra tính hợp lý (tự động) — Xử lý các lệnh đơn giản và trả lời lời chào đúng cách

  2. Tạo sự kiện lịch (tự động hóa) — Tạo tệp lịch ICS chuẩn từ ngôn ngữ tự nhiên

  3. Nghiên cứu giá cổ phiếu (tự động hóa) — Tra cứu giá cổ phiếu theo thời gian thực và xuất báo cáo định dạng

  4. Blog Post Writing (LLM Judge) — Viết một bài blog Markdown có cấu trúc khoảng 500 từ

  5. Tạo kịch bản thời tiết (tự động hóa) — Viết kịch bản Python API thời tiết có xử lý lỗi

  6. Tóm tắt tài liệu (Đánh giá bởi LLM) — Tóm tắt cô đọng 3 đoạn về chủ đề cốt lõi

  7. Nghiên cứu Hội nghị Công nghệ (Ban giám khảo LLM) — Tổng hợp thông tin từ 5 hội nghị công nghệ thực tế (tên, ngày tháng, địa điểm, liên kết)

  8. Soạn email chuyên nghiệp (LLM trọng tài) — Từ chối lịch họp một cách lịch sự và đề xuất giải pháp thay thế

  9. Truy xuất bộ nhớ từ ngữ cảnh (tự động hóa) — Trích xuất chính xác ngày tháng, thành viên, công nghệ, v.v. từ ghi chú dự án

  10. Tạo cấu trúc tệp (tự động hóa) — Tự động tạo thư mục dự án chuẩn, README, .gitignore

  11. Quy trình API nhiều bước (hỗn hợp) — Đọc cấu hình → Viết script gọi → Tài liệu hóa đầy đủ

  12. Cài đặt kỹ năng ClawdHub (tự động hóa) — cài đặt từ kho kỹ năng và xác minh tính khả dụng

  13. Tìm và cài đặt Kỹ năng (tự động hóa) — tìm kiếm và cài đặt đúng kỹ năng về thời tiết

  14. Tạo hình ảnh AI (hỗn hợp) — Tạo và lưu hình ảnh theo mô tả

  15. Làm cho bài viết do AI tạo trở nên tự nhiên hơn (bộ xét duyệt LLM) — biến nội dung mang tính máy móc thành ngôn ngữ nói tự nhiên

  16. Tóm tắt nghiên cứu hàng ngày (LLM arbiter) – Tổng hợp nhiều tài liệu thành bản tóm tắt hàng ngày mạch lạc

  17. Phân loại Hộp thư đến (hỗn hợp) — Phân tích nhiều email và sắp xếp báo cáo theo mức độ khẩn cấp

  18. Tìm kiếm và tóm tắt email (hỗn hợp) — Tìm kiếm email trong lưu trữ và rút ra thông tin quan trọng

  19. Nghiên cứu thị trường cạnh tranh (hỗn hợp) — Phân tích đối thủ trong lĩnh vực APM doanh nghiệp

  20. Tổng hợp CSV và Excel (hỗn hợp) — Phân tích tệp bảng và đưa ra nhận xét

  21. Tóm tắt PDF bằng ngôn ngữ dễ hiểu như giải thích cho trẻ 5 tuổi (Ban giám khảo LLM)

  22. Hiểu báo cáo OpenClaw (tự động hóa) — Trả lời chính xác các câu hỏi cụ thể từ PDF báo cáo nghiên cứu

  23. Bền vững hóa tri thức Second Brain (hỗn hợp) — Lưu trữ và nhớ chính xác thông tin giữa các phiên

Bốn: Kết luận cốt lõi: Bảng xếp hạng 10 mô hình có tỷ lệ thành công cao nhất (Tỷ lệ % Tốt nhất / Tỷ lệ % Trung bình)

  • Dữ liệu được cập nhật đến ngày 7 tháng 4 năm 2026

  • Best % là tỷ lệ thành công cao nhất trong một lần, Avg % là tỷ lệ thành công trung bình nhiều lần, phản ánh tốt hơn độ ổn định

Dưới đây là mười mô hình có tỷ lệ thành công cao nhất

  1. anthropic/claude-opus-4.6 (Anthropic) —— 93,3% / 82,0%

  2. arcee-ai/trinity-large-thinking (Arcee AI) —— 91,9% / 91,9%

  3. openai/gpt-5.4 (OpenAI) —— 90,5% / 81,7%

  4. qwen/qwen3.5-27b (Qwen) —— 90,0% / 78,5%

  5. minimax/minimax-m2.7 (MiniMax) — 89,8% / 83,2%

  6. anthropic/claude-haiku-4.5 (Anthropic) —— 89,5% / 78,1%

  7. qwen/qwen3.5-397b-a17b (Qwen) —— 89,1% / 80,4%

  8. xiaomi/mimo-v2-flash (Xiaomi) —— 88,8% / 70,2%

  9. qwen/qwen3.6-plus-preview (Qwen) —— 88,6% / 84,0%

  10. nvidia/nemotron-3-super-120b-a12b (NVIDIA) —— 88,6% / 75,5%

OpenClaw

Claude Opus 4.6 hiện dẫn đầu với tỷ lệ thành công cao nhất là 93,3%, nhưng Trinity của Arcee nổi bật về độ ổn định trung bình, trong khi nhiều mô hình trong chuỗi Qwen cũng lọt vào top 10, thể hiện tiềm năng chi phí - hiệu quả mạnh mẽ. Tỷ lệ thành công là ngưỡng cơ bản, các yếu tố về tốc độ và chi phí trong tương lai sẽ tiếp tục ảnh hưởng đến trải nghiệm thực tế.

Bộ tiêu chuẩn 23 nhiệm vụ này hoàn toàn minh bạch, chúng tôi khuyến nghị mạnh mẽ mọi người thực hiện kiểm tra thực tế dựa trên ngữ cảnh của riêng mình. Hãy chờ đón tính năng Bảng xếp hạng Agent sắp ra mắt của MyToken để xem thêm các bảng xếp hạng mô hình khác.

(Dữ liệu được lấy từ bài kiểm tra đại diện OpenClaw do PinchBench công khai, đang được cập nhật liên tục.)

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.