ฮูเวย์เปิดตัวการทดสอบ Claw-Anything เพื่อทดสอบตัวแทน AI ในการทำงานช่วยเหลือส่วนบุคคล

นี่คือตัวเลขที่ทำให้ตระหนักถึงวัฏจักรการให้ความหวังเกี่ยวกับปัญญาประดิษฐ์: GPT-5.5 หนึ่งในโมเดลภาษาที่ล้ำสมัยที่สุดของโลก ได้คะแนนเพียง 34.5% เมื่อถูกขอให้ทำหน้าที่เป็นผู้ช่วยส่วนตัวที่ทำงานตลอดเวลาในสภาพแวดล้อมดิจิทัลที่สมจริง Claude Opus 4.7 ทำได้แย่กว่าอีกที่ 31.8%

ผลลัพธ์เหล่านี้มาจาก Claw-Anything ซึ่งเป็นมาตรฐานใหม่ที่นักวิจัยจาก Huawei ร่วมกับสถาบันเทคโนโลยีปักกิ่งและมหาวิทยาลัยปักกิ่งเผยแพร่ งานวิจัยนี้ซึ่งเผยแพร่เมื่อวันที่ 25 พฤษภาคม 2026 ไม่ได้แค่ทดสอบว่า AI สามารถตอบคำถามได้หรือไม่ แต่ยังทดสอบว่า AI สามารถดำเนินชีวิตดิจิทัลของคุณได้จริงหรือไม่

สิ่งที่ Claw-Anything วัดจริงๆ

การทดสอบนี้จำลองชีวิตดิจิทัลทั้งหมด แล้วขอให้ผู้ช่วย AI จัดการมันผ่านสตรีมเหตุการณ์ระยะยาวและบริการแบ็กเอนด์หลายรายการที่พึ่งพาอาศัยกัน แทนที่จะขอให้ AI สรุปอีเมล คุณกำลังขอให้มันตรวจสอบกล่องจดหมาย ปฏิทิน แอปส่งข้อความ และระบบไฟล์พร้อมกัน แล้วดำเนินการที่เหมาะสมโดยไม่ต้องได้รับคำสั่ง

โฆษณา

ความซับซ้อนมีระดับสูงมาก งานต่างๆ เกี่ยวข้องกับบริการที่พึ่งพา lẫnกันเฉลี่ย 10.1 บริการ โดยบางสถานการณ์อาจสูงถึง 18 บริการ การทดสอบมาตรฐานรวมถึงสภาพแวดล้อมงาน 200 แบบที่ได้รับการตรวจสอบโดยมนุษย์ โดยมีคำบริบทเฉลี่ย 191.7k คำต่อสภาพแวดล้อม

การประเมินมาตรฐานนี้วัดการโต้ตอบทั้งผ่านอินเทอร์เฟซกราฟิกและอินเทอร์เฟซบรรทัดคำสั่งบนอุปกรณ์หลายประเภท นอกจากนี้ยังทดสอบพฤติกรรมเชิงรุก: ปัญญาประดิษฐ์สามารถสังเกตเห็นสิ่งที่ต้องทำก่อนที่คุณจะขอหรือไม่

กระบวนการฝึกอบรมเสนอความหวังเล็กน้อย

ทีมวิจัยได้สร้างระบบอัตโนมัติที่สร้างสภาพแวดล้อมการฝึกอบรม 2,000 แห่งสำหรับการปรับแต่งโมเดลปัญญาประดิษฐ์ให้ทำงานกับภารกิจผู้ช่วยที่ซับซ้อนเหล่านี้ โมเดลโอเพนซอร์สขนาดเล็ก Qwen3.5-27B แสดงผลลัพธ์ดีขึ้น 23.7% หลังจากถูกปรับแต่งด้วยเส้นทางภารกิจที่ประสบความสำเร็จจากสภาพแวดล้อมเหล่านี้

ClawBench และ WildClawBench ซึ่งทดสอบงานปฏิบัติแบบหลายขั้นตอนที่คล้ายกันภายในระบบนิเวศ OpenClaw โดยรวม แสดงให้เห็นว่าโมเดล AI ชั้นนำได้คะแนนอยู่ระหว่าง 33% ถึง 62%

เหตุผลที่นักลงทุนคริปโตควรให้ความสนใจ

อัตราการผ่าน 34.5% ของ GPT-5.5 นั้นโดดเด่นเป็นพิเศษ เพราะโครงการ AI ด้านคริปโตจำนวนมากถูกสร้างขึ้นบนพื้นฐานของโมเดลของ OpenAI ผลการปรับแต่งด้วย Qwen3.5-27B ชี้ให้เห็นว่าการฝึกอบรมเฉพาะด้านบนเส้นทางที่ประสบความสำเร็จในสาขาเฉพาะสามารถปรับปรุงประสิทธิภาพได้อย่างมีนัยสำคัญ ซึ่งหมายความว่าโครงการ AI ด้านคริปโตที่มีแนวโน้มจะสร้างมูลค่าจริงมากที่สุดน่าจะเป็นโครงการที่ลงทุนอย่างหนักในการคัดสรรข้อมูลการฝึกอบรมคุณภาพสูงจากปฏิสัมพันธ์จริงบนโซ่

การมีส่วนร่วมของ Huawei ในการทดสอบมาตรฐาน AI แบบเปิดแหล่งที่มา ร่วมกับกรอบงาน OpenClaw โดยรวม บ่งชี้ว่าการแข่งขันเพื่อสร้างผู้ช่วย AI ที่เชื่อถือได้กำลังกลายเป็นการแข่งขันระดับโลกมากขึ้น การทดสอบนี้มุ่งเน้นไปที่การประสานงานขั้นตอนหลายขั้นตอนและหลายบริการที่ตัวแทน AI ด้านคริปโตต้องดำเนินการอย่างเชื่อถือได้: การจัดการพอร์ตโฟลิโอ DeFi ข้ามโปรโตคอลหลายตัว การติดตามข้อเสนอการกำกับดูแล การปรับสมดุลตามสภาวะตลาด และการเชื่อมโยงสินทรัพย์ระหว่างโซ่