Huawei, AI Ajantlarını Kişisel Asistan Görevlerinde Test Etmek İçin Claw-Anything Benchmarkini İtiraf Ediyor

Yapay zeka hiperbol döngüsü için şunu söyleyelim: Dünyanın en gelişmiş dil modellerinden biri olan GPT-5.5, gerçekçi bir dijital ortamda sürekli açık bir kişisel asistan olarak görev yapma konusunda sadece %34,5 puan aldı. Claude Opus 4.7 ise %31,8 ile daha kötü bir performans sergiledi.

Bu sonuçlar, Huawei araştırmacılarının Pekin Teknoloji Enstitüsü ve Pekin Üniversitesi ile ortaklaşa yayımladığı yeni bir benchmark olan Claw-Anything'dan elde edilmiştir. 25 Mayıs 2026 tarihinde yayınlanan makale, AI'nın sorulara cevap verebiliyor olup olmadığını değil, AI'nın dijital hayatınızı gerçekten yönetip yönetemeyeceğini test eder.

Claw-Anything aslında neyi ölçer

Referans, tam bir dijital yaşamı simüle eder ve ardından yapay zeka asistanlarına uzun vadeli olay akışları ve çoklu birbirine bağlı arka uç hizmetleri boyunca bu yaşamı yönetmelerini ister. AI'ya bir e-postayı özetlemesini değil, posta kutunuzu, takviminizi, mesajlaşma uygulamalarınızı ve dosya sistemlerinizi aynı anda izlemesini ve bunlara uygun eylemlerde bulunmasını istersiniz.

Reklam

Karmaşıklık önemli düzeyde. Görevler, ortalama 10,1 birbirine bağımlı hizmeti içeriyor ve bazı senaryolar 18'e kadar çıkıyor. Referans, her bir ortamda ortalama 191,7k bağlam kelimesiyle 200 insan tarafından doğrulanmış görev ortamını içeriyor.

Benchmark, birden fazla cihazda grafiksel kullanıcı arayüzü ve komut satırı arayüzü etkileşimlerini değerlendirir. Aynı zamanda proaktif davranışları test eder: Yapmanız gereken bir şeyi, siz sormadan önce AI fark edebilir mi?

Eğitim hattı bir umut ışığı sunuyor

Araştırma ekibi, bu karmaşık asistan görevlerinde AI modellerini ince ayarlamak için 2.000 eğitim ortamı oluşturan otomatik bir işlem hattı geliştirdi. Qwen3.5-27B, daha küçük bir açık kaynak modeli, bu ortamlardan elde edilen başarılı görev yörüngeleriyle ince ayarlandıktan sonra %23,7lik bir performans artışı gösterdi.

Geniş OpenClaw ekosisteminde benzer çok adımlı pratik görevleri test eden ClawBench ve WildClawBench, en iyi AI modellerinin %33 ile %62 arasında puan aldığını göstermektedir.

Neden kripto yatırımcılar dikkat etmelidir

GPT-5.5 için %34,5 geçme oranı özellikle dikkat çekici çünkü birçok kripto AI projesi OpenAI modelleri üzerine kuruludur. Qwen3.5-27B ile yapılan ince ayar sonuçları, alan özgü başarılı senaryolar üzerindeki özel eğitimin performansı anlamlı şekilde artırabileceğini göstermektedir. Bu da, gerçek değer sunma olasılığı en yüksek kripto AI projelerinin, gerçek zincir içi etkileşimlerden yüksek kaliteli eğitim verileri derlemeye büyük yatırımlar yaptığı anlamına gelir.

Huawei'nin açık kaynaklı AI performans testlerine, genel OpenClaw çerçevesiyle birlikte katılımı, güvenilir AI asistanları oluşturma yarışının giderek küresel hale geldiğini gösteriyor. Bu performans testi, kripto AI ajentlerinin güvenilir bir şekilde gerçekleştirmesi gereken karmaşık, çok adımlı, çok hizmetli koordinasyon türünü özellikle test ediyor: birden fazla protokol üzerinde DeFi portföylerini yönetmek, yönetim önerilerini izlemek, piyasa koşullarına göre yeniden dengelemek ve varlıkları zincirler arasında köprülemek.