Huawei, AI Ajantlarını Kişisel Asistan Görevlerinde Test Etmek İçin Claw-Anything Benchmarkini İtiraf Ediyor

iconCryptoBriefing
Paylaş
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconÖzet

expand icon
Huawei, 25 Mayıs 2026 tarihinde Beijing Teknoloji Enstitüsü ve Pekin Üniversitesi ile ortaklık kurarak Claw-Anything benchmark'ını sundu. Bu benchmark, AI agenterinin çoklu hizmetler boyunca karmaşık dijital yaşam görevlerini yönetme yeteneklerini test eder. GPT-5.5 %34,5 puan alırken, Claude Opus 4.7 %31,8 puan elde etti. Benchmark, 200 insan tarafından doğrulanmış görev ve ortalama 191,7k bağlam kelimesi içerir. Bir eğitim hattı, Qwen3.5-27B'nin performansını %23,7 artırıldı. Bu AI + kripto haber güncellemesi, dijital varlık haberlerini ve AI yeteneklerini değerlendirme için yeni araçları vurgulamaktadır.

Yapay zeka hiperbol döngüsü için şunu söyleyelim: Dünyanın en gelişmiş dil modellerinden biri olan GPT-5.5, gerçekçi bir dijital ortamda sürekli açık bir kişisel asistan olarak görev yapma konusunda sadece %34,5 puan aldı. Claude Opus 4.7 ise %31,8 ile daha kötü bir performans sergiledi.

Bu sonuçlar, Huawei araştırmacılarının Pekin Teknoloji Enstitüsü ve Pekin Üniversitesi ile ortaklaşa yayımladığı yeni bir benchmark olan Claw-Anything'dan elde edilmiştir. 25 Mayıs 2026 tarihinde yayınlanan makale, AI'nın sorulara cevap verebiliyor olup olmadığını değil, AI'nın dijital hayatınızı gerçekten yönetip yönetemeyeceğini test eder.

Claw-Anything aslında neyi ölçer

Referans, tam bir dijital yaşamı simüle eder ve ardından yapay zeka asistanlarına uzun vadeli olay akışları ve çoklu birbirine bağlı arka uç hizmetleri boyunca bu yaşamı yönetmelerini ister. AI'ya bir e-postayı özetlemesini değil, posta kutunuzu, takviminizi, mesajlaşma uygulamalarınızı ve dosya sistemlerinizi aynı anda izlemesini ve bunlara uygun eylemlerde bulunmasını istersiniz.

Reklam

Karmaşıklık önemli düzeyde. Görevler, ortalama 10,1 birbirine bağımlı hizmeti içeriyor ve bazı senaryolar 18'e kadar çıkıyor. Referans, her bir ortamda ortalama 191,7k bağlam kelimesiyle 200 insan tarafından doğrulanmış görev ortamını içeriyor.

Benchmark, birden fazla cihazda grafiksel kullanıcı arayüzü ve komut satırı arayüzü etkileşimlerini değerlendirir. Aynı zamanda proaktif davranışları test eder: Yapmanız gereken bir şeyi, siz sormadan önce AI fark edebilir mi?

Eğitim hattı bir umut ışığı sunuyor

Araştırma ekibi, bu karmaşık asistan görevlerinde AI modellerini ince ayarlamak için 2.000 eğitim ortamı oluşturan otomatik bir işlem hattı geliştirdi. Qwen3.5-27B, daha küçük bir açık kaynak modeli, bu ortamlardan elde edilen başarılı görev yörüngeleriyle ince ayarlandıktan sonra %23,7lik bir performans artışı gösterdi.

Geniş OpenClaw ekosisteminde benzer çok adımlı pratik görevleri test eden ClawBench ve WildClawBench, en iyi AI modellerinin %33 ile %62 arasında puan aldığını göstermektedir.

Neden kripto yatırımcılar dikkat etmelidir

GPT-5.5 için %34,5 geçme oranı özellikle dikkat çekici çünkü birçok kripto AI projesi OpenAI modelleri üzerine kuruludur. Qwen3.5-27B ile yapılan ince ayar sonuçları, alan özgü başarılı senaryolar üzerindeki özel eğitimin performansı anlamlı şekilde artırabileceğini göstermektedir. Bu da, gerçek değer sunma olasılığı en yüksek kripto AI projelerinin, gerçek zincir içi etkileşimlerden yüksek kaliteli eğitim verileri derlemeye büyük yatırımlar yaptığı anlamına gelir.

Huawei'nin açık kaynaklı AI performans testlerine, genel OpenClaw çerçevesiyle birlikte katılımı, güvenilir AI asistanları oluşturma yarışının giderek küresel hale geldiğini gösteriyor. Bu performans testi, kripto AI ajentlerinin güvenilir bir şekilde gerçekleştirmesi gereken karmaşık, çok adımlı, çok hizmetli koordinasyon türünü özellikle test ediyor: birden fazla protokol üzerinde DeFi portföylerini yönetmek, yönetim önerilerini izlemek, piyasa koşullarına göre yeniden dengelemek ve varlıkları zincirler arasında köprülemek.

Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir. Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.