OpenClaw AI Ajan Performans Testi: Başarı Oranına Göre İlk 10 Model Sıralaması

icon MarsBit
Paylaş
AI summary iconÖzet

OpenClaw gerçek dünya proxy görevlerinde hangi büyük model gerçekten en güçlü?

MyToken, AI kodlama ajantlarının gerçek yeteneklerini değerlendirmeye odaklanan şeffaf bir benchmark seti oluşturdu; tek bir temel boyut olan başarı oranına bakarak. Hız ve maliyet diğer bağımsız boyutlardır ve daha sonra ayrı ayrı analiz edilecektir. Tamamen açık ve tekrarlanabilir; sadece titiz değerlendirme kriterlerini ve en son başarı oranları Top 10 sıralamasını sunar.

Birinci: Başarı Oranı

Belirli kriter: Verilen görevleri AI ajantının tamamen ve doğru şekilde tamamlama oranı. Her görev, yüksek ölçüde standartlaştırılmış bir süreçle gerçekleştirilir:

  • Doğru kullanıcı talimatı

Akıllı ajanına tam olarak gönderin, gerçek kullanıcı isteği senaryosunu simüle etmek için

  • Beklenen Davranış

Kabul edilebilir uygulama yöntemlerini ve kritik karar noktalarını açıklayınız

  • Değerlendirme Kriterleri (kontrol listesi)

Tekil ve doğrulanabilir başarı kriterlerinin listesini oluşturun

İkinci: Üç farklı puanlama yöntemi

Bu değerlendirme, üç farklı puanlama yöntemiyle gerçekleştirilir.

  • Otomatik kontrol: Python betiği, dosya içeriğini, yürütme kayıtlarını, araç çağrılarını vb. nesnel sonuçları doğrudan doğrular

  • LLM büyük model hakemi: Claude Opus, ayrıntılı bir ölçek kullanarak puan veriyor (içerik kalitesi, uygunluk, tamamlık vb.)

  • Karışık mod: Otomatik nesnel kontrol + LLM hakemi niteliksel değerlendirme birleşimi

Tüm görev tanımları, Prompt'lar ve puanlama mantığı, tekrar test ve doğrulama amacıyla tamamen açıklanmıştır.

Üçüncü: Değerlendirme için görev

Bu performans testi, 23 farklı kategoriye ait görevleri kapsar. Temel etkileşimler, dosya/kod işlemleri, içerik oluşturma, araştırma ve analiz, sistem araçları çağırma, bellek kalıcılığı gibi birçok boyutu içerir ve geliştiricilerin OpenClaw'ı günlük kullanım senaryolarına yüksek oranda uygun şekilde yansıtır:

  1. Akıllı Kontrol (Otomatik) — Basit komutları işleyin ve selamlaşmaları doğru şekilde yanıtlayın

  2. Takvim Etkinliği Oluşturma (Otomatik) — Doğal Dil ile Standart ICS Takvim Dosyası Üretimi

  3. Hisse Senedi Fiyatı Araştırması (Otomatik) — Gerçek zamanlı hisse senedi fiyatlarını sorgulayın ve biçimlendirilmiş raporlar oluşturun

  4. Blog Post Writing (LLM Hakem) — Yaklaşık 500 kelime yapılandırılmış Markdown blog yazısı

  5. Hava Durumu Script Oluşturma (Otomatikleştirilmiş) — Hata işleme ile Python hava durumu API scripti yazın

  6. Belge Özetleme (LLM Hakemi) — Üçlü yapıyla ana konuları özetleme

  7. Teknoloji Konferansı Araştırması (LLM Hakemi) — 5 gerçek teknoloji konferansının bilgilerini (ad, tarih, yer, bağlantı) araştırıp düzenleyin

  8. Profesyonel E-posta Tasarımı (LLM Hakemi) — Toplantıyı kibarca reddetmek ve alternatif bir çözüm önermek

  9. Bağlamdan Bellek Alımı (Otomatik) — Proje notlarından tarihleri, üyeleri, teknoloji yığınlarını vb. hassas şekilde çıkarın

  10. Dosya Yapısı Oluşturma (Otomatik) —— Standart proje dizini, README ve .gitignore dosyalarını otomatik olarak oluşturun

  11. Çok adımlı API İş Akışı (Karışık) — Yapılandırmayı oku → Çağrı betiği yaz → Tam olarak belgele

  12. ClawdHub Becerisini Yükleyin (otomasyon) — Beceri deposundan yükleyin ve kullanılabilirliği doğrulayın

  13. Hava durumu türü becerilerini arayın ve doğru şekilde yükleyin

  14. AI Görüntü Oluşturma (Karışık) — Açıklamaya göre görüntü oluşturup kaydedin

  15. Yapay Zeka tarafından oluşturulan blogu insanlaştırın (LLM hakemi) — Makine gibi yazıları doğal bir dille yeniden yazın

  16. Günlük Araştırma Özeti (LLM Hakemi) — Birden fazla belgeden oluşan tutarlı günlük özet

  17. E-posta Gelen Kutusu Sınıflandırma (Karışık) — Birden fazla e-postayı analiz edip aciliyete göre rapor oluşturun

  18. E-posta Arama ve Özetleme (Karışık) — Arşivlenmiş e-postaları arayın ve kritik bilgileri çıkarın

  19. Rekabetçi Pazar Araştırması (Karışık) — Kurumsal APM Alanında Rakip Analizi

  20. CSV ve Excel Özetleme (Karışık) — Tablo dosyalarını analiz edin ve çıkarımlar sunun

  21. ELI5 PDF Özetleme (LLM Hakemi) — Teknik PDF'leri 5 yaşındaki bir çocuğun anlayabileceği şekilde açıklayın

  22. OpenClaw Raporu Anlama (Otomatikleştirilmiş) — Araştırma raporları PDF’lerinden belirli sorulara doğrulukla cevap verme

  23. İkinci Beyin Bilgi Kalıcılığı (Karışık) — Oturumlar arasında bilgi saklama ve doğru hatırlama

Dört: Temel Sonuç: Başarı Oranı En İyi 10 Büyük Model Sıralaması (En İyi %/Ortalama %)

  • Veriler 7 Nisan 2026 itibarıyla güncellenmiştir.

  • En iyi %, tek seferlik en yüksek başarı oranı; Ortalama %, çoklu ortalama başarı oranıdır ve istikrarı daha iyi yansıtır.

En yüksek başarı oranına sahip ilk on model şunlardır:

  1. anthropic/claude-opus-4.6 (Anthropic) —— %93,3 / %82,0

  2. arcee-ai/trinity-large-thinking (Arcee AI) —— 91,9% / 91,9%

  3. OpenAI/GPT-5.4 (OpenAI) — 90,5% / 81,7%

  4. qwen/qwen3.5-27b (Qwen) —— %90,0 / %78,5

  5. minimax/minimax-m2.7 (MiniMax) — 89,8% / 83,2%

  6. anthropic/claude-haiku-4.5 (Anthropic) —— 89,5% / 78,1%

  7. qwen/qwen3.5-397b-a17b (Qwen) —— %89,1 / %80,4

  8. xiaomi/mimo-v2-flash (Xiaomi) —— %88,8 / %70,2

  9. qwen/qwen3.6-plus-preview (Qwen) —— 88,6% / 84,0%

  10. nvidia/nemotron-3-super-120b-a12b (NVIDIA) —— 88,6% / 75,5%

OpenClaw

Claude Opus 4.6, şu anda %93,3'lük en yüksek başarı oranı ile öncü konumda, ancak Arcee'nin Trinity'si ortalama stabilite açısından dikkat çekiyor; Qwen serisinden de birkaç model onluk tabloya girdi ve yüksek maliyet-verim oranı potansiyeli gösteriyor. Başarı oranı temel bir eşiktir; sonraki aşamada hız ve maliyet boyutları gerçek deneyimi daha da etkileyecektir.

Bu 23 görev referansı tamamen şeffaf olup, kendi senaryonuza göre test yapmanızı şiddetle öneririz. Daha fazla model sıralaması için MyToken'ın yakında çıkaracağı Ajan Sıralaması özelliğini bekleyin.

(Veriler, PinchBench tarafından yayınlanan OpenClaw ajans performans testlerinden alınmıştır ve sürekli güncellenmektedir.)

Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir. Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.