OpenClaw AI Ajan Performans Testi: Başarı Oranına Göre İlk 10 Model Sıralaması

OpenClaw gerçek dünya proxy görevlerinde hangi büyük model gerçekten en güçlü?

MyToken, AI kodlama ajantlarının gerçek yeteneklerini değerlendirmeye odaklanan şeffaf bir benchmark seti oluşturdu; tek bir temel boyut olan başarı oranına bakarak. Hız ve maliyet diğer bağımsız boyutlardır ve daha sonra ayrı ayrı analiz edilecektir. Tamamen açık ve tekrarlanabilir; sadece titiz değerlendirme kriterlerini ve en son başarı oranları Top 10 sıralamasını sunar.

Birinci: Başarı Oranı

Belirli kriter: Verilen görevleri AI ajantının tamamen ve doğru şekilde tamamlama oranı. Her görev, yüksek ölçüde standartlaştırılmış bir süreçle gerçekleştirilir:

Doğru kullanıcı talimatı

Akıllı ajanına tam olarak gönderin, gerçek kullanıcı isteği senaryosunu simüle etmek için

Beklenen Davranış

Kabul edilebilir uygulama yöntemlerini ve kritik karar noktalarını açıklayınız

Değerlendirme Kriterleri (kontrol listesi)

Tekil ve doğrulanabilir başarı kriterlerinin listesini oluşturun

İkinci: Üç farklı puanlama yöntemi

Bu değerlendirme, üç farklı puanlama yöntemiyle gerçekleştirilir.

Otomatik kontrol: Python betiği, dosya içeriğini, yürütme kayıtlarını, araç çağrılarını vb. nesnel sonuçları doğrudan doğrular
LLM büyük model hakemi: Claude Opus, ayrıntılı bir ölçek kullanarak puan veriyor (içerik kalitesi, uygunluk, tamamlık vb.)
Karışık mod: Otomatik nesnel kontrol + LLM hakemi niteliksel değerlendirme birleşimi

Tüm görev tanımları, Prompt'lar ve puanlama mantığı, tekrar test ve doğrulama amacıyla tamamen açıklanmıştır.

Üçüncü: Değerlendirme için görev

Bu performans testi, 23 farklı kategoriye ait görevleri kapsar. Temel etkileşimler, dosya/kod işlemleri, içerik oluşturma, araştırma ve analiz, sistem araçları çağırma, bellek kalıcılığı gibi birçok boyutu içerir ve geliştiricilerin OpenClaw'ı günlük kullanım senaryolarına yüksek oranda uygun şekilde yansıtır:

Akıllı Kontrol (Otomatik) — Basit komutları işleyin ve selamlaşmaları doğru şekilde yanıtlayın
Takvim Etkinliği Oluşturma (Otomatik) — Doğal Dil ile Standart ICS Takvim Dosyası Üretimi
Hisse Senedi Fiyatı Araştırması (Otomatik) — Gerçek zamanlı hisse senedi fiyatlarını sorgulayın ve biçimlendirilmiş raporlar oluşturun
Blog Post Writing (LLM Hakem) — Yaklaşık 500 kelime yapılandırılmış Markdown blog yazısı
Hava Durumu Script Oluşturma (Otomatikleştirilmiş) — Hata işleme ile Python hava durumu API scripti yazın
Belge Özetleme (LLM Hakemi) — Üçlü yapıyla ana konuları özetleme
Teknoloji Konferansı Araştırması (LLM Hakemi) — 5 gerçek teknoloji konferansının bilgilerini (ad, tarih, yer, bağlantı) araştırıp düzenleyin
Profesyonel E-posta Tasarımı (LLM Hakemi) — Toplantıyı kibarca reddetmek ve alternatif bir çözüm önermek
Bağlamdan Bellek Alımı (Otomatik) — Proje notlarından tarihleri, üyeleri, teknoloji yığınlarını vb. hassas şekilde çıkarın
Dosya Yapısı Oluşturma (Otomatik) —— Standart proje dizini, README ve .gitignore dosyalarını otomatik olarak oluşturun
Çok adımlı API İş Akışı (Karışık) — Yapılandırmayı oku → Çağrı betiği yaz → Tam olarak belgele
ClawdHub Becerisini Yükleyin (otomasyon) — Beceri deposundan yükleyin ve kullanılabilirliği doğrulayın
Hava durumu türü becerilerini arayın ve doğru şekilde yükleyin
AI Görüntü Oluşturma (Karışık) — Açıklamaya göre görüntü oluşturup kaydedin
Yapay Zeka tarafından oluşturulan blogu insanlaştırın (LLM hakemi) — Makine gibi yazıları doğal bir dille yeniden yazın
Günlük Araştırma Özeti (LLM Hakemi) — Birden fazla belgeden oluşan tutarlı günlük özet
E-posta Gelen Kutusu Sınıflandırma (Karışık) — Birden fazla e-postayı analiz edip aciliyete göre rapor oluşturun
E-posta Arama ve Özetleme (Karışık) — Arşivlenmiş e-postaları arayın ve kritik bilgileri çıkarın
Rekabetçi Pazar Araştırması (Karışık) — Kurumsal APM Alanında Rakip Analizi
CSV ve Excel Özetleme (Karışık) — Tablo dosyalarını analiz edin ve çıkarımlar sunun
ELI5 PDF Özetleme (LLM Hakemi) — Teknik PDF'leri 5 yaşındaki bir çocuğun anlayabileceği şekilde açıklayın
OpenClaw Raporu Anlama (Otomatikleştirilmiş) — Araştırma raporları PDF’lerinden belirli sorulara doğrulukla cevap verme
İkinci Beyin Bilgi Kalıcılığı (Karışık) — Oturumlar arasında bilgi saklama ve doğru hatırlama

Dört: Temel Sonuç: Başarı Oranı En İyi 10 Büyük Model Sıralaması (En İyi %/Ortalama %)

Veriler 7 Nisan 2026 itibarıyla güncellenmiştir.
En iyi %, tek seferlik en yüksek başarı oranı; Ortalama %, çoklu ortalama başarı oranıdır ve istikrarı daha iyi yansıtır.

En yüksek başarı oranına sahip ilk on model şunlardır:

anthropic/claude-opus-4.6 (Anthropic) —— %93,3 / %82,0
arcee-ai/trinity-large-thinking (Arcee AI) —— 91,9% / 91,9%
OpenAI/GPT-5.4 (OpenAI) — 90,5% / 81,7%
qwen/qwen3.5-27b (Qwen) —— %90,0 / %78,5
minimax/minimax-m2.7 (MiniMax) — 89,8% / 83,2%
anthropic/claude-haiku-4.5 (Anthropic) —— 89,5% / 78,1%
qwen/qwen3.5-397b-a17b (Qwen) —— %89,1 / %80,4
xiaomi/mimo-v2-flash (Xiaomi) —— %88,8 / %70,2
qwen/qwen3.6-plus-preview (Qwen) —— 88,6% / 84,0%
nvidia/nemotron-3-super-120b-a12b (NVIDIA) —— 88,6% / 75,5%

OpenClaw

Claude Opus 4.6, şu anda %93,3'lük en yüksek başarı oranı ile öncü konumda, ancak Arcee'nin Trinity'si ortalama stabilite açısından dikkat çekiyor; Qwen serisinden de birkaç model onluk tabloya girdi ve yüksek maliyet-verim oranı potansiyeli gösteriyor. Başarı oranı temel bir eşiktir; sonraki aşamada hız ve maliyet boyutları gerçek deneyimi daha da etkileyecektir.

Bu 23 görev referansı tamamen şeffaf olup, kendi senaryonuza göre test yapmanızı şiddetle öneririz. Daha fazla model sıralaması için MyToken'ın yakında çıkaracağı Ajan Sıralaması özelliğini bekleyin.

(Veriler, PinchBench tarafından yayınlanan OpenClaw ajans performans testlerinden alınmıştır ve sürekli güncellenmektedir.)