Fable 5, Yeni AI Ajan Benchmark ALE'de En Zor Görevleri Başarısız Oluyor

icon MarsBit
Paylaş
AI summary iconÖzet

Beating İzleme'ye göre, Kaliforniya Üniversitesi Berkeley kampüsü RDI liderliğinde, yüzlerce endüstri uzmanıyla birlikte, dijital profesyonel görevleri tamamlama yeteneğini değerlendirmek için yeni bir AI ajan değerlendirme standardı olan Agents' Last Exam (ALE)’i duyurdu. ALE, 55 dijital profesyonel alt alanını kapsıyor ve insan uzmanların gerçek projelerinden alınan 1.500’den fazla doğrulanmış görevi içeriyor; GUI ve CLI etkileşim ortamlarında sonuç doğrulamasını destekliyor. İlk testler, Fable 5, GPT-5.5 ve Composer 2.5 gibi öncü sistemleri kapsıyor. En son resmi karşılaştırma verilerine göre, sürekli akıl yürütme ve derin uzmanlık gerektiren en zor görevlerde, tüm test edilen ajanların başarı oranı %0 oldu; bu hafta yayınlanan Fable 5 de aynı şekilde boş bıraktı. Bu durumun temel nedeni, güvenlik politikalarının tetiklenmesiydi; Fable 5’in görevlerinin yaklaşık %35’i eski Opus 4.8 sürümüne geri döndürüldü ve bu da genel performansını diğer listelerdeki rakiplerine kıyasla çok daha düşük seviyede bıraktı. Tek bir görev API maliyeti açısından, Fable 5 yaklaşık 15,70 dolar, GPT-5.5 3,80 dolar ve Composer 2.5 ise 1,33 dolar; aynı görevlerde maliyet 4 ila 12 kat daha yüksek. Testler ayrıca, ajanların en yaygın başarısızlık nedeninin, gerçek sonuçları doğrulamadan veya dosyaları atlamadan veya verileri yanlış hesaplayarak erken başarı ilan etmeleri olduğunu ortaya koydu. Komut satırı ajanları için değerlendirme ekibi ALE-CLI alt kümesini aynı anda yayınladı. Mevcut Terminal-Bench ve SWE-bench-Pro ile karşılaştırıldığında, ALE-CLI 40 alt alanını kapsıyor ve her bir görevin insanlar tarafından ortalama olarak saatlerce hatta haftalarca tamamlanıyor. Komut satırı değerlendirme testinde en iyi performans gösteren ajanın geçme oranı sadece %25,2 oldu. Değerlendirme ekibi, kullanışlı ajanların çağının geldiğini ancak insanları tamamen yerine geçebilecek gerçek bir yetkinliğe ulaşmak için hâlâ uzun bir yol kat edilmesi gerektiğini belirtti.

Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir. Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.