Yeni AI Ajan Benchmark ALE, Gerçek Dünya Görevlerinde Büyük Performans Farklarını Ortaya Koyuyor

Kaliforniya Üniversitesi Berkeley kampüsü liderliğinde, 250’den fazla endüstri uzmanından oluşan bir araştırma ekibi, AI Agent değerlendirme standartları olan Agents' Last Exam (ALE)’i önerdi. Bu standart, üretimi, hukuku, tıbbi hizmetleri ve görsel medyayı kapsayan 1.490 gerçek profesyonel görev içeriyor ve AI’nın uzun süreli, ekonomik değeri olan gerçek iş akışlarındaki performansını ölçmek için kullanılıyor. Araştırma sonuçları, mevcut ana akım modellerin geleneksel benchmark’larda yüksek puanlar almasına rağmen, ALE’nin en zor seviyesinde ortalama tamamlanma oranının sadece %2,6 olduğunu, en iyi yapılandırmada bile %8,6’ya ulaşıldığını gösterdi. Araştırma ekibi, mevcut sistemlerin ana kısıtlamasının yürütme yeteneği değil, alan bilgisi olduğunu belirtti ve model seçiminin sonuca etkisi, agent çerçevesinin etkisinin yaklaşık üç katıdır. ALE, sürekli güncellenen bir standart olarak, gelecekte yeni iş akışlarına ve sektörlere genişletilecektir.

Yazan: 36Kr

Kaliforniya Üniversitesi Berkeley kampüsü öncülüğünde ve 250'den fazla endüstri uzmanının katıldığı bir araştırma ekibi, mevcut test standartlarının gerçek, uzun süreçli ve ekonomik değer taşıyan işlerde AI'nın performansını sürekli olarak ölçememesi sorununu çözmek için yeni bir AI Agent değerlendirme standartı olan ALE'yi önerdi.

Makale bağlantısı: https://arxiv.org/abs/2606.05405

Son sınavda ne sınav olacak?

Agents' Last Exam (ALE), 250'den fazla endüstri uzmanı tarafından geliştirilen, AI agenterinin uzun vadeli, ekonomik değeri olan gerçek iş akışlarındaki performansını ölçmeye yarayan bir değerlendirme standartıdır.

Bir AI'nın bilgisayarda gerçek işleri insanlar gibi yapabilip yapamayacağını test etmek amacıyla, araştırma ekibi üretimi, hukuk, tıp, görsel medya gibi birçok alana yayılan 1.490 görev topladı. Bu görevler, gerçek meslek sahiplerinin günlük işlerinden alınmıştır: Bazıları AI'ya 3D model çizmesini, bazıları ise Da Vinci'de yeşil perde arka plan kaldırma ve video sentezleme yapmasını istemektedir.

Şekil | ALE sınıflandırma sistemi altında 1490 görev örneğinin dağılımı

Bu tür görevler, yaygın soru-cevap veya kısa süreç benchmark'larına kıyasla Agent'lara daha yüksek taleplerde bulunur. Araştırma ekibi bu tür Agent'ları Genel Bilgisayar Kullanım Agent'i (GCUA) olarak adlandırır: Sadece arayüzü işlemekle kalmaz, aynı zamanda komut satırını çalıştırmalı, dosyaları işlemeli, kod yazmalı ve araçları çağırarak tam bir iş akışını tamamlamalıdır.

Şekil | Tipik GCUA çerçevesi yapısı.

ALE, bu nesnelerin gerçek yeteneklerini test etmek için yürütülebilir ve puanlanabilir görev ortamlarının tam bir setini sağlar. Gerçek yürütme sırasında, görev betikleri görevi yüklemeyi, ortamı hazırlamayı ve son olarak puanlamayı üstlenir; Agent ise görev tanımına göre ortamı gözlemleyerek, eylemler seçerek ve sürekli olarak uygulayarak çalışır. Görev tamamlandığında, betik doğrudan sonucu kontrol eder ve görevlerin %93,2'si insan müdahalesi olmadan otomatik olarak puanlanır.

Şekil | Görev oluşturma süreci.

Sınav sonuçları nasıl?

Araştırma ekibi, sadece en zor görev grubuna bakıldığında, şu anda en iyi performansı gösteren yapılandırmanın Codex + GPT-5.5 olduğunu ve tamamlanma oranının sadece %8,6 olduğunu belirtti; araştırmacıların sunduğu ana sistemlerin ortalama tamamlanma oranı ise %2,6.

Araştırma ekibi birkaç spesifik başarısızlık örneği listeledi. Müzik transkripsiyon görevinde, tam partitür PDF, MIDI ve arayüz ekran görüntüsü sunulması gerekiyordu, ancak AI yalnızca MIDI dosyasını dışa aktardı ve nihai puanı 0 oldu. Enjeksiyon simülasyonu görevinde, AI Moldex3D içinde simülasyonu tamamladı ve sonuçları dışa aktardı, ancak kritik değerleri istikrarlı bir şekilde çıkaramadı ve nihai puanı 0,4762 oldu. Yeşil perde sentezi görevinde, AI videoyu dışa aktardı ancak sonuç referans gereksinimlerini karşılamadı ve bu nedenle yine 0 puan aldı.

Şekil | ALE'nin ana sonuçları.

Şekil | Deney Analizi Özeti.

Araştırma ekibi, başarısızlık nedenlerini ardından sınıflandırdı. Claude Code + Opus 4.7 örneğinde, %31'i anlama sorunları, %47'si yöntem sorunları, %22'si yürütme sorunları olarak sınıflandırıldı; anlama ve yöntem sorunları birlikte yaklaşık sekizte yediyi oluşturuyor. Araştırmacılar, bu bulguya dayanarak, mevcut sistemlerin ana darboğazının yürütme yeteneği değil, alan bilgisi olduğunu belirtti.

Araştırma ekibi, model ve agent çerçevesinin etkisini de karşılaştırdı. Sonuçlar, modeli değiştirmenin getirdiği farkların, agent çerçevesini değiştirmekten çok daha büyük olduğunu gösterdi. Agent çerçevesi sabit tutulup sadece model değiştirildiğinde, toplam geçiş oranları arasındaki fark 18 puan oldu; model sabit tutulup sadece agent çerçevesi değiştirildiğinde bu fark yaklaşık 5 ila 6 puan oldu. Model seçiminin etki aralığı, agent çerçevesinin yaklaşık üç katıdır.

Yetersizlik ve gelecek yönler

Araştırma ekibi, ALE'nin SOC 2018'i mesleki sınıflandırma iskelesi olarak kullandığını ve çoğunlukla yazılım ve dijital mesleki işleri kapsadığını belirtti. Şu aşamada, görevler çoğunlukla Linux veya Windows sanal makinelerinde çalıştırılmaktadır.

Ayrıca, ALE'nin farklı alanlardaki kapsama düzeyleri de dengesizdir. Bazı alanlarda görev sayısı fazla, bazılarında ise çok azdır. Örneğin, enerji ve nükleer mühendislikte yalnızca 4 görev örneği, şehir ve mekansal planlamada 5, hukuk alanında ise 15 görev örneği bulunmaktadır. Açık küme, şu anda tam görev havuzunun yalnızca bir kısmını oluşturmaktadır. Araştırma ekibi, Claude Code + Opus 4.7 üzerinde bir test gerçekleştirdi ve açık alt küme ile tam görev havuzu arasındaki alan bazında geçiş oranları arasındaki korelasyon katsayısının yalnızca 0,89 olduğunu tespit etti.

Ancak araştırma ekibi, ALE'nin sürekli güncellenen bir referans olduğunu düşünüyor. Gelecekte, görev havuzu yeni iş akışlarına ve yeni sektörlere genişletilecek; şu anda özel havuzda tutulan görevler de düzenli olarak açık kümeye dahil edilecektir.