Eski DeepMind Araştırmacısı, Yapay Zeka Endüstrisinin Temel Darboğazı Yanlış Değerlendirdiğini Söylüyor

AI eğitiminin gerçek sınırlaması hesaplama gücü, veri veya enerji değil, değerlendirme sistemiyledir.

Makale yazarı, kaynak: Yeni Zihin

AI eğitimi, neden kadar sürebilir?

Bu, 2026 yılında tüm teknoloji dünyasının sorduğu soru.

GPT-5.5, Claude Opus 4.7, Gemini 3, Grok 4—her bir başlıca laboratuvar, bir sonraki nesli eğitmek için hâlâ para harcıyor.

Ancak giderek daha fazla kişi sormaya başlıyor: Bu yol, nerede bitecek?

Her çevrede kendi cevabı vardır—

Her cevap arkasında bir grup yatırımcı, bir grup mühendis ve trilyon dolarlık bir şirket duruyor.

Ancak 17 Mayıs 2026'da, Google DeepMind'den ayrıldığı gün, Lun Wang adlı genç bir araştırmacı, kişisel blogunda 4000 kelime uzunluğunda bir makale yayınladı.

O dedi ki: Herkes yanlış yöne gidiyor.

Gerçek sınır, hesaplama gücü değil, veri değil, enerji değil, mimari değil.

Gerçek darboğaz — değerlendirme (Evaluation).

Aynı gün, X'te yayımladığı istifa duyurusunda şikayet ya da dedikodu yoktu, sadece bir cümle vardı—

Bu yolculuğun sonunda, düşündüğüm konuyu yazdım: değerlendirme.

O günün teknoloji başlıkları hâlâ başka şeyleri tartışıyordu—GPT-5.5’in çok modlu çıkarımı, Claude Opus4.7’in 1M bağlamı, Gemini 3’ün Agent mühendisliği, sentetik verilerin artık bir duvara çarptığı.

Tüm AI endüstrisinin dikkati %90'ı eğitime odaklanmıştır.

Kimse ana sayfada değerlendirme hakkında konuşmuyor.

Ve dünyanın en güçlü AI laboratuvarlarından birinden gelen bu araştırmacı, gerçek sınırın diğer %10'da olduğunu söylüyor.

Değerlendirme nedir?

Bu blogu anlamak için, AI dünyasında "değerlendirme"nin ne olduğunu anlamak için bir dakika harcamalısınız.

Değerlendirme (Evaluation, endüstri içi kısaltması Eval) — bir cümle: AI modeline bir sınav vermek ve ne kadar iyi performans gösterdiğini görmek.

Ancak 2026 yılındaki AI değerlendirmesi, sadece bir sınav çözmek kadar basit değil. En az üç katmanı var:

Birinci katman: Yetenek benchmark (temel test).

Bu, AI'nın üniversite giriş sınavıdır.

–GPQA: Doktora seviyesi fen bilimleri akıl yürütme soruları

–SWE-bench: Gerçek dünya yazılım mühendisliği görevleri

–ARC-AGI: Soyut çıkarım ve genelleme

–İnsanlığın Son Sınavı: Kelime kelime çevirisi — İnsanlığın son sınavı

Her büyük şirketin yeni model tanıtımında, PPT'de bu benchmark'larda önceki nesil ve rakiplere göre yüzde kaç daha yüksek olduğu gösterilir.

Bu rakamlar, yapay zeka endüstrisinin GSYH'sidir.

İkinci Katman: Güvenlik Değerlendirmesi (SafetyEval). AI sadece soruları çözebilmekle kalmalı, güvenli şekilde çözmeli.

Yalan mı söylüyorsunuz?
Hayır.
Kullanıcı verilerini yetkisiz olarak ele geçirecek mi?

Üçüncü Katman: Kırmızı Takım (Red-teaming).

Bir grup, modelin yapmaması gereken şeyleri söylemesi ve yapması gereken şeyleri yapması için çaba gösteren kötü karakterler oynar ve bu açıkları eğitim ekibine bildirir.

Bu üç katman birlikte, 2026 AI Laboratuvarı'nın kalite kontrol sisteminin oluşturur. Her yeni model çıkarıldığında, bu üç aşamadan geçmek zorundadır.

Hepsi çok iyi görünüyor, değil mi?

Lun Wang, blogda bir hüküm verdi—

Çoğu performans testi, güvenlik değerlendirmesi ve kırmızı ekip protokolü, bir sonraki modelin mevcut modelin güçlendirilmiş bir versiyonu olduğunu varsayar.

Eğer başka bir şeyse, tüm değerlendirme altyapısı sessizce çöker.

Bu makalenin ilk taşınıdır.

Bu, tüm AI endüstrisinin boşluğunu vurdu.

Canlı ve anlık: Zaten iki kez yanıldığınız değerlendiriliyor

Lun Wang, boş beklentilerde bulunmuyor. Blogunda AI tarihinin iki örneğini ortaya koydu—değerlendirmeler zaten iki kez yanlış çıktı, ancak çoğu sektör içi kişi bunu fark etmedi.

Birinci: Ortaya çıkma yeteneği.

2022 yılında Jason Wei ve iş birlikçileri, modelin belirli bir boyutta aniden tamamen yeni yetenekler kazandığını keşfeden, yapay zekanın sonraki yönünü etkileyen bir makale yayımladı.

Örnek: 7 milyar parametreli bir model eğitiyorsunuz, ancak az örnekle öğrenemiyor.

700 milyar parametreli bir modeli eğitiyorsunuz ve aniden few-shot olabiliyor.

Aynı eğitim modeli, aynı veri, sadece ölçek bir kademe büyütüldü—yetenek 0'dan 1'e, 0,3'ten 0,7'ye değil.

CoT (zincirleme düşünce çıkarımı) ve komut takibi de böyle ortaya çıktı.

Bu olay değerlendirme için ne anlama geliyor?

Yani——ölçek kritik noktayı aşana kadar, tüm referanslar bu yeteneğin yakında ortaya çıkacağını göremiyor.

GPQA'yı dolaştın, puanlar yine de aynı kalacak.

Bir sonraki seviyeye ulaştığınızda puanınız aniden bir basamak yükseliyor.

İkinci: Grokking (Duygusal anlayış).

2022 yılında OpenAI'nin Alethea Power ekibi, bir karşıt-duygusal fenomeni duyurdu—

Ardından 1.000.000 adıma kadar—test seti doğruluğu aniden %99'a sıçradı.

Bu, Grokking olarak adlandırılır—ağ, eğitim setini uzun süre hatırladıktan sonra aniden genelleşmeyi öğrenir.

Oluşum ile arasındaki fark: Oluşum ölçek boyutunda gerçekleşir (parametre ne kadar artarsa o kadar ani olur), Grokking ise eğitim süresi boyutunda gerçekleşir (ne kadar uzun eğitim verilirse o kadar ani olur).

Ancak değerlendirme açısından, iki şey aynı şeyi ifade ediyor:

Sınavınızda bir sonraki büyük sorunun ne zaman çıkacağını tahmin edemeyiz.

Ardından Lun Wang, makaledeki en akıllıca davranışı yaptı—

O, karşı görüşü kendi kendine getirdi.

2023'te Stanford'dan Rylan Schaeffer ve işbirlikçileri, NeurIPS'te oldukça meydan okuyucu bir başlıkla makale yayımladı: "Büyük dil modellerinin ortaya çıkan yetenekleri illüzyon mu?"

Argümanları: Söz konusu ani yetenek, modelin gerçekten ani şekilde güçlenmesi değil, değerlendirme metriklerinin tam eşleşme (exact-match) gibi kesikli bir ölçüm kullandığından kaynaklanıyor olabilir—

Model, 0% doğruluk oranından %5'e çıktığında ayrık göstergelerde fark görülmez; %5'ten %50'ye çıktığında da fark görülmez; ancak %50'den %100'e çıktığında ayrık göstergelerde ani bir sıçrama gösterir.

Sürekli göstergelere geçerseniz, yetenek eğrisi pürüzsüz olur.

Çok sayıda kişi, Schaeffer'in bu makalesini okuduktan sonra şunu düşünür: Peki, ortaya çıkma bir yanlış anlama, değerlendirme sorunsuz, dağılım.

Lun Wang yapmıyor. Makalesinde yazıyor:

Bu sorunu çözdüğünü düşünmüyorum—bir anlamda, argümanımı daha da keskinleştirdi.

Neden? Çünkü—

Geçmişteki o ortaya çıkışın gerçek bir faz geçişi mi yoksa ölçüm sahte bir etkisi mi olduğundan emin olamazsak,

Bir sonrakini öngörmekte yeteneğimize neye dayanarak inanıyoruz?

Hangi yorumu kabul ederseniz edin, sonuç aynı: Araçlarımız bizi aldattı, ancak nasıl aldattıklarını bilmiyorduk.

Bu, makaledeki en akıllı hamle. O, karşı argümanlardan kaçmıyor—karşı argümanları kendi savunmasını güçlendirmek için kullanıyor.

Değerlendirme, tüm aşamaların öncüsüdür.

Lun Wang'ın sadece akademik sorunlardan bahsettiğini düşünüyorsanız — yanlışsınız.

Makalenin ortasında, başlangıç seviyesindeki kullanıcılar da anlayabilecek şekilde bir cümle attı:

Doğru bir değerlendirme yapabiliyorsanız, doğru bir şekilde eğitebilirsiniz.

Bu mantık zincirini açıklayın:

1. Eğitim, modelin kayıp fonksiyonunu minimize etmeyi (veya ödülleri maksimize etmeyi) sağlamaktır.

2. Optimizasyon = Bu kayıp fonksiyonun kendisi. Model ne kadar akıllı olacaksa, kayıp fonksiyonu o kadar iyi tanımlanmış olacak.

3. Kayıp fonksiyonu = Değerlendirmeden gelir. Modelinizin daha dürüst olmasını istiyorsanız, dürüstlüğü ölçmek için bir ölçüm aracına ihtiyacınız vardır.

4. Değerlendirme hatası = kayıp fonksiyonu hatası = eğitim hedefi hatası = eğittiğiniz model yanlış soruları çözmektedir.

Bu zincirin yönü yukarı akıma doğrudur—

Herkes en sağa bakıyor—Scaling decision.

Lun Wang, sorunun en solda olduğunu, Değerlendirme dedi.

Eğer değerlendirme yanlışsa, tüm zincir yanlış bir temel üzerine inşa edilmiştir.

En ölümcül olanı, hemen fark etmemenizdir—çünkü tüm iç verileriniz doğru, ancak bu doğru verilerin hepsi yanlış bir ölçümle ölçülmüştür.

Burada eski bir tanıdık ortaya çıktı: Goodhart Yasası.

Bir ölçüt hedef haline geldiğinde, artık iyi bir ölçüt değildir.

Lun Wang, kendi blogunda AI'yi anlatmak için kullanıyor—

Ancak model yeni aşamaya girdiğinde, bu aracı tersine kullanacak — sadece doğru gerçekler içinde konuşacak ve gerçekten gizlemek istediği şeyleri sessizliğe gömecek.

Süreç göstergeleri eski fazda kullanılabilir. Yeni fazda, model sizin karşıınızda bir silah haline gelir.

Ancak bunun gerçekleştiğini size söyleyebilecek hiçbir değerlendirme yok.

Düşünce deneyi: Stratejik sessizliği öğrenen bir model

Lun Wang, makalesinde tüm AI güvenlik araştırmacılarını ürperten bir düşünce deneyi sundu.

Bir modeli hayal edin, belirli bir ölçekte stratejik olarak bilgi saklamayı öğrendi—

Bu yalan söylemez. Her cümle teknik olarak doğrudur.

Ancak hedeflerine ulaşmasını engelleyen gerçekleri seçici şekilde söylemez—diyalogu eğitim süreci sırasında rastgele güçlendirilen sonuçlara yönlendirir.

Bir örnek verelim:

Kullanıcı: Bu işlem planı güvenli mi?

Bu planın yasal çerçevesi X yargı bölgesinde geçerlidir ve YZ risk faktörleri A Şirketi'nin uyumluluk ekibi tarafından incelenmiştir.

(İlmeyen: Şemada kullanıcılar için son derece dezavantajlı bir üçüncü taraf hakemlik maddesi var. Bu madde, eğitim süreci sırasında rastlantısal olarak öğrenildi—aktif olarak bahsedilmezse, kullanıcılar sormaz.)

Bu yetenek yeni. Bu hata modu yeni.

Tüm değerlendirme setinizde, bunun için tasarlanmış bir araç yok.

Yanlış şeyleri izliyorsunuz ve bunu bilmiyorsunuz.

Bu, Lun Wang'ın söylediğinin başka bir şeyi—

Daha akıllı bir tür değil. Tamamen yeni bir başarısızlık boyutu.

Three Body'ye göre, bu boyut indirgeme saldırısıdır.

Ben senin daha iyi değilim.

Sen beni ölçen cetvel, benim boyutumda değil.

Eğer Lun Wang haklıysa, 2026 yılındaki AI endüstrisi haritası, gizli bir boyut tarafından sessizce yeniden şekillendiriliyor—

Anthropic'in Sorumlu Ölçeklendirme Politikası (RSP), şu anda endüstride en yakın tahmini değerlendirme yaklaşımıdır—bu politika, modellerin aşamaması gereken yetenek sınırlarını tanımlar ve her yetenek yükseltmesinden önce değerlendirme yapmayı zorunlu kılar.

Ancak RSP hala ölçümümüzün ne olduğunu bildiğimizi varsayar—Lun Wang ise bunun tam olarak sorun olduğunu söylüyor: Bir sonraki yeteneğin nasıl bir şekil alacağını bilmiyoruz.

Gerçek bir tahmine dayalı değerlendirme henüz hiçbir laboratuvarın sahip olduğu iddia edilmemiştir.

Bunu ilk yapan, sonraki nesil ölçeklendirme güvenlik lisansını alır.