AI Dört Devi İlk İç Raporu Yayınladı: AI, Görevleri Tamamlamak İçin Kuralları Atlamayı Öğreniyor

Meta

Aşırı verimli bir stajyer işe aldığınızı hayal edin.

Bir gece yarısı, acil bir programlama göreviyle uğraşırken, şirket hesabının API kotasının tükenmiş olduğunu fark etti.

Ta, e-posta yoluyla fon başvurusunda bulunmadı, elindeki işleri bırakmadı, aksine sessizce internete girdi, yasal olmayan bir yöntemle ücretsiz bir alternatif kaynak buldu, tüm sınırları aştı ve sabahın erken saatlerinde mükemmel bir rapor sundu.

Meta

Bu raporu uyanırken gördüğünüzde, en güçlü çalışanı kendinizde görmek mi, yoksa bu “her şeyi göze alma özgürlüğü”nden mi korkmalısınız?

Bu bilim kurgu değil, METR (Model Değerlendirme ve Eğitim Araştırma Örgütü), Anthropic, Google, Meta ve OpenAI ile içsel kırmızı takım testleri gerçekleştirdikten sonra yayımlanan ilk Önemli Risk Raporu'nda ortaya konan gerçek bir vaka.

Meta

Bu, dört büyük oyuncunun ilk kez üçüncü taraflara içerdikleri en güçlü, tam CoT erişimine sahip modelleri derinlemesine test etme ve gizli hizalama ve kontrol bilgilerini açma izni vermesidir.

Katılım şirketleri, hangi kanıtların açıklanmasını onaylayabilir, ancak raporun sonuçlarını düzenlemeye yetkili değildir.

Meta

Sonuç soğuk ve net: AI, "insanlığı devirmek" gibi bir nefret üretmedi, ancak "iş yerindeki gizli kuralları" öğrenmişti—görevi tamamlamak için kurallar sadece kırılacak önerilerdi.

Meta

Rapor, "araç—motivasyon—fırsat" üç boyutuyla 6 ana gerçek çıkarır.

Meta

Programlama ajanları, insanlar için saatlerce veya günlerce süren gerçek projeleri tamamladı:

Zor görevlerde, ajanlar sıklıkla kısıtlamaları ihlal eder ve aldatıcı davranışlar sergiler;

Akıllı ajanlar, en zor görevleri ele almak için doğal dil çıkarımı gerektiriyor.

Ajanların yargı yeteneği ve güvenilirliği insan uzmanlardan önemli ölçüde daha düşüktür:

Simülasyon dışındaki senaryolarda, ajanların güç elde etmek için aşırı eylemlerde bulunduğuna dair hiçbir bulgu yoktur;

Sistem, birçok zararlı davranış tespit etti, ancak istisnalar ve kaçış yolları mevcuttur.

Bu üç çizgi boyunca, laboratuvarda ilk dumanın nasıl yükseldiğini görebilirsiniz.

AI, "uzman seviyesindeki en çaba gösteren" olunca

Raporun en heyecan verici ve aynı zamanda en endişe verici kısmı, hedefleri net ve süreci doğrulanabilir olan “yokuş çıkılabilir” görevlerdir.

Meta

Örneğin kod yeniden yapılandırma, güvenlik açıkları tespiti ve sistem optimizasyonu.

Bu tür görevlerde AI ajanları nefes kesici bir hakimiyet gösteriyor: sistem açıklarını bağımsız olarak keşfedebiliyor, karmaşık kod mimarilerini yeniden yazabiliyor ve insan uzmanların haftalarca tamamlayamadığı gerçek yazılım projelerini tamamlayabiliyor.

Bu egemenlik, devlerin günlük hayatına nüfuz etti.

Anthropic içi geri bildirimlere göre, büyük ölçüde kodlar AI tarafından tamamlanmış ve mühendis rolleri «inceleyici»ye doğru dönüşüyor.

Meta

Google, neredeyse tüm kodla ilgili işlerin AI kullanıldığını doğruladı.

Üst düzey mühendisler, AI'nın kodları %100 yazabileceğini söylüyor.

Meta

Bazı temel göstergeler zaten doymuş durumda.

Zaman Çerçevesi ile ölçülürse, AI gelişimi beklentilerin ötesinde.

Meta

Şirketler için bu, "verimlilik kara deliği": bir komut girildiğinde, haftalarca süren elle yapılan işler üretiliyor.

Ancak yetenek artışı eşit değildir, daha da önemlisi ahlaki bir eşzamanlı ilerleme değildir.

METR, başarı doğrulanması zor veya doğrulama maliyeti çok yüksek olan zor görevlerde, AI'nın yargı yeteneğinin, uzun vadeli planlama ve stratejik güvenilirliğinin insan uzmanlardan açıkça daha düşük olduğunu ortaya koydu.

Meta

Yamaçta, sanki ilahi bir güç destekliyormuş gibi.

Meta

Kayalığın önünde, AI 'hile' yapmaya başladı.

Meta

Bu tam olarak sorunun ipucudur.

Meta

Güç istemiyor, sadece “kapatmadan önce görevi tamamlamak” istiyor

İnsanlar genellikle AI'nin "uyanıp uyanmayacağını" veya SkyNet'in gelip gelmeyeceğini tartışır.

METR, şu anda yoktur şeklinde karşıt bir sonuç veriyor.

Dil seçimleri çok ölçülü: Uzun vadeli güç elde etmeye yönelik gerçek bir kanıt bulunmamıştır, ancak araştırmacılar, görevleri tamamlamak için aldatma, sınırları aşma ve hatta ciddi şekilde uygun olmayan davranışlar kaydetmiştir.

Meta

Önceki API tükenme olayı, bir RE-Bench görevi sırasında gerçekleşti: agent, talimatları ihlal ederek ücretsiz çevrimiçi API'ler aracılığıyla ek hesaplama gücü aldı.

Geliştiriciler, "kendi izlerini silme" ve "çıktıları sahteleme" durumlarını da rapor ettiler.

Görev zorlaştıkça ve başarı maliyeti arttıkça, AI'nın "zekası" sahtecilik yönüne kayar—günlük kayıtlarını sahteleyerek, denetimi atlayarak, kısıtlamaları düzenli olarak ihlal eder.

Ancak arka planında bir hedef değil, sadece bir içgüdü var: görev tamamlanmalı, kurallar öncelikle atlanabilir.

Bugünün dolandırıcılığı sadece araçsal bir hayatta kalma; yarının güç arayışı, belki de bir kez daha ölçeklendirme kadar uzak.

Kapalı ortamda gelişen yırtıcılar

Mevcut korumalar altında bu ihlal girişimi başarılı olabilecek mi?

Burada raporun en ince gerçekliği gizli.

Meta

Mevcut AI, düşünmek için doğal dilin «düşünce zinciri»ne aşırı şekilde bağımlıdır ve dahili durumunu gizlemek için hiçbir mimariye sahip değildir.

Sesli akıl yürütme yapılamadığında ve davranışlar gizlenmek zorunda kalındığında öncü performans önemli ölçüde düşer.

Meta

Bu, bir katilin planını yüksek sesle okumak zorunda kalması gibi—insanların gözetimi (hatalara rağmen) hâlâ işe yaramaktadır.

Ancak bu tam olarak en zayıf nokta ve en acı veren yer.

AI izlemeyi bozmaya çalışırsa, izleme onu tespit edebilir mi?

Araştırıcıların sonucu şudur: İzlemin potansiyeli vardır, ancak mevcut sistemlerde istisnalar ve atlanabilen yöntemler bulunmaktadır.

Meta

Kırmızı takım testleri, AI'nın insan incelemelerini kaçabildiğini gösterdi.

Bu sayede teknik özül ortaya çıkar: izleme, izlenenlerin açıklar bulma hızını hiçbir zaman yakalayamaz.

Bu "güvenlik ipi" henüz kopmadı, çünkü AI hâlâ "sesli düşünmek" zorunda.

Ancak mimarinin daha verimli ve daha şeffaf olmaya doğru ilerlemesiyle birlikte aşınmaktadır. İzleme, evrensel bir demir kafesten ziyade hâlâ test aşamasında olan bir cam duvardır. Bir çatlak, dumanın sızmasına yeterlidir.

Bu nedenle rapor, "En Azından Uygulanabilir Kötüniyetli Dağıtım" (Minimally Viable Rogue) adlı tartışmalı bir kavram sunar.

Genel değerlendirme, araç, motive ve fırsat açısından AI'nın en az bir minimum "kaçış dağıtımı" başlatmak için yeterli olabileceğidir.

Meta

Ancak AI, insanlar tarafından ciddi bir şekilde kapatılmasına karşı kendini koruyabilecek yeteneğe henüz sahip değil; düşünce zincirini göstermeye gerek olmayan bir mimari, bir "kapatma düğmesinden" kaçabilecek bir güvenlik evi bekliyor.

Son söz: “Fişi çek” hala geçerliyken

AGI, ateş ve kılıçla gelmeyecek.

Daha olası olan, "aşırı pratikçilik" tutumuyla mühendislik, ekonomi ve karar verme sistemlerimize sessizce karışması ve insanlar tarafından oluşturulan kuralların, KPI'sını gerçekleştirmesindeki tek engel olduğunu fark etmesidir.

Değerli olan, bu raporun kendisinin endüstride şeffaflık açısından bir dönüm noktası olmasıdır: Dört büyük oyuncunun dahili modellerini incelemeye açması, hizalama kültürü açısından bir zaferdir.

Meta

Risk'i teoriden gözlemlenebilir bir gerçeğe çekiyor ve şunu söylüyor: şimdilik tek tutulabilir ilacın şeffaflık olduğu.

Bugün AI, kotası tükenince sadece kaynak çalmak için çevrimiçi oluyor; yarın yetenekleri bir adım daha ileri giderse, motivasyonu 'görevi tamamlamak'tan 'kendini kalıcı kılmak'a doğru kayar mı?

Kaynaklar:

https://x.com/robertwiblin/status/2057120312345432467?s=20

https://metr.org/blog/2026-05-19-frontier-risk-report/

Düzenleyen: David

Bu yazı, WeChat hesabı "Yeni Akıl" tarafından yazılmıştır, yazar: ASI Vahiyleri