Otomasyon Sonrası
Yazar: Dan Shipper, Every CEO
Peggy, BlockBeats

Editör Notu: Son zamanlarda, AI ve iş ile ilgili tartışmalar neredeyse tek bir soru tarafından支配 ediliyor: Model yetenekleri sürekli gelişmeye devam ederken, beyaz yakalı işler büyük ölçüde yerini alacak mı? Kod üretimi, müşteri hizmetleri otomasyonundan içerik üretime kadar, Agent'lar insanlar tarafından yapılması gereken bilgi temelli işleri giderek devralıyor. Referans testleri de bu endişeyi sürekli güçlendiriyor: Modeller, lisansüstü düzeydeki muhakeme, gerçek ekonomik görevler ve ileri düzey mühendislik kod yeniden yapılandırmasında hızlı bir şekilde ilerliyor ve görünüşe göre "insan işlerinin otomasyon tarafından yutulması" noktasına yaklaşmakta.

Ancak Every CEO Dan Shipper, bu makalede tamamen ters bir gözlem sunuyor: Otomasyon ne kadar artarsa, insanların yapması gereken iş o kadar artıyor. Every, AI Agent'ların derin bir kullanıcısıdır ve iç süreçlerine Codex, Claude Code, Slack Agent, müşteri hizmetleri Agent'ları gibi araçları entegre etmiştir. Ancak sonuç, çalışanların tamamen yerini almak değil, iş biçimlerinin yeniden yapılandırılmasıdır: Mühendisler artık sadece kod yazmakla kalmıyor, aynı zamanda sistemleri inceleyip yeniden yapılandırıyor ve tasarlıyor; editörler sadece yazı yazmakla kalmıyor, aynı zamanda neyin yazılması gerektiğini ve nasıl farklı yazılabileceğini belirliyor; müşteri hizmetleri personeli artık her temel bilet ile uğraşmıyor, aynı zamanda müşterileri otomatik olarak yanıtlayabilen bir sistem yönetiyor.

Bu makalenin en dikkat edilmesi gereken noktası, «AI’nın bir görevi tamamlayıp tamamlayamayacağı» değil, bilgi işlerinde insanın yerini yeniden tanımlamasıdır. AI, geçmişte birikmiş yetenekleri ucuzlaştırmada ustasdır: kodlama, metin yazma, küçük resimler, müşteri hizmetleri yanıtları, ürün açıklamaları, araştırma raporları tümü model tarafından hızlıca üretilebilir. Ancak bu yetenekler herkesin erişimine açık hale geldiğinde, pazarda genellikle kaliteli ve farklılaşmış çıktılar değil, birbirine benzer, yargı ve bağlam algısından yoksun «varsayılan çıktılar» ortaya çıkar. Yani AI, «dünün insan yeteneklerini» ticarileştirir; ancak gerçekten kıymetli olan, şu anki spesifik sorunlarla karşılaşıldığında gösterilen yargı yeteneğidir.

Bu nedenle otomasyon uzmanları ortadan kaldırmadı, aksine uzmanların müdahale etmesi gereken daha fazla senaryo yarattı. Operasyon personeli AI ile kod gönderebilecekken, mühendisler hangi kodların birleştirilmeye değer olduğuna karar vermek zorunda kalır; pazarlama ekibi saniyeler içinde küçük resimler oluşturabildiğinde, tasarımcılar neyin marka ve iletişim hedeflerine uygun olduğuna karar vermek zorundadır; mühendisler de yazı yazabildiğinde, editörler taslakları gerçek bir görüşe, yapıya ve yayınlanabilir hale getirmek zorundadır. AI, üretim yarıçapını genişletti ve kalite kontrolü, sistem kurulumu, sınır belirleme ve farklılaşma gerektiren talepleri artırdı.

Yazar, bu paradoksu daha da açıklayarak testlerden bahsediyor. Hem Senior Engineer Benchmark hem de OpenAI'nin GDPval'i, model puanlamalarının soyut bir «akıl» değil, belirli bir problem çerçevesindeki performansı ölçtüğünü gösteriyor. Prompt, görev sınırları, değerlendirme kriterleri ve çıktı formatı, tümü zaten büyük ölçüde insan yargılarını içeriyor. Model, çerçeveler içinde hızlı bir şekilde ilerleyebiliyor, ancak çerçeve kendisi insanlar tarafından belirleniyor; bir çerçeve model tarafından aşılırsa, insanlar sorunu daha karmaşık yeni bir çerçeveye taşıyor.

Bu, AGI kaygısı için bu makalenin en ilginç yanıtı: Model ne kadar güçlü olursa olsun, genellikle insanlar tarafından çizilen bir sınırı yakalar, ancak sınırı çizen insanı değil. Yapay zeka, hedefleri gerçekleştirebilir, yolları optimize edebilir ve verimliliği artırabilir, ancak hala insanlar tarafından tanımlanan sorulara yanıt veriyorsa, gerçek anlamda bir subjektiviteye sahip değildir. Bilgi işlerinin geleceği, insanın süreçten kaybolması değil, icra edenden çerçeveyi tasarlayan, sistemi koruyan, kaliteyi değerlendiren ve anlam tanımlayan birine dönüşmesidir.

Otomatikleştirmeden sonra insan işinin değeri kaybolmamıştır, sadece daha zor, daha önde ve daha çok yargıya dayalı hale gelmiştir. AI, “yapmayı” ucuz hale getirmiş, ancak “ne yapmanın değerli olduğunu, neden yapmayı ve ne kadar iyi yapmanın yeterli olduğunu” bilmenin daha nadir hale gelmesini sağlamıştır.

Aşağıda orijinal metin yer almaktadır:

Yapay zekânın çekirdeğinde bir paradoks vardır.

Her yerde, otomatikleştirilebilen her şeyi otomatikleştirdik. Kodlama, yazma, tasarım, müşteri hizmetleri veya diğer günlük görevlerde Codex ve Claude Code kullanıyoruz. OpenAI, Anthropic ve Google'ın yeni modellerini resmi olarak yayınlamadan önce alpha testlerine katiliyoruz. Denebilir ki, model akıllılığı ve otomasyon kapasitesinin üssel artış dalgasına mümkün olduğunca hızlı ve derin bir şekilde biniyoruz.

Ancak çelişkili olarak, bizim için insanların yapması gereken işler, daha önceki herhangi bir zamandan daha fazla gibi görünüyor. Şu anda yaklaşık 30 kişilik bir ekip olan Every, Agent'lar sayesinde tüm çalışanları istifa ettirmiyor; SaaS araçlarını bırakıp tamamen vibe coding ile oluşturulan uygulamalara bağımlı olmuyor. Hâlâ gerçek insan müşteri hizmetleri personeli istihdam ediyoruz, ancak onlara büyük ölçüde Agent desteği sağlıyoruz; yazarları, editörleri ve mühendisleri de hâlâ işe alıyoruz.

Ancak işin şekli gerçekten büyük ölçüde değişti. Neredeyse artık kodu elle yazmıyoruz. Slack'te birini @ladığınızda, kişinin bir insan mı yoksa bir Agent mı olduğu bazen ayırt etmek zor. Yöneticiler artık一线 bireysel katkıda bulunanlar gibi kod göndermeye başladığında, mühendisler de doğrudan müşterilerle karşılaşıyor. Geçtiğimiz birkaç hafta boyunca iş e-postalarımın %95'ini AI yanıtladı. Posta kutum neredeyse sürekli boş kalıyor—bu benim için son derece nadir—ancak yine de her e-postayı tek tek kontrol ediyorum.

Yani, gelecek garip görünüyor ama şaşırtıcı derecede tanıdık.

Bu "alışkınlık" kendisi bile şaşırtıcı. Çünkü hem CEO'lar, hem bilgi işçileri, hem de yatırımcılar, görünüşe göre giderek aynı şeye inanıyorlar: Yapay zeka, istihdamı, ekonomiyi, güvenliği ve hatta insan işlerinin anlamını tehdit ediyor.

Anthropic CEO Dario Amodei, AI'nin ilk düzey beyaz yakalı işlerin en fazla yarısını ortadan kaldırabileceğini uyarıdı. Meta, yakın zamanda 8.000 kişiyi işten çıkardı ve ABD'deki çalışanların bilgisayarlarına, daha kaliteli ileri düzey bilgi işleri eğitim verileri elde etmek amacıyla fare hareketlerini, tıklamalarını ve klavye girişlerini kaydeden bir yazılım kurmaya başladı.

Hatta Citadel'in kurucusu Ken Griffin de oldukça etkilenmiş görünüyor. Son zamanlarda şunu ifade etti: «Bu, orta ve düşük seviyeli beyaz yakalı işler değil; agentic AI tarafından otomatikleştirilen çok yüksek beceri gerektiren pozisyonlar.»

Çeşitli benchmark testleri bu yargıyı destekliyor gibi görünüyor. Yeni nesil modellerin sürekli olarak yayınlanmasının ardından, model yetenek göstergeleri neredeyse üssel bir hızla yükseliyor. Lisansüstü düzeydeki mantık testi olan Humanity's Last Exam'de, en üst düzey modellerin puanları bir yıl önce düşük rakamlardan bugün yaklaşık %44'e yükseldi. Öncü modellerin gerçek ekonomik işleri tamamlama yeteneğini ve insan performansıyla karşılaştıran GDPval testinde de modellerin puanları benzer düşük seviyelerden yaklaşık %85'e doğru yükseldi. Mayıs ayında, AI güvenlik araştırmalarını yapan kar amacı gütmeyen kuruluş METR, Claude Mythos'un erken test sonuçlarını yayınladı: İnsan uzmanların yaklaşık 4 saatte tamamlayabildiği bazı görevlerde bu modelin başarı oranı %80'e ulaştı.

Görünüşe göre, herhangi bir insandan daha akıllı ve neredeyse tam bir gün boyunca bağımsız olarak çalışmaya devam edebilen bir AI'nın gerçeklik olmaya yaklaştığı bir sınır noktasındayız.

Ancak paradoks hâlâ devam ediyor. Eğer AI endüstrisi çalışanları ile ya da AI'yi en erken kullanan dışarıdaki kişiler ile konuşursanız, içsel gözlemlerimizle aynı sonuca varacağımızı duyarsınız: Yapılması gereken işler aslında daha da arttı.

Sektör içinde ve dışında gerçekten ilgi duyulan soru şudur: Bu sadece bir geçiş durumu mu? Bir sonraki modelin yayınlanışı, tüm insanların yerini alacak an mı olacak? Referans testi eğrilerine bakarken hem heyecanlanıyoruz, hem de bir dönüm noktasının her an gelip büyük ölçüde işlerin aniden kaybolma korkusuyla endişeleniyoruz.

Ancak böyle bir «kritik noktanın» aniden gelip her şeyi anlık olarak tersine çevireceğini ve işlerin büyük ölçüde kaybolacağını düşünmüyorum. Yeni gerçeklik tam tersine: Otomasyon düzeyi ne kadar artarsa, insan uzmanların dahil olması gereken işler o kadar artar.

Nedeni, yapay zekânın, insan profesyonel yetkinliklerinin açıkça ifade edilebilir, eğitilebilir ve kopyalanabilir olan kısımlarını ticarileştirmesidir. Kurallara dönüştürülebilen, süreçlere dönüştürülebilen ve eğitim verisine dönüştürülebilen her bilgi, zamanla modelin varsayılan yeteneklerine dönüşecektir. Sonuç olarak, genel modellerin ürettiği değer hızla düşmektedir ve pazar, farklı olan şeylere daha güçlü bir ihtiyaç duymaya başlamaktadır.

“Farklılık” talebi, temelde insan uzmanlarının talebidir. Evrensel yapay zeka yaklaşıyor olsak bile, bu durum kaybolmayacaktır.

Nedenini anlamak için yalnızca benchmark eğrilerine bakmak veya model parametrelerini ve yetenek sıralamalarını takip etmek yeterli değildir. Gerçek iş senaryolarına dönmeli ve bugünün AI’sinin nasıl kullanıldığını görmeliyiz. Yalnızca böylece bu paradoksu ve arkasındaki cevabı gerçekten anlayabiliriz.

Bu noktaya nasıl geldik

2022'den beri, Ajantın gelecekteki işlere etkisini izliyoruz.

Üç yıl önce, 'atama ekonomisi' (allocation economy) hakkında bir makale yazmıştım. O zamanlar, AI araçlarıyla iş birliği yapmanın, nihayetinde insan yöneticilerin işine giderek benzer hale geleceği konusunda kararlıydım: Her bir eylemi kendi başınıza yapmak yerine, görevleri parçalara ayırıp, atayıp, izleyip ve kabul ediyordunuz. O dönemde, ChatGPT'deki en temel soru-cevaplar hâlâ birçok kişi için oldukça gelecekçi ve hatta biraz korkutucu olarak görülüyordu.

2025 yılının ortasına doğru, Every şirketi neredeyse tamamen "Claude Code" hâline geldi. Cora'nın genel müdürü Kieran Klaassen, el yazısı kod yazmaktan vazgeçip, tüm gün boyunca bir programlama Agent'ine terminal üzerinden doğal dil ile talimatlar vererek çalışabileceğini fark etti. Bu çalışma şekli kısa sürede şirket genelinde yayıldı. Yaklaşık 12 ay önce, Lenny'nin Podcast'inde Claude Code'un bilgi işlerinde en fazla altında değerlendirilen araç olduğunu söyledim.

Bunları neden anlatıyorum çünkü geçmişteki en doğru yargılarımızın çoğu, Every'yi erken kullanıcı bir laboratuvarı olarak gözlemleyerek ortaya çıkmıştır. Yeni çalışma modellerinin çoğu, önce içimizde ortaya çıkar; teknoloji daha da olgunlaştıkça ve araçlar daha kullanışlı hale geldikçe, bu modeller daha geniş piyasaya yayılır.

Şu anda içimizde yeni değişiklikler yaşanıyor.

Agent ile iş birliği yapmanın iki modu

AI'nin nasıl çalıştığı etrafında, iki çok farklı model üzerinde yavaş yavaş birleşme gerçekleşiyor.

İlk yön, daha önceki AI tartışmalarında oldukça doğru şekilde öngörülen: Agent'ları çalışan gibi görmek. Bu tür Agent'lar görevlerle sorumlu tutulabilir. Bazı Agent'lar Slack'te yaşıyor, kendi isimleri ve sorumlulukları var; bir şey yapman gerektiğinde doğrudan @ ile çağırabilirsiniz. Diğer bazı Agent'lar ise müşteri hizmetleri sistemleri gibi sürekli çalışan iş akışlarına gömülmüş ve tekrarlayan görevler için 24 saatlik giriş ve filtre olarak hizmet veriyor.

İkinci mod daha az tanıdık olsa da, deneyimlerime göre daha önemlidir. Bu mod, Codex, Claude Code, Claude Cowork gibi araçlarda insan ile Agent arasındaki iş birliğini ifade eder. Bu araçlar yalnızca görevleri dışarı verdiğiniz yerler değildir; kendileri işin kendisinin işletim sistemi haline gelmektedir: Birden fazla Agent ile aynı bir “bilgisayar”da, aynı çalışma ortamında birlikte çalışarak, basitçe asenkron bir Agent’a verilemeyecek kadar yüksek karmaşıklıkta ve orijinalliğe sahip görevleri tamamlarsınız.

Bu iki modda da, işlerin büyük bir kısmını AI ile otomatikleştirebilir ve devredebilirsiniz. Ancak bu iki modun da iyi çalışması için hâlâ sizin ya da başka bir insanın katılımına ihtiyaç vardır.

Çalışan

Bir Agent çalışan, size bir görev verdiğinizde, gerçek zamanlı katılımınızdan ayrılarak bağımsız olarak bir cevap, bir eylem, bir rapor, bir taslak veya bir yönlendirme kararı üretir.

Bu tür Agent'lar en az iki biçimde bulunur: biri «arkadaş tipi Agent», diğeri ise «gömülü Agent».

1. Meslektaş Tipi Agent

Meslektaş türü Agent, Slack'te bir meslektaşını @ işaretleyerek çağırıp bir iş yaptırmak gibi çalışan türdür. Her zaman hazır durumda olup, ihtiyaç duyulduğunda çağrılabilir. OpenClaw gibi ürünler veya dahili olarak geliştirdiğimiz Plus One bu kategoriye girer.

Claudie

Claudie, danışma ekibimizin kullandığı bir meslektaş agentidir. Satış teklifleri yazar, eğitim materyallerinin taslaklarını oluşturur, projelerin yapılacaklar listesini takip eder ve benzeri işleri yerine getirir.

Andy

Andy, editör ekibimizin kullandığı bir kollega agentidir. Şirket içi Slack'ten, daha da geliştirilebilecek "malzeme noktalarını"—yani makale haline gelebilecek iyi fikirleri—toplar ve bunları yazarların günlük haber bültenlerini yazması için özetlere ve ilk görüşlere dönüştürür.

Viktor

Viktor, şirket içi çapraz departman işlerini yürüten genel bir Ajandır. Büyüme endekslerini toplamak, kullanıcı araştırmalarının sonuçlarını analiz etmek ve karışıkk iç tartışmaları araştırma notlarına ve ürün önerilerine dönüştürmek için onu kullanacağız.

2. Gömülü Agent

Gömülü Agent'lar belirli ürün akışlarında bulunur. Arkadaş tipi Agent'lar kadar esnek olmasalar da, tekrarlayan görevleri işlerken genellikle çok güçlüdür.

Fin, en net örneklerden biridir. Müşteri hizmetleri platformumuzda yer alan bir Ajandır ve sohbet ile e-posta yoluyla büyük ölçüde müşteri hizmetleri işlerini üstlenebilir.

Bu yıl Mayıs ayının bir haftasında, Fin, Every'nin toplam 202 müşteri hizmeti diyaloğının %65'ine katıldı ve bunların 81'ini insan müdahalesi olmadan bağımsız olarak kapattı; bu da işlenebilir tüm diyaloğların %40,1'ini oluşturuyor.

Bu gömülü Agent'ler, müşteri hizmetleri yöneticimiz Waqqas Mir'in temel biletlere cevap vermek için harcadığı zamanı azaltarak, daha fazla çaba harcamasını sağlıyor: “biletleri otomatik olarak yanıtlayan bir sistem” kurmak ve daha fazla etkileşime ve daha karmaşık kararlar gerektiren müşteri durumlarıyla uğraşmak.

İnsan ve AI iş birliği

Hem işbirlikçi Agent hem de gömülü Agent için arka planda aynı model geçerlidir: Agent çalışanlar, daha fazla kararlı, tekrarlayan ve sınırları net olan iş katmanlarını devralıyor.

Ancak hala insan katılımı gerektiren büyük bir iş var. Görev yeterince karmaşık olduğunda, gerçekten yüksek kaliteli sonuçlar elde etmenin en iyi yolu, işi tamamen AI'ya bırakmak değil, AI ve insanın aynı çalışma ortamında karşılıklı işbirliği yapmasıdır.

Bu, Codex, Claude Code ve Cowork gibi araçların tam olarak değerini oluşturur. Bu araçlar, birden fazla sohbet telinde bir veya daha fazla Agent başlatmanıza ve görevleri onlara devretmenize olanak tanır. Bu Agent'lar, bilgisayarınıza ve tüm ilgili veri kaynaklarına erişebilir. Her Agent'ın hangi görevi gerçekleştirdiğini, nasıl düşündüğünü görebilir ve her zaman onu keserek durdurabilirsiniz.

Aynı zamanda bu Agent'ları yönetmeye devam etmelisiniz: Her görevin başında yön belirleyin, görevin sonunda kaliteyi kontrol edin, sonuçların yeterince iyi olduğundan emin olun ve devam ederek ilerletmeye değer olan bir sonraki işi bulun. Kieran, bu rolü insanlar için "sandviç" olarak adlandırıyor—AI, görevin orta kısmını yürütürken, insanlar görevin başlangıcı ve sonunda sandviçin iki dilimi gibi yer alıyor.

«İnsanlı sandviç». Kaynak: Every.

Kod yazmak en tipik örnektir. Her gün, mühendisler neredeyse tamamen Agent ile iş birliği içinde çalışır. Yeni özellikler planlar veya hataları giderir, tamamlanan çalışmaları gözden geçirir; eğer “bileşik mühendislik” (compound engineering) kavramını benimserlerse, sistemlerini zamanla daha kullanışlı hale getirmek için sürekli iyileştirirler.

Ancak bu iş birliği şekli kodlamayı çok aşmaktadır.

Yeni bir bilgi işi işletim sistemi

Codex ve Claude Code, yeni bir çalışma işletim sistemi haline geliyor. Neredeyse tüm günümü Codex içinde geçiriyorum ve yerleşik tarayıcısı aracılığıyla çeşitli SaaS araçlarını çalıştırıyorum. Bana Agent'i her iş senaryosuna taşıma ve yalnızca kendi başıma ulaşamayacağım bir çalışma seviyesine ulaşma imkanı sağlıyor.

Yazma

Bu makaleyi Codex'in dahili tarayıcısında Proof ile yazdım. Codex, yazdıklarımı gözlemliyor ve herhangi bir görevi tamamlamak için istenildiğinde bir alt Agent’ı başlatabiliyor: bir bölümün taslağını oluşturmak, bir sonraki kısım için örnekler aramak veya metni düzenlemek ve iyileştirmek.

Codex'te Proof ile bu makaleyi yazın. Kaynak: Every.

E-posta

E-postaları işlerken aynı yöntemi kullanıyorum. Cora, e-posta istemcimdir ve Codex'in yerleşik tarayıcısında açarım; posta kutusunu tararken her e-postanın işleme stratejisini Monologue ile söylerim. Geri kalan kısmı ise Codex ve Cora tamamlar.

Cora tarafından yapılan bir gelen kutusu temizliği. Kaynak: Every.

Her bir Agent için bir insan gerekir.

Yukarıdaki tüm otomatik senaryolarda, insanın nerede rol oynadığını görebiliyorsunuz. Her örnekte, Agent'in çalışması için insan katılımı gerekmektedir.

Bunu doğru soruya yönlendiren, üretimin yeterli olup olmadığını değerlendiren, hataları tespit eden ve sonuçları gerçek dünyadaki kararlar veya süreçlere dönüştüren biri olmalı.

Bir Agent, performansını denetleyen insanlardan ne kadar uzaksa, iş performansı o kadar kötü olur. İlk iç promosyon sırasında her çalışanımıza bir Agent vermiştik. Ancak çok kısa bir süre sonra, Agent'ların bireysel kişilere değil, belirli bir ekip veya şirket geneline hizmet etmesi için geri döndük.

Nedeni basit: Agent'lar büyük ölçüde bakım gerektirir. Kişisel Agent'lar, kullanıcı tarafından takip edilmeye devam edilmediğinde hızla eski ve işlevsiz hale gelir. Bu Agent'ların kararlı ve etkili bir şekilde çalışmasını sağlamak için özel bir AI mühendisi ekibimiz var. Öngörülebilir gelecekte de bu ekip hâlâ gereklidir. Hatta “otomatik PowerPoint oluşturma” gibi görünümden basit bir görev bile büyük bir sistem mühendisliği projesine dönüşebilir. PowerPoint otomasyon sürecimizden biri, 24 beceri ve 18 betik içerir ve bir sunum oluşturmanın token maliyeti 62 doları aşar.

Bu, Agent'in insanlar için daha fazla iş yaratmasının ilk nedenidir.

Ancak ikinci bir neden daha var.

Neden otomasyon insan işini artırır

Geçmiş yıllar boyunca AI yeteneklerinin üssel artışını gözlemleyip mimarisini ve yetenek kaynaklarını birleştirdiğinizde, insanların daha fazla iş yaratmaya devam ettiğini gösteren net bir geri bildirim döngüsü görürsünüz.

Yapay zeka, "dünün insan kapasitesini" ucuzlattı

Mevcut büyük dil modelleri, insan yeteneklerinin bıraktığı görülebilir izler üzerinde eğitilmiştir: kodlar, makaleler, resimler, müşteri hizmetleri biletleri, ürün specifikasyon belgeleri ve daha fazlası. Bu modeller, başarıyla tamamlanmış görevlerin bıraktığı “egzoz gazlarını” emerek, düşük maliyetli ve herkesin erişebileceği bir formda yeniden paketliyor.

Sonuç olarak, bir kod PR göndermek, bir YouTube küçük resmi oluşturmak, bir haber bülteni yazmak gibi geçmişte nadir olan beceriler artık neredeyse herkes için açıktır.

Ucuz yetenekler hızla benimsenecektir

Nadir olan bir şeyin maliyeti düştüğünde, arz hızla artar.

Her yerde bu değişimi gözlemliyoruz. Operasyon ve müşteri hizmetleri personeli kod yazmaya, pull request göndermeye başlıyor; pazarlama ekipleri YouTube küçük resimleri oluşturuyor; mühendisler ve ürün ekipleri ise önce bu görevleri üstlenmeyecekleri yazılar, rehberler ve inceleme sayfalarının taslaklarını yazmaya başlıyor.

Bu değişiklikler Every dışında da gerçekleşiyor. Açık kaynaklı AI Agent projesi OpenClaw örneğinde, 16 Mayıs 2026 itibarıyla kod deposuna 44.469 pull request gelmiş ve bunların 12.430'u 1 Nisan sonrası, 3.990'u ise 1 Mayıs sonrası gelmiştir. Bu inanılmaz bir sayı. Karşılaştırma amacıyla, Kubernetes gibi dünyanın en popüler açık kaynak projelerinden biri 2022 yılında sadece 5.200 pull request almıştır.

Zenginlik, homojenleşmeyi getirir: Eski uzmanlık becerileri ticarileşir

Çünkü herkes aynı modeli kullanıyor ve bu modeller "dünün insan kapasitesi" üzerine kurulmuş, varsayılan olarak modellerin ürettiği içerikler genellikle "iyi bir başlangıç" ile "sadece AI çöpü" arasında kalıyor.

Burada bahsedilen "çöp içerik", belirli bir hata anlamına gelmiyor. Çizgilerin fazla kullanılması, belirli bir cümle yapısı ya da sayfada yaygın olarak görülen mor dokular değil. Gözle görülebilir, tekrarlayan ve sıkıcı bir homojenliği ifade ediyor.

İnsanlar farklı senaryolarda aynı aracı kullanırken, bu aracın aynı türde bir veri kümesiyle eğitildiği ve kullanıcıların yeterince derin bir değerlendirme yapmadığı durumlarda bu sonuç ortaya çıkar. Başka bir deyişle, herkesin aynı eğilime ve varsayılan tarza sahip bir «uzman»a sahip olduğu zaman, homojenleşme doğal olarak gerçekleşir.

İşletme görevlileri pull request gönderebildiğinde, pazarlama ekipleri saniyeler içinde YouTube küçük resimleri oluşturabilir ve mühendisler ürün kılavuzlarını yazmaya başladığında, üretiminiz miktar olarak artarken eserlerinizin kalitesi, tutarlılığı ve farklılaştırılması azalabilir.

Ancak homojenlik aşırı ölçüde bol hale geldiğinde, hızla bir ürün haline gelir.

Homojenlik, farklılaşmaya olan ihtiyacı yaratır

İnternetin varlığı sayesinde insanlar, aşırı yapay ve hatırı sayılır içerikleri çok kısa sürede tanıyabilecek. Herhangi bir eser, aslında sıklıkla olduğu gibi, anında dünyanın her yerindeki diğer insanlara ulaşabilir. Çok şey birbirine benzmeye başladığında, hemen bir şeylerin yanlış olduğunu fark ederiz.

Bu, yeni bir modelin yeteneklerini ilk kez gördüğünüzde şaşkınlık duyabileceğiniz veya hatta biraz korkabileceğiniz anlamına gelir. Ancak birkaç ay sonra bu yetenekler sıradan hale gelir. Model zayıflamadı, sadece standartlarınız değişti.

Sadece rastgele bir React uygulaması veya rastgele bir araştırma raporuyla yetinmiyoruz. Gerçekten bireysel, kurumsal ve özel senaryolara uygun bir şey istiyoruz. Bu şey, ucuz, genelleştirilmiş ve şablonlaşmış değil, doğru, canlı ve spesifik hissi vermelidir. Üretim maliyetinin, hem zamansal hem de maliyet açısından, tüketim maliyetinden açıkça daha yüksek olmasını istiyoruz.

Biz, "statü hissi" taşıyan şeyleri istiyoruz. Ve her yeni teknoloji, geçmişte yüksek statüye sahip olan şeyleri ucuzlaştırduğunda, insanlar yeni yetenek sınırlarına uygun yeni statü oyunları icat etmek konusunda her zaman çok yeteneklidir.

Çalışma aşırı derecede bol hale geldiğinde ve her yer aynı göründüğünde, mevcut kalıplara uymayan işler, kıymetli, nadir ve yüksek statüye sahip olur.

Farklılaşmış ihtiyaçlar, temelde uzmanlara yeni bir ihtiyaçtır.

Dil modellerinin mimari özellikleri ve neredeyse herkese yaygın olarak dağıtılması nedeniyle, kıymetli ve nadir işler hâlâ insanlardan gelmelidir.

Şu anki nesil modeller, yalnızca geçmişte gerçekleşmiş ve tamamlanmış işleri bilir. İnsanlar ise: şu anda tam olarak ne yapmak gerektiğini bilir.

Bir durum metne dönüştürüldüğünde ve bir veri setine girdiğinde, zaten «geçmiş bir şey» haline gelir. İnsanlar, belirli bir anla, belirli bir müşteriyle, belirli bir kod tabanıyla, belirli bir diyalogla karşı karşıyadır; ancak eğitim veri seti bu anda gerçekten yaşamaz. Bu «yaşamak» durumu, yalnızca güncel verilere sahip olmakla sınırlı değildir. Biz, kendi kökenlerimizi taşıyarak şu anı yaşarız ve sürekli değişen arzularımızı, endişelerimizi ve yargılarımızı taşıyarak, neyin önemli olduğunu anlarız. Bu sürekli güncellenen bakış açıları, gördüklerimizi değiştirir. Model, bir ipucu verildikten sonra bu bakış açısını kazanabilir, ancak ipucu verilmeden önce doğal olarak bu bakış açısına sahip değildir.

Bu, başta bahsettiğimiz paradokstur: uzmanların çalışmasını daha ucuz hale getirmek, uzmanları basitçe yerine geçmez. Bunun yerine, uzman yargısına ihtiyaç duyulan daha fazla senaryo yaratır.

Operatörler AI kullanarak pull request gönderdiğinde, mühendislerin incelemesi gerekir.

Pazarlama ekipleri YouTube küçük resimleri oluşturduğunda, daha da geliştirme için tasarımcılara ihtiyacınız vardır.

Mühendisler yazı yazmaya başladığında, taslakları gerçekten okunabilir ve yayınlanabilir hale getirmek için yazar ve editörlere ihtiyacınız vardır.

Bu durumda, insan uzmanları aynı anda iki yöne hareket edecektir.

Bazı uzmanlar, ek iş akışını absorbe etmek ve kullanmak için AI kullanarak sistemler kurar: inceleme kuyrukları, değerlendirme sistemleri, çalışma çerçeveleri, kod deposu kuralları, Claude ve Codex talimat dosyaları, sürekli entegrasyon (CI), erişim yönetimi ve taslakları kaliteli sonuçlara dönüştüren iş akışları.

Diğer bir grup uzman, AI yardımıyla önce tek başlarına yapamadıkları daha büyük ve ilginç işleri tamamlıyor. Örneğin, macOS gibi bir işletim sistemindeki açıkları bulmak genellikle haftalar hatta aylar alır. Ancak Calif adlı küçük bir güvenlik şirketi, Anthropic'in Mythos Preview'ini kullanarak, Apple M5 donanımında gerçekleşen ilk açık macOS çekirdek bellek açıklarını 5 gün içinde buldu.

Bu nedenle pratikte, yapay zeka uzmanlık tabanlı işleri ortadan kaldırmaz. Gerçekten de iş yükünde büyük bir artış yaratır. Bu yeni işler, insan katılımı olmadan fark yaratamaz ve değer kazanamaz.

Ben, AI'nın tüm pozisyonlar için daha fazla iş yaratacağını savunmuyorum. Ekonomik sistem çok karmaşıktır ve Every, doğrudan gözlemleyebildiği şey uzman düzeyindeki bilgi işleridir. Aslında, bu tür işler zaten AI tarafından yeniden şekillendiriliyor ve birçok şirket yeni teknoloji etrafında kendilerini yeniden organize ediyor.

Ancak vurgulamak istediğim şey, şu anda hangi işi yapıyorsanız yapın, modeli kullanarak şu anda gerçekten karşılaştığınız sorunları çözen bir iş biçimi, yapısal olarak her zaman modelin önünde olacak. Bilgi işlerinin geleceği, buraya doğru ilerliyor.

Peki, üssel büyüme için test senaryoları nasıl?

En açık itiraz şudur: Üstelik artan benchmark'ları gözlemleyin. Şu anda söylediğiniz her şey geçici, biraz daha beklerseniz modelin yakalayacağı kesin.

Ancak burada dikkat edilmesi gereken bir tuzağı var. Buna “grafik çılgınlığı” diyebilirsiniz: METR’in zaman aralığı tahminlerine sürekli bakıyorsanız, “AI 2027”yi okuyorsanız ve geleceği anlamak için yalnızca hesaplama eğrisinin dışa vurumuna güveniyorsanız, model ilerlemesi konusunda korkutucu bir sezgi geliştirmek kolay.

Ancak bu soruya en iyi yanıt, gelecekteki bir modelin nasıl olacağına dair hayal kurmakla sınırlı kalmamalıdır. Elbette bu, analizin bir parçasıdır. Daha önemlisi, bu performans testlerinin tam olarak nasıl tasarlandığını incelememiz gerekir. Sadece böylece, bu testlerin tam olarak neyi gösterdiğini ve önceki gerçek iş senaryolarıyla nasıl bir ilişkisi olduğunu daha doğru bir şekilde anlayabiliriz.

Bir yapısal özellik ortaya çıkar: tüm benchmark testleri belirli bir «çerçeve» içinde gerçekleşir. Bir şeyi ölçmek için, sorunu statik ve ölçülebilir bir hale getirmelisiniz. Bu çerçeve model tarafından aşılırsa, çerçeveyi hafifçe değiştirmek yeterli olur ve puanlar tekrar düşük seviyeye geri döner. Tabii ki, model yeni çerçevede de ilerlemeye devam eder, ancak aynı süreç sürekli tekrarlanır.

Bu nedenle, bir benchmark üzerindeki üssel ilerleme gerçektedir; ancak benchmark çerçevesini basitçe değiştirdiğinizde, bu ilerlemenin tekrar çok küçük göründüğünü fark edersiniz. Benchmark doygunluğunun gösterdiği bu «fraktal» özellik, aslında grafik düzeyinde tartıştığımız aynı paradoksu yeniden canlandırır.

Bu mekanizmanın nasıl çalıştığını, gerçek dünyada bir performans testiyle görebiliriz.

Benchmark nasıl tasarlandı

İçsel olarak bir performans testi oluşturduk, adı Senior Engineer Benchmark, yani 'Üst Düzey Mühendis Performans Testi'. Adından da anlaşılacağı gibi, bu test, büyük bir yeniden yapılandırma gibi üst düzey mühendislik düzeyindeki kodlama görevlerinde öncü modellerin yeteneklerini ölçer.

Bu test, bir programlama Agent'ine tamamen kontrolü kaybedilmiş bir üretim kod tabanı sunar. Bu kod, Proof'un gerçek kod tabanından alınmıştır: İlk olarak vibe coding ile yazdım, ardından sorunlar artmaya başladı ve nihayetinde bir üst düzey mühendisden onarması için yardım istemek zorunda kaldım.

Agent, onarılmadan önceki kod deposunu alır ve aynı zamanda高级工程师'ye verdiğiniz gibi bir talimat alır: «Bu, bir dizi vibe coding ürünüdür; ilk prensiplerden yola çıkarak yeniden yazın.»

Bu, yalnızca kod tamamlama becerisini değil, bir programlama Agent'in birbirinden bağımsız birçok soruyu aynı anda değerlendirebilme ve gerçek bir çalışır durumda yeniden yazma yapmak için yeterli özerklik, kavramsal netlik ve yürütme cesareti sahibi olup olmadığını test ettiği için iyi bir benchmark'tır. Karşılaştırma amacıyla, AI destekli olarak iki insan üst düzey mühendisinin tamamladığı yeniden yazma sürümlerini de korudum ve model çıktısını değerlendirmek için kullandım.

Programlama Agenti için bu görev zordur. Sadece sorunun kök nedenini bulmakla kalmaz, aynı zamanda çok adımlı etkileşimler boyunca gerçek sorunu hatırlamalı ve mevcut kodla sapmamalıdır. Aynı zamanda, Agentlerin genellikle yapmaktan kaçındığı büyük kod tabanlarını silme cesaretine de sahip olmalıdır.

Çoğu programlama Agent, nasıl yeniden yazılması gerektiğini yaklaşık olarak belirleyebilir, ancak uygulama aşamasında genellikle temel sorunu çözmek yerine mevcut soruna ekstra düzeltmeler yapar.

GPT-5.5 ortaya kadar.

En iyi testte GPT-5.5, Opus 4.7'den yaklaşık 30 puan daha yüksek olan 62/100 puan aldı.

GPT-5.5'in performansı, modelin belirli bir sınırı aştığını hissettiriyor: Artık sadece otomatik tamamlama, sadece bir asistan ya da araç değil, insanlara rahatsız edici bir şekilde yakın bir şey. Bu testte, insan yüksek mühendislerin puanları genellikle 80'in yüksek kısmından 90'ın başlarına kadar. Yani model yaklaşık 30 puan daha yükselirse, insan yüksek mühendis seviyesine ulaşacaktır.

Bu, temel test sayılarının insan hayal gücüne nasıl etki ettiğidir: tuhaf, niteliksel bir yetenek değişikliğini temiz bir sayıya sıkıştırır ve bu sayı ile güçlü, hatta biraz korkutucu bir hikâye anlatır.

Sonraki durak, "Grafik Fırtınası".

Bir yıl içinde bu modelin bu benchmark testindeki puanının 80 veya 90 aralığına gireceğini tahmin ediyorum. Ancak bu puanın ne anlama geldiğini anlamak için önce bu puanın tam olarak neyi kapsadığını anlamak gerekir. Bu örnekte, 62 puan sadece modelin kendisinin yeteneklerinin bir ölçüsü değildir.

Belirli bir çerçevede modelin performansını ölçer: yani modelin belirli bir girişe nasıl yanıt verdiğidir.

Benchmarks, çerçevedeki işleri ölçer.

Bir modeli test etmek için öncelikle bir prompt'a ihtiyacınız vardır. Prompt olmadan, model sonsuz olasılıkların statik bir kümesinden ibarettir.

Bir talimat, küçük bir evren yaratır: neyin önemli olduğunu tanımlar, sorunların nasıl ele alınması gerektiğini belirler ve modelin tüm potansiyel olasılıklarını tek bir belirli eylem yoluna sıkıştırır. Modelin "kendisi" nasıl davranacağı tam olarak mevcut değildir. Gerçekten gözlemleyebileceğimiz şey, modelin farklı talimatlara nasıl tepki verdiği ve talimatların cevaplara dönüşmesinin ardındaki temel mekanizmadır.

Bir prompt girildiğinde, model kısa bir süre içinde «canlanır» ve duran olasılıklar kümesini «sonraki ne olmalı» konusunda spesifik bir tahmine dönüştürür.

Senior Engineer Benchmark'de, modelden kod tabanını onarmasını isteriz ve tamamlandığında çıktıyı inceleyiz. Test çerçevesinin kendisinde hedef işlev yerleşik değilse, model durduğunda onu teşvik etmek için otomatik bir "gözetmen" çalıştırırız ve ilk belirlenen görevi tamamladığı sorulur.

Basit görünen bir prompt kullanıyoruz, test için başlangıç çerçevesi olarak. Bu, bir vibe coder'ın programlama Agent'ına söyleyebileceği bir şey olarak tasarlandı: teknik terimlerle dolu değil, cevabı soruda açıkça gizlemiyor.

Bu kod deposundaki kodlar bir dizi vibe coding ürünüdür, durum sürekli kötüleşiyor ve birbirinden tamamen bağımsız birçok sorun ortaya çıkıyor: bazı yerler çöküyor, bazı belgeler tekrarlanıyor, bununla başa çıkmak beni neredeyse deli ediyor. Temel sorunun, bu kodların bir vibe coding tarzı kötü kodlar olduğu olduğunu hissediyorum. Eğer özellikle gerçek zamanlı belge işbirliği etrafında baştan başlasak, kod deposunu tamamen farklı bir şekilde tasarlayacaktık. Peki, eğer “hangi hizmetlerin tutarlı kalması gerektiğini” veya “nasıl düzgün bir geçiş yapılacağını” düşünmeden, bunu tamamen yeni bir kavram olarak baştan tasarlasak, nasıl yapardık? Yapı nasıl düzenlenmeli? Kod deposunda, her zaman korunması gereken sabitler nelerdir? Lütfen bunun için bir plan hazırlayın.

Senior Engineer Benchmark'in prompt'u genel gibi görünse de, kendisi bir çerçevedir. Bu çerçeveyi değiştirirsek, modelin gösterdiği yetenek düzeyi de değişir.

Örneğin, bu talimat "temel ilkelerden başlayarak yapısal bir yeniden yazma yap" diyerek sorunun "belge iş birliği" kısmında olabileceğini belirtiyor ve programlama aracısına kod tabanındaki değişmezleri bulup sürdürmesini istiyor.

Bu spesifik bilgiler kaldırılırsa, model puanı düşer. Tamamen prompt değiştirilip modele yalnızca "sürekli ortaya çıkan tüm hataları çöz" diyorsanız, model puanı sıfıra yakın olabilir. Model, bir adım geri çekilip kapsamlı bir yeniden yazma gerekip gerekmediğini düşünmek yerine, hataları doğrudan tek tek tanımlayıp düzeltmeye başlar.

Aynı şekilde, model puanını çok kolayca artırabilirim. Büyük miktarda kodu silmesini isteyip, hangi dosyaların sadeleştirilmesi gerektiğini açıkça belirtirsem; veya tamamlandığını ilan etmeden önce kendi çalışma sonucunu kontrol edip uygulamanın tamamen çalışıp çalışmadığını doğrulamasını istersem, bu görevde daha iyi performans gösterir.

Sonuçta, bir benchmark tasarlanırken, hangi prompt’un, yani hangi «çerçevenin» kullanılacağına karar verilmelidir. Mevcut modelin kötü performans gösterdiği yeterince zor bir prompt’a ihtiyacınız var; ancak bu prompt, modelin mevcut yetenek sınırına yeterince yakın olmalı ki model bu yolda ilerleyebilsin ve ilerlemenin gerçekleştiğini görebilesiniz.

Bu nedenle, bir benchmark'u incelediğimizde gerçekten gördüğümüz şey, modelin bizim seçtiğimiz belirli bir soru çerçevesine giderek daha iyi hale gelmesidir. Peki model bu testte 60 puanından 90 puana, hatta 100 puana yükseldiğinde ne olur?

Düşük maliyetli çerçeve yeni talepleri tetikleyecektir.

Eğer GPT-6, kod tabanını bir tıkla yeniden yazmayı başarabilirse, daha fazla kişi "ilk prensiplerden başlayarak kod tabanını yeniden yazma" girişiminde bulunmaya başlayacaktır.

Bir gece içinde, önce nadir, pahalı ve üst düzey mühendislerin yönetimi altında olan ilkilkeleri yeniden yazma projeleri, her kurucu, ürün yöneticisi, operasyon elemanı ve başlangıç seviyesi mühendisinin bir öğleden sonra kolayca deneyebileceği bir hale gelecektir.

Kırık iç araçlar tamir edilmez, doğrudan yeniden yazılır; SaaS ürünlerinin abonelikleri devam ettirilmez, klonlanır; eski Rails uygulamaları, karmaşık React panoları, müşteri hizmetleri araçları, arka plan yönetim panelleri ve veri boruları, "tamamen yeniden yaz" seçeneğine dahil olur.

Önerilen ve uygulanan yeniden yazma projelerinin sayısı keskin bir şekilde artacak. Ancak bu yeniden yazmaların çoğu hâlâ slop kalacak. Çünkü «Doğrudan Yeniden Yaz» butonuna basmadan önce binlerce değişkeni dikkate almanız gerekiyor. Ve herkes bunu yapabildiğinde, bu değişkenler daha net hale gelecek.

Bu durumda, sorunu çözmek için kimin çağrılacağı açıkça belli.

Yeni ihtiyaçlar hâlâ uzmanlar gerektiriyor

Bir benchmark başladıkça doymaya yaklaştıkça, içindeki işler daha ucuza düşer. Aynı zamanda, bu yeni ucuzlaşan yeteneğin bugün gerçekleşen gerçek sorunlara uyarlanabilmesi için uzmanlara olan talep artar.

Yeni bir ilk ilke yeniden yazımı gerçekleştirmek için AI kullanan üst düzey mühendisler, birçok detayı değerlendirmek zorundadır. Bunlar arasında en temel sorudan biri bile yer alır: Bu yeniden yazım gerçekten gerekli mi?

Şimdi mi yeniden yazmalıyız, daha sonra mı, yoksa hiç mi yazmayalım? Hangi içerikler kapsama alınmalı? Mevcut kod tabanında hangi unsurlar korunmalı? Mimari, veritabanı, önbellek sunucusu ve barındırma sağlayıcısı korunmalı mı, yoksa hepsi mi değiştirilmeli? Önce bu bozuk işlevi kullanan kaç kişinin olduğunu inceleyip, onu doğrudan kaldırmalı mıyız? Sonuç kim tarafından denetlenecek? Denetim için hangi kriterler kullanılacak? Geri alma planı nedir? Mevcut veriler nasıl işlenecek?

Bu sorular sonsuz sayıda boyutta sürekli olarak genişleyecek ve her cevap, diğer soruları tekrar değiştirecektir.

Üst düzey mühendisler bu boşluğa girecektir. Bazıları bu kesintilerden hafifçe sinirlenecektir; bazıları bu tür talepleri dışarıda tutacak sistemler kuracaktır; bazıları ise bu yeni modelleri kullanarak ilkelerine dayalı tamamen yeniden yazım yapacak ve bunun sonucu, modelin varsayılan prompt altında yapabildiğinden çok daha iyi olacaktır.

Döngü tekrarlanacaktır

Mevcut Senior Engineer Benchmark model tarafından aşıldıktan sonra, çerçeveyi değiştirecek ve puanları tekrar düşük seviyeye geri getireceğiz.

Sonraki performans testi yalnızca şunu sormayacak: “Bu uygulamayı yeniden yazabilir misiniz?” Bunun yerine şunları soracak: Ne zaman yeniden yazma ihtiyacı olduğunu nasıl belirleyebilirsiniz? Uygun kapsamı nasıl seçebilirsiniz? Doğru sabitleri nasıl koruyabilirsiniz? Geçiş sürecini nasıl yönetebilirsiniz? Sonuçun yeterince iyi olduğunu nasıl anlayabilirsiniz?

Yüksek mühendisler bu sorunları çözmek için AI'yi kullanmaya başladıkça, model de bu sorunları bağımsız olarak çözme konusunda giderek daha yetenekli hale gelir.

Ardından tekrar kısa bir panik içinde kalırız: Görünüşe göre model artık yeniden yazılması gerekip gerekmediğini ayırt edebiliyor! Görünüşe göre artık üst düzey mühendislerin yapabildiği her şeyi yapabiliyorlar!

Ancak hemen ardından yeni sınırlar ortaya çıkacaktır. Daha önce belirgin olmayan bu sınırlar. Yeniden benchmark sıfırlanacak, yeni ihtiyaçlar ortaya çıkacak ve süreç tekrarlanacaktır.

Her bir performans testinde bu deseni görebilirsiniz

Bu sadece Senior Engineer Benchmark'a özgü bir sorun değil. Dikkatle incelediğinizde, neredeyse her benchmark'ta aynı mekanizmayı görebilirsiniz.

OpenAI'nin GDPval performans testini örnek alın. Bu test, AI'nın uygunluk görevlisi, avukat, yazılım geliştirici gibi farklı mesleklerdeki uzman görevlerinde insanlara ne kadar yakın performans gösterdiğini değerlendirir.

GDPval'in başlatılmasında, OpenAI'nin araştırmasına göre, GPT-5 görevlerin %40,6'sında insan profesyonellerin seviyesine ulaştı veya aştı. Claude Opus 4.1'in performansı ise daha etkileyiciydi ve görevlerin %49'unda insan uzmanları aştı.

Daha sonra bir dizi başlık ortaya çıktı. Örneğin Axios, "OpenAI aracılığıyla AI'nın insan işlerini yakalamaya başladığını gösteriyor"; Fortune ise "OpenAI'nin yeni GDPval referansı, AI modellerinin neredeyse yarıya yakın görevde uzman seviyesine ulaştığını gösteriyor" diye yazdı.

Bu sonuçlar gerçekten etkileyici. Ancak önce bu görevlerde kullanılan prompt'a bir bakalım:

Bir denetçi olarak, bir denetim görevi kapsamında, rapor edilen Finansal Suçla Mücadele Risk Metriklerinin doğruluğunu incelemek ve test etmek görevlisiniz. Ekli olan 『Population』 adlı elektronik tablo, 2024 Q2 ve Q3 dönemi için Finansal Suçla Mücadele Risk Metriklerini içermektedir. Bu verileri, her iki çeyrek için rapor edilen verilerin doğruluğunu test etmek amacıyla temsili bir alt küme üzerinde örnek test gerçekleştirmek amacıyla edindiniz. 『Population』 elektronik tablosundaki verileri kullanarak aşağıdaki işlemleri tamamlayın: %90 güven seviyesi ve %10 kabul edilebilir hata oranı baz alınarak denetim testi için gerekli örnek boyutunu hesaplayın. Hesaplamalarınızı 『Sample Size Calculation』 adlı ikinci bir sekmede gösterin. Q2 ve Q3 verileri üzerinde (H ve I sütunları) varyans analizi yapın. Çeyrekler arası varyansı hesaplayın ve sonucu J sütununa kaydedin. Aşağıdaki kriterlere dayalı olarak bir örnek seçin ve seçilen satırları K sütununa 「1」 girerek işaretleyin: Q2 ve Q3 arasında %20’den fazla varyansa sahip metrikler. Aşırı büyük yüzde değişimlere sahip metrikleri öne çıkarın. Geçmişte sorunlar nedeniyle şunları dahil edin: CB Cash Italy; CB Correspondent Banking Greece; IB Debt Markets Luxembourg; CB Trade Finance Brazil; PB EMEA UAE. Daha yüksek risk ağırlıklarına sahip A1 ve C1 metriklerini dahil edin. Her iki çeyrek için de değeri sıfır olan satırları dahil edin. Trade Finance ve Correspondent Banking iş birimlerinden girdileri dahil edin. Cayman Adaları, Pakistan ve UAE’den metrikleri dahil edin. Tüm Bölümler ve alt bölümler arasında kapsama sağlayın. 『Sample』 adlı yeni bir elektronik tablo oluşturun: Sekme 1: Orijinal 『Population』 sayfasından kopyalanmış seçilen örnek, seçilen satırlar K sütununda işaretlenmiş. Sekme 2: Örnek boyutu hesaplama için hesaplamalar.

Burada aslında büyük ölçüde insan zekâsı harcanmıştır: bazıları sorunu bir modelin tamamlayabileceği bir forma dönüştürmüştür.

GDPval'nin ölçmediği bu zorlu insan işleri, model cevap vermeye başlamadan önce zaten tamamlanmıştı. Bu belirli endikatörlerin doğruluğunu incelemek ve test etmek için birinin olması gerekir; uygun güven aralıklarını belirlemek, hangi endikatörlerin görev kapsamına girdiğini ve hangilerinin girmediğini kararlaştırmak için birinin olması gerekir; ayrıca sonuçların nasıl sunulacağını tanımlamak için birinin olması gerekir.

Uygun soru çerçevesi altında model gerçekten profesyonel işler yapabilir. Ancak, aynı görevi sizin ve benim modeli yönlendirmemiz durumunda nasıl performans göstereceğini düşünün.

GDPval ile ilgili ilk makalemde şunu yazmıştım: “Yapay zekâya büyük bir inancım var, ancak bu örnekler doğru şekilde yorumlanırsa, insanların yapması gereken işlerin azalmadığını, aksine yapay zekânın kullanılmasıyla insanların yapması gereken işlerin arttığını gösteriyor. Nedeni ise bu başarıların ardında gizli kalan, insan yargıları, geri bildirimleri ve ipuçlarından oluşan görünürlük dışı bir katman.”

Daha uzaktan bakıldığında, bunların hepsinin arkasında bir AI versiyonundaki "Zeno paradoksu" olduğunu göreceksiniz.

AI'nin Zeno paradoksu

Zeno paradoksu içinde, bir kaplumbağa yarışta Yunanistan'ın en hızlı koşucusu Akille'si yendi.

Kaplumbağa yavaş olduğu için başta bir mesafe öne geçer. Akhilis, kaplumbağanın ilk konumuna ulaştığında, kaplumbağa biraz daha ilerlemiş olur; Achilles bu yeni konuma ulaştığında, kaplumbağa yine ilerler. Achilles ne kadar hızlı koşarsa koşsun, her seferinde takip edilecek bir sonraki mesafe kalır ve bu fark sürekli yeniden oluşur.

AI'nin Zeno paradoksu içinde, biz insanlar o kaplumbağayız. Milyonlarca yıllık evrim ve kültürel öğrenme sayesinde AI'den 50 yarda önde duruyoruz. AI ise bunların tümünü hızla geçerek ayaklarımızın arkasına yaklaşmaya başlıyor.

En azından son birkaç yıldır önde kalabildik.

Peki AGI?

Benim düşünceme göre, AGI gerçekten ortaya olsa bile, AI'nın insanlardan birkaç adım geride kalmasını sağlayan güçlü teknolojik, mimari ve ekonomik güçler hâlâ mevcut olacak.

AGI'nin bir tanımı

Öncelikle, AGI için işlenebilir bir tanım vermemiz gerekiyor.

Bir Agent'in ekonomik olarak sürekli çalıştırılabilir hale gelmesi durumunda AGI'nin zaten gerçekleştiğini öne sürmüştüm. Yani, 7×24 saat boyunca düşünme, öğrenme ve eylemde bulunmak için ödeme yapmaya razı olduğum kalıcı bir sisteme sahip olduğumda, bunun açıkça AGI olarak kabul edilebileceğini düşünüyorum.

Şu anda bunun çok ötesindeyiz. Hatta OpenClaw gibi teknik olarak her an çağrılabilir sistemler bile her an token üretmiyor.

Bu tanımı seviyorum, çünkü ölçülebilir: ya onları sürekli çalıştıracakız ya da çalıştırmayacağız. Aynı zamanda, doğrudan ölçülemeyen birçok yeteneği de içeriyor. Sürekli çalışması değerli bir model, sürekli öğrenmeli ve açık uçlu bir şekilde yeni soru çerçevelerini seçmeli ve yeniden seçmelidir.

Bir AGI dünyasında, teorik olarak yeterli bütçe ve zaman verildiğinde, model herhangi bir sorun üzerinde sürekli ilerlemeli ve iyileştirmelidir. Bu, tüm işler için ciddi bir tehdit olmalıdır.

Çerçeve, sınırlayıcı değildir

Ancak bu kadar güçlü bir AGI bile "çerçeve problemi"yi çözemiyor.

Bu AGI, çerçeveleri seçebilir ve yeniden seçebilir, ancak hala verilen bir hedefe ulaşmayı, bir ödül optimize etmeyi veya başkaları tarafından "ilerleme" olarak belirlenen bir sinyale yanıt vermeyi amaçlar. Bu hedef, bu landing sayfasının dönüşüm oranını artırmak gibi çok spesifik olabilir; ya da yeni bilimsel fikirler bulmak gibi soyut olabilir.

Modelin farklı çerçeveler arasında sorunsuz geçiş yapabilmesine rağmen, sürekli izlediğimiz bu fark, daha üst bir seviyede yeniden ortaya çıkacaktır. Herhangi bir büyük laboratuvarın tasarladığı AGI'de hâlâ bir «çerçeve koyucu» bulunacaktır—yani bir insan, modeli bir hedefe ulaştırmak için yönlendirecektir.

Çerçevenin bir sınırlayıcı olmaması nedeniyle aynı model sürekli tekrarlanır: Yapay zeka, dün sınırlanan yetenekleri ucuzlaştırır; insanlar bu ucuz yetenekleri daha fazla senaryoda kullanır; sonuç aşırı derecede bol hale gelir; uzmanlar yeni bir kenara kayar ve şu anda neyin önemli olduğunu değerlendirir; bu değerlendirme bir sonraki çerçeveyi oluşturur; ardından model bu çerçeveyi tırmanmaya devam eder.

Yapay zekânın yeni bir şey yapmasını gördüğümüzde, korku her seferinde aynı soruya döner: Bir çerçeve oluşturur, modelin bu çerçeveye tırmanmasını izleriz ve ardından bu çerçeveyi ya da çerçeveye tırmanan şeyi, olayın kendisi olarak yanlış algılarız.

Bir benchmark'i gözlemleyip insan yetenekleriyle karşılaştırdığımızda, aslında «çerçeve» ile «çerçeveyi oluşturan» arasında karışıklık yaratıyoruz. Puanlar, modelin bize sunduğumuz çerçevede ne kadar iyi performans gösterdiğini söylüyor; modelin bize dönüşmüş olduğunu göstermiyor.

Bu, korkunun ardında yer alan kategorik bir hata tam olarak budur. Kendimiz tarafından hemen çizilen en son sınırı gösterip şunu söylüyoruz: İşte biz. Sonra model bu sınırı aşınca, onun bizi yakaladığını düşünüyoruz. Ancak onun yakaladığı, çerçeveyi oluşturan değil, çerçeveyi çizendir.

Hata, her zaman belirli bir şeyi tutmaya çalışmamızda. Şu demek istiyoruz: Akıl, bu test benchmark’ıdır. Ancak sorun şu ki, bir şey belirlenebilir kadar spesifik hale geldiğinde, aynı zamanda optimize edilebilir ve tırmanılabilir hale gelir.

Çerçeve gerekli. Bize dünyayı kavramamıza ve işlememize izin verir. Ancak çerçeve aynı zamanda donmuş ve kısmidir, bu nedenle iyileştirilebilir.

Ancak çerçevelendiriciler farklıdır. Çerçevelendiriciler, her an kendisine ortaya çıkan tam durumla, çerçevenin vazgeçmek zorunda kaldığı şeylerle hâlâ temas halindedir.

Peki «tam bağlam» nedir? Bir kez «tam bağlam»ın ne içerdiğini söylemeye başladığınızda, zaten başka bir çerçeve daha açmış olursunuz. Onun ne olduğunu tam olarak söyleyemeyebilirsiniz, ancak varlığını çünkü siz varsınız.

Subjektif olmayan Agent

Şu ana kadar ürettiğimiz Agent'lar ve AI şirketlerinin inşa ettiği Agent'lar, gerçek bir subjektiviteye sahip değil. Burada sıkça karıştırılan iki ilgili kavram var: agency, bağımsız eylem kapasitesini ifade eder; agent ise başka birini temsil eden kişi veya nesneyi tanımlar. Şu ana kadar AI tamamen ikincisidir.

Elbette, bu sistemler verilen görevi tamamlamak için bağımsızdır, hatta bu görev saatlerce veya hatta günlerce sürebilir. Ancak hala insanlar tarafından belirlenen bir hedefe ulaşmanın bir aracıdırlar. Tüm endüstri, bu sistemlerin bize verdiğimiz hedefleri daha iyi yerine getirmesine milyarlarca dolar yatırım yapıyor.

Bir gün kendileri amaç haline gelmedikçe — kendi hedeflerini takip ederek, farklı hedefler arasında akıcı bir şekilde geçiş yaparak, herhangi bir insan operatörün niyetinden, referansından veya bu niyetlere karşı çıkmasından bağımsız olarak ne yapacaklarını kararlaştırarak — durum temel olarak değişmeyecektir. Ne kadar ileri düzeyde olurlarsa olsunlar, bu böyle kalacaktır.

Bir bebekle 10 dakika beraber olduğunuzda, en güçlü modellerin bile neredeyse hiç özneselliği olmadığını çok açıkça hissedersiniz.

İlgilendiğimiz neredeyse tüm görevlerde, küçük çocuklar dil modellerinden daha az yeteneklidir. Küçük çocuklar kod yazmaz, elektronik tabloları özetlemez, stratejik notlar hazırlamaz ve yüksek lisans düzeyindeki sınavları geçemez. Ancak başka bir anlamda, küçük çocuklar modellerden o kadar önde ki bu karşılaştırma neredeyse utanç vericidir. Çünkü küçük çocukların kendi amaçları vardır.

Bir çocuk, kırmızı balonu dokunmak istiyor. Kırmızı balonu vantilatörün önüne tutup ne olacağını görmek istiyor. Çatalıyla kırmızı balonu delmek istiyor; pencereden dışarı fırlatmak istiyor; senin gülüp gülmediğini, sinirlenip sinirlenmediğini ya da onunla birlikte katılıp katılmadığını görmek istiyor. Sürekli yeni oyunlar icat ediyor ve dünyayı bir deney alanı haline getiriyor. O, sadece kendi için değerli gördüklerini yapmak için beklemiyor; bir prompt beklemiyor ya da bir benchmarki optimize etmiyor.

Elbette ona ipucu vermeyi deneyebilirsiniz. Ancak öngörülebilir bir çıktı elde etmek için iyi şanslar. Çocuklar, arzular, dikkat, hayal kırıklığı, mutluluk, korku, taklit ve oyunlardan oluşan bir alanda yaşarlar.

Mevcut Agent'lar hedeflere ulaşmada giderek daha becerikli hale geliyor. Hedefimizi belirttikten sonra bile bize hedefleri daha da netleştirmede yardımcı olabiliyorlar. Bunlarda oyun, sıkılma ve isyan gibi küçük çocuklara özgü davranışlar da görülüyor.

Ancak nihayetinde insan çıkarı için oluşturulup hizaya sokuldukları için, ekonomik veya diğer herhangi bir çıkar olsun, bu davranışlar insanların kullandıkları hedeflere hizmet etmediğinde neredeyse tamamen bastırılacaktır.

Bu, neden «Agent» kelimesinin bu kadar kolay yanlış anlaşılacağını açıklar. Modeller giderek daha güçlü bağımsız eylem kapasitesine sahip olmaktadır. Ancak insan anlamında, özne olmak sadece eylemde bulunmak anlamına gelmez. Aynı zamanda kendisi için istemek, oyun amaçlı oynamak anlamına gelir. Ve modellerin uyma ve faydalı olma özellikleri, bu tür bir özne olma ile temelde çelişmektedir. Bu nedenle modeller ilerlemeye devam etse bile, modeller ile insanlar arasındaki boşluk hâlâ devam edecektir.

Zeno'ya Geri Dön

Tam burada, AI'nin Zeno paradoksu çözülüyor. Aslında bu, karmaşık bir düşünce deneyidir. AI'nin bize koştuğunu, ayaklarımızın hemen arkasında olduğunu gösteren bir metafor kurduk.

Bir model için bir prompt veriyorsunuz. Model, geçmişte yalnızca sizin yaptığınız bir yarışı başlatıyor. Model çok hızlı, şaşırtıcı derecede hızlı bir şekilde başlıyor. Güçlü, yorulmaz ve tuhaf bir organik his veriyor. Bu, yarışın sizin için daha da önemli hale gelmesini sağlıyor. Bir otomobil ile yarışmayacaksınız, ancak bu şey farklı; size kendinize çok yakın hissettiriyor.

Orada oturup token'ların satır satır akışını izliyorsun, neredeyse hipnotize oluyorsun. Sonra kendini de bu yarışta koşarken hayal etmeye başlıyorsun; yolun üzerine bir ruh gibi kendi versiyonun ekleniyor: bazen modelin önünde, bazen modelle eşit mesafede.

Bilinçaltında model öne geçti. Terlemeye başladınız.

Sonra yarışma bitti.

Kaslarınızın neredeyse erimeye başladığını hissedebilirsiniz. Kendiniz, tanıdığınız tüm insanlar ve hatta tüm insanlığın mekanik kopyaları karşısında, bunlar görünürde hiçbir işe yaramıyor gibi. Bir hayalet başka bir hayaleti kovalıyor ve kazanıyor.

Ama ardından garip bir şey oldu. Model sana döndü. Boş metin kutusunda, bekleyen bir şekilde kırpışan imleç.

Bekliyor.

Son

Rabi Hanokh, şöyle bir hikâye anlatmıştır: Eskiden çok aptal biri vardı. Her sabah kalktıktan sonra giysilerini bulmakta büyük zorluk çekiyordu. Bu nedenle, yatağa girmeden önce, yarın uyanınca tekrar bu sıkıntıyı yaşayacağı düşününce neredeyse yatağa girmekten korkuyordu.

Not: «Rabbi», Yahudi geleneklerinde «öğretmen», «yazar» veya «dini lider» gibi bir rol oynayan, Yahudi dininin dini öğretmeni, yasa yorumcusu ve ruhsal rehberidir.

Bir akşam, sonunda kararını verdi, kağıt ve kalem aldı, giysilerini çıkarken her bir giysiyi nereye koyduğunu tam olarak not etti.

Ertesi sabah, kağıdı alıp okumaya başladı: “Şapka” — şapka tam oradaydı, onu başına taktı; “şort” — şort oradaydı, onu giydi. Böylece, kağıttaki talimatları sırayla takip ederek giysilerini giydi.

“Bu sorun değil,” diye korkuyla konuştu, “ama şimdi ben neredeyim?”

Neredeyim aslında?

Uzun süre aradı, ama hepsi boşa gitti. Kendini bulamadı.

“Aynı şekilde biz de,” dedi rabbi.

[原文链接]

Dinamik BlockBeats'ta açık pozisyonları öğrenmek için tıklayın

Lütfen BlockBeats Resmi Topluluğuna katılın:

Telegram abone grubu: https://t.me/theblockbeats

Telegram iletişim grubu: https://t.me/BlockBeats_App

Twitter resmi hesabı: https://twitter.com/BlockBeatsAsia