Anthropic, Marlin projesi aracılığıyla Claude Code'u eğitiyor ve proje, Snorkel AI veri şirketi aracılığıyla model tarafından oluşturulan kodları A/B test etmek için yaklaşık 1.000 dış yazılım mühendisini, her görev için 280 dolarlık bir ücretle işe alıyor.

Yazı yazarı, kaynak: Yeni Zihin

Son zamanlarda bir haber, Claude Code'un "ilerleme sırrını" ortaya koydu.

Business Insider, Anthropic'nin Claude Code'u geliştirmek için yaklaşık 1000 yazılım mühendisinden geri bildirim alan özel bir proje yürüttüğünü bildirdi.

Bu proje, veri şirketi Snorkel AI içinde «Marlin» kod adıyla geliştiriliyor.

Bu yıl Ocak'ta Claude Code'un sorumlusu Boris Cherny, iki aydan fazla bir süredir el yazısıyla bir satır kod yazmadığını, bir günde Claude'nin 22 pull request gönderdiğini ve bir önceki gün ise 27 pull request gönderdiğini açıkladı; hepsi model tarafından yazıldı.

Ayrıca, Anthropic'in dahili kodlarının büyük bir kısmı AI tarafından oluşturulmuştur.

İlginç yer, tam burada.

Bir taraftan, Anthropic'ın kendi çekirdek mühendisleri, büyük ölçüde kodlama çalışmalarını modele bırakmış durumda; diğer taraftan, Claude Code'a "iyi kod" ne demekse onu adım adım öğretmek için yaklaşık 1000 dış mühendise para harcıyor.

Saatte 280 dolarla ne satın alıyorsunuz?

Business Insider'e göre, Marlin projesi tarafından işe alınan dış mühendislerin hepsinin yazılım mühendisliği arka planı var. İşleri, gerçek bir kod incelemesine çok benziyor.

İşlem şu şekilde ilerler. Önce binlerce depo içeren bir listeden bir GitHub kod deposu seçilir. Sonra, geliştiricilerin kod değişikliklerini gönderdiği adımda bir PR oluşturulur. Ardından, görevi açıklayan bir uyarı metni yazılır.

Model, iki farklı kod seti oluşturacak ve bu dış mühendisler, iki çıktıyı karşılaştırarak daha iyisini seçmek için A/B testi yapacak.

Her görev için 280 dolar ödeniyor ve yaklaşık bir saat sürüyor. Bazıları Snorkel'in denetim katmanıyla birkaç tur karşılıklı iletişim gerektiriyor.

Değerlendirme kriterleri, üretim düzeyindeki kodun doğruluğunu, güvenliğini, güvenilirliğini ve bakımı kolaylığını değerlendirmektir.

İki gerçek örnek verin.

Bir görevde, dış mühendis, kodun daha net ve daha iyi bakımlı hale getirilmesini ama işlevi değiştirilmemesini amaçlayarak modelin yürütme meta verilerini işleme şeklini yeniden yapılandırmayı talep etti.

Başka bir görevde, dış bir mühendis, MLflow adlı açık kaynak makine öğrenimi platformuna, model yüklerken Python paketlerini indirirken ortaya çıkabilecek komut enjeksiyonu açıklarına yönelik güvenlik düzeltmeleri uyguladı. Gereksinimler çok netti: komut enjeksiyonunu engellemek ve legít pip (Python paket yöneticisi) seçeneklerini yanlışlıkla engellememek.

Bu görevlerin talepleri, veri etiketleme kapsamını aşmakta ve daha çok deneyimli bir mühendisin zihnindeki “böyle yazmak daha iyi” algısını doğrudan modele kopyalamayı gerektirmektedir.

Açıkça, Anthropic, kodu değil, kodu daha güvenli ve daha temiz nasıl yazacağına dair deneyimli programcıların zihnindeki yargıları satın aldı.

Neden mühendis olmak zorunda?

Anthropic, neden bu kadar çok uğraşıyor? Çünkü Claude Code, sadece bir kod yazma sohbet kutusu değil.

Anthropic, bunu bir proje seviyesindeki AI ajanı olarak tanımlıyor. Tam bir kod tabanını okuyabilir, dosyalar arasında plan yapabilir, doğrudan değişiklikler uygulayabilir, testleri çalıştırabilir ve başarısız sonuçlara göre kendini yinelemeye devam edebilir.

Anthropic'in resmi websitesinde Claude Code tanımı: Kod deposunu okuyan, dosyalar arası değişiklik yapan, testleri çalıştıran ve gönderilen kodu teslim eden bir ajan.

Bu, dosyaları gerçekten değiştirmesini, görevleri çalıştırmasını ve tüm kod projesine ulaşmasını anlamına gelir.

Anthropic, bu olayın önemini kendisi de fark ediyor ve mühendislik blogunda Claude Code'un izinlerini, sandbox'ını ve onay yorgunluğunu (approval fatigue) tekrar tekrar ele alıyor.

Varsayılan olarak, yüksek riskli dosya değişiklikleri veya komut yürütme işlemleri kullanıcı onayı gerektirir; tekrarlayan yetkilendirmelerden kaynaklanan onay yorgunluğunu azaltmak için Anthropic, Claude Code'un önceden tanımlanmış dosya sistemi ve ağ sınırları içinde daha güvenli bir şekilde çalışmasını sağlayan sandboxing özelliğini de tanıttı.

Bir AI'nın komutları çalıştırmayı ve çevrimiçi kodları değiştirmeyi başarabilmesi, hata yapmanın maliyetini tamamen değiştirir. Eğitim hedefi de değişir: «Doğru yazmak»tan «güvenli, güvenilir ve sürdürülebilir yazmak» düzeyine yükselir.

Bu şeyler, sıradan kod veri kümeleriyle çıkarılamaz. Geçmişte deneyimli mühendislerin kod incelemelerinde saklıydı, insanlardan insana geçiş yapan bir deneyimdi. Şimdi Anthropic, bu deneyimi satın alınabilir bir veri haline getirmek için insan programcı uzmanları istihdam etmek istiyor.

Snorkel, değerlenememiş «veri silah satıcısı»

Konunun gerçek ana karakteri Snorkel.

Bu şirket, 2019'da Stanford AI Lab'den çıkarak tek bir yöne yatırım yaptı: makine öğreniminin başarısını belirleyen, model veya hesaplama gücü değil, veridir.

Snorkel'in iki önemli kurucusu, Alex Ratner ve Stanford'daki hocası Chris Ré, Snorkel'in temel akademik kökenini belirtti.

Snorkel AI kurucu ortağı ve CEO'su Alex Ratner

2015 yılında, Snorkel hâlâ Ratner'in doktora öğrenciliği sırasında bir "öğleden sonra projesiydi": verileri tek tek etiketlemek için pahalı insanlar kiralamak yerine, program ve kurallarla "zayıf denetim" (weak supervision) yaparak modelin insan tarafından her bir veriye elle etiketlenmeden de öğrenmesini sağlamaktı.

Bu fikirle Snorkel, 60'tan fazla makale biriktirdi ve açık kaynak aracı Google ve Intel tarafından da kullanılmaya başlandı; 2019 yılına kadar resmen bir şirket olarak ayrıldı.

Snorkel AI ortak kurucusu, Stanford profesörü Chris Ré

Ratner'in danışmanı Chris Ré de güçlü bir figür.

O, Stanford Üniversitesi profesörü, MacArthur Zafer Ödülü sahibi, sürekli girişimci; projeleri Apple tarafından satın alınmış ve değerlemesi bir zamanlar 5 milyar dolar olan SambaNova'yu kurmuştur.

En ilginç olan ise bu şirketin dönüşümü.

Snorkel, o dönemde "el ile etiketleme yavaş, pahalı ve kararsız" sorununu çözmeyi amaçlıyordu; o dönemde AI geliştirme süresinin yaklaşık %80'i el ile veri etiketlemeye harcanıyordu. Bu nedenle Snorkel'in ilk amacı, etiketleme işleminden insanları mümkün olduğunca özgürleştirmekti.

Ön plan model eraına girildiğinde, en kıymetli ve en nadir olan tekrar insanlara döndü, ancak bu kez doktorlar, avukatlar, deneyimli mühendisler gibi uzmanların zevki ve kararları şeklinde. "Az insan kullanma" ile başlayan bu şirket, şimdi en karlı işi, öncü AI'ları eğitmek için pahalı bir uzman ordusu kurmak oldu; Marlin bunlardan sadece biri.

İş akışı, Marlin projesinin ihtiyaçlarıyla tam olarak uyumlu.

Snorkel'in resmi websitesi bu iş akışını şu şekilde tanımlar: önce görevleri, puanlama kriterlerini ve doğrulayıcıları tanımlayarak «iyi ne demek» sorusunu sınırlayın, ardından uzman incelemesi akışını çalıştırın; yazar, birden fazla inceleyici ve nihai karar verici katmanlı bir denetim sağlar, tüm süreç izlenebilir olur.

Snorkel web sitesindeki gösterim: İnceleme puanlamasında farklılıklar ortaya çıktığında karar verilerek çözülür ve puanlama kriterleri değişiklik kaydına kaydedilir; her değişiklik, kimin, ne zaman ve neye dayanarak yaptığına kadar izlenebilir.

Aynı görevlerin farklı model sürümlerinde tekrar çalıştırılabilmesi için değerlendirme ortamını ve verilerini de hazırlar. Puanların temiz ve karşılaştırılabilir olması için puan verenlerin sürüm bilgisinden etkilenmemesi gerekir. Bu dış mühendislerin hangi sürümü puanladıklarını bilmemelerinin nedeni budur.

Fiyatlar da oldukça açıklayıcı.

Snorkel, her kaliteli görev için 10 ila 100 dolar arasında ödeme yapan açık bir hukuki sözleşme pozisyonudur; Marlin'in yazılım mühendisliği görevleri ise her biri 280 dolar ve yaklaşık bir saat sürer, bu da saatlik ücret olarak sektördeki rakiplerin yaklaşık 2,5 katıdır (Scale AI ve Mercor, mühendislere saatte 110 dolar ödüyor). En iyi uzmanlar haftalık 3000 doların üzerinde kazanabilir.

Snorkel'in bu dış mühendislerine verdiği geri bildirimler gerçekten pahalı.

Müşteri listesinde Google, Mistral ve Anthropic yer alıyor. 2025 Mayıs'ta Snorkel, D turu finansmanını tamamlayarak 1,3 milyar dolarlık değerlemeye ulaştı.

Anthropic gelir sorumlusu Kate Jensen, Claude'un potansiyelini tam olarak serbest bırakmak için alan uzmanları ve insan geri bildirimlerine dayalı yeni değerlendirme yöntemlerine ihtiyaç duyulacağını belirtti; Anthropic, Snorkel gibi şirketlerle iş birliğini sürdürecektir.

Snorkel, Scale, Mercor gibi şirketler geçmişte «etiketleme platformları» olarak görülüyordu. Şimdi ise öncü model şirketlerinin arka plandaki gizli tedarik zinciri haline geldiler.

En akıllı Yapay Zekayı besleyen, küresel olarak yayılmış ve görünmeyen bir uzman ordusudur.

Bazı büyükler

Aynı veriyi kazanıyorsunuz

Sadece Anthropic gerçek mühendislik kapasitesi satın almıyor. Bu yarışmada birkaç büyük oyuncu katılıyor, ancak stratejileri farklı.

Cursor, ürün verileri yolunu izliyor.

Resmi olarak belirtildi: Kullanıcı gizlilik modunu etkinleştirdiğinde, kod hiçbir zaman bu platform veya üçüncü taraflar tarafından eğitim amacıyla kullanılmaz; yalnızca gizlilik modu kapatıldığında, kod kütüphane verileri, ipuçları, düzenleme davranışları ve kod parçacıkları, AI işlevlerini geliştirmek ve modeli eğitmek için kullanılabilir.

Cursor'un Tab modeli, her gün 1 milyardan fazla düzenleme karakteri üretiyor ve istek miktarı ilk sürümüne göre yaklaşık 100 kat arttı. Daha ileri düzeyde, Composer,强化 öğrenme (RL) ile eğitilerek, modelin büyük ölçekli kod görevleri ortamlarında düzenleme, arama gibi araçları kullanmayı öğrenmesini sağlıyor ve daha uzun süreli mühendislik görevlerini işliyor.

En son Composer 2.5, yüzlerce adımlı uzun dönem görevlere odaklanmaktadır.

Musk, sermaye bağlama/şirket alma opsiyonu yöntemini kullanıyor.

Bu yıl Şubat'ta, xAI, SpaceX'e dahil edildi. Nisan ayının sonunda, SpaceX, yıl içinde Cursor'un ana şirketi Anysphere'yi 60 milyar dolarla satın alma hakkını veya önce 10 milyar dolar ödenerek derin iş birliği kurma hakkını elde etti. Musk, Cursor'un elindeki dünyanın en aktif gerçek geliştirici davranış verilerine ilgi gösterdi.

25 Mayıs'ta Musk, X üzerinde yeni nesil temel model Grok V9-Medium'un eğitimini tamamladığını ve parametre sayısının 1,5 trilyon olduğunu duyurdu; bu, mevcut üretim modelinin üç katıdır. Özellikle, Cursor verileriyle ek eğitim yapılmadan önceki bu performansı vurguladı ve ek eğitim sonrası "programlama yeteneğinin çok daha güçlü olacağını" belirtti. Modelin Haziran ortalarında yayınlanması bekleniyor.

Bu şekilde, V9, gerçek geliştirici davranış verilerini "yiyen" ilk Grok olacak.

OpenAI'nin daha sonraki Codex'i de bu yolu izledi. 2025'te yayınlanan Codex, codex-1 ile çalışır ve OpenAI, bunun gerçek kodlama görevleri üzerinde güçlendirilmiş öğrenme ile eğitildiğini, insan tarzına yakın ve PR alışkanlıklarına uygun kod yazmayı, aynı zamanda testleri geçene kadar tekrar tekrar çalıştırmayı amaçladığını belirtti; her görev, kod kitaplığınızla önceden kurulmuş izole bir kum havuzunda çalıştırılır.

Codex, öncü kodlama modeliyle desteklenen bir agentic kodlama platformu olarak yükseltildi ve haftalık kullanıcı sayısı 5 milyonu aştı.

Onlar aslında aynı şeyi rekabet ediyor: süreç verileri, ancak yollar farklı.

Anthropic, önceki modelleriyle gerçek geliştirme ortamlarından geri bildirim eksikliğini gidermek için yaklaşık 1000 mühendis tutarak yazılım mühendisliği sürecini öğrenilebilir verilere ayırdı;

Cursor, mevcut ürünler ve gerçek kullanıcı davranışlarına sahiptir, ayrıca kendi geliştirdiği Tab, Composer gibi programlama modellerine de sahiptir. Ancak OpenAI ve Anthropic ile karşılaştırıldığında, genel temel model altyapısı ve büyük ölçekli eğitim hesaplama gücü açısından daha az kaynaga sahiptir;

Elon Musk'un eksik olanı da veriler; bu nedenle sürekli geliştirici davranış verisi üreten bir ürün girişi almak için yüz milyarlarca dolar harcamayı deniyor;

OpenAI modelleri ve ürünlerinden her ikisinden de yoksun olmadığı için, kendi sandbox'ını kurdu ve modeli gerçek kodlama görevlerinde强化 öğrenmeyle sürekli deneme-yanılma, test, düzeltme ve yineleme yapmaya zorladı.

Farklı yaklaşımlar izleyen birkaç şirket, kendi AI programlama modellerini eğitmek için giderek daha gerçek mühendislik saha verilerini kullanıyor.

Gerçek bir koruma duvarı

İnsanın zevki ve kararı

SWE-chat adlı bir makale, gerçekçi agent kodlama diyaloglarını ilk kez büyük ölçekli olarak topladı: 6.000 konuşma, 63.000'den fazla kullanıcı prompt'u ve 355.000 araç çağrısı.

Karşısına sert bir rakam çıkıyor: Ajanların ürettiği kodların yalnızca %44'ü kullanıcıların gönderimlerine dahil oldu. Yarısından fazlası silindi, değiştirildi ya da reddedildi.

SWE-chat gerçek deneyimi: Vibe kodlama, oturumların %41'ini kaplıyor, ancak agentin yazdığı kodların yalnızca %44'ü nihai gönderimlere dahil ediliyor; kullanıcılar, etkileşim döngülerinin %44'ünde, model çıktısını tersine mühendislik yoluyla düzeltme, hata bildirme veya kesme yoluyla etkiliyor.

Bu, HumanEval gibi eski benchmark'ların doymuş olduğunu ve sadece puanlara bakmanın fazla anlam ifade etmediğini gösteriyor. Gerçek savaş alanı, tekrarlayan, deneme-yanılma ve yeniden yapılandırma süreçlerinden oluşan gerçek geliştirme verileridir.

Daha güçlü modeller, insanların hâlâ yerini alamadığı kısımı satın almak için daha çok para harcayacaktır: mühendislik sezgisi.

Anthropic, her bir görev için 280 dolar ödüyor; A/B oylaması için yaklaşık 1000 mühendis işe alıyor: Bu görünüşte ağır işlem, tam olarak bunu satın alıyor.

Mühendislik sahasını modelin işleyebileceği verilere çevirebilen, AI programlamadaki bir sonraki aşamaya giriş hakkını elde eder.

Anthropic, Claude kodunu geliştirmek için her bir görevde 280 dolar ödeyerek 1.000 mühendis istihdam ediyor

Saatte 280 dolarla ne satın alıyorsunuz?

Neden mühendis olmak zorunda?

Snorkel, değerlenememiş «veri silah satıcısı»