Anthropic melatih Claude Code melalui proyek Marlin, yang merekrut sekitar 1.000 insinyur perangkat lunak eksternal melalui perusahaan data Snorkel AI untuk melakukan pengujian A/B terhadap kode yang dihasilkan model, dengan bayaran sebesar $280 per tugas,
Penulis artikel, sumber: Sinar Zhiyuan
Baru-baru ini, sebuah laporan memperlihatkan "rahasia kemajuan" Claude Code.
Business Insider melaporkan bahwa Anthropic memiliki proyek khusus untuk meningkatkan Claude Code, yang sedang disempurnakan melalui umpan balik dari sekitar 1.000 insinyur perangkat lunak.
Proyek ini di dalam perusahaan data Snorkel AI, dengan kode nama "Marlin".

Pada Januari tahun ini, Boris Cherny, pemimpin Claude Code, mengungkapkan bahwa ia belum menulis satu baris kode pun dengan tangan selama lebih dari dua bulan, dan dalam satu hari saja, Claude mengirimkan 22 pull request, sehari sebelumnya mengirimkan 27, semuanya ditulis oleh model.
Laporan juga menyebutkan bahwa sebagian besar kode internal Anthropic dihasilkan oleh AI.
Tempat menarik, sedang di sini.
Di satu sisi, insinyur inti Anthropic sendiri telah menyerahkan sejumlah besar pekerjaan pemrograman ke model; di sisi lain, mereka menghabiskan uang untuk menyewa sekitar 1.000 insinyur eksternal untuk secara langsung mengajari Claude Code apa yang dimaksud dengan 'kode yang baik'.
Apa yang dibeli dengan 280 dolar per jam?
Menurut Business Insider, insinyur eksternal yang direkrut oleh proyek Marlin memiliki latar belakang teknik perangkat lunak. Pekerjaan mereka terdengar seperti tinjauan kode nyata.
Prosesnya kira-kira seperti ini. Pertama, pilih satu repositori GitHub dari daftar yang berisi ribuan repositori. Kemudian, buat PR, yaitu langkah di mana pengembang mengajukan perubahan kode. Setelah itu, tulis petunjuk yang menjelaskan tugasnya dengan jelas.
Model akan menghasilkan dua set kode, dan tugas para insinyur eksternal berikutnya adalah melakukan pengujian A/B: membandingkan dua output tersebut dan memilih yang lebih baik.
Setiap tugas membayar 280 dolar AS, sekitar memakan waktu satu jam. Beberapa memerlukan beberapa putaran balas-balik dengan tim audit Snorkel.
Kriteria penilaian adalah mengevaluasi kebenaran, keamanan, keandalan, dan kemudahan pemeliharaan kode produksi.
Berikan dua contoh nyata.
Dalam sebuah tugas, insinyur eksternal meminta model untuk merekonstruksi cara sistem memproses metadata eksekusi, dengan tujuan membuat kode lebih jelas dan lebih mudah dipelihara, tanpa mengubah fungsionalitas.
Dalam tugas lain, insinyur eksternal melakukan perbaikan keamanan untuk platform machine learning open source MLflow, menangani kerentanan injeksi perintah yang mungkin terjadi saat platform mengunduh paket Python saat memuat model. Persyaratan materi sangat jelas: harus mencegah injeksi perintah tanpa mengganggu opsi pip (manajer paket Python) yang sah.
Persyaratan tugas-tugas ini telah melampaui cakupan pelabelan data, lebih mirip meminta seorang insinyur berpengalaman untuk menyalin secara utuh penilaian "cara menulis yang lebih baik" dari pikirannya ke dalam model.
Jelas, yang dibeli Anthropic bukan kode, melainkan penilaian para programmer berpengalaman tentang cara menulis kode yang lebih aman dan lebih bersih.
Mengapa harus insinyur
Mengapa Anthropic harus bersusah payah sejauh ini? Karena Claude Code sudah lama bukan lagi sekadar kotak obrolan untuk menulis kode.
Anthropic secara resmi mendefinisikannya sebagai agen AI tingkat proyek. Ia dapat membaca seluruh kode basis, merencanakan lintas file, melakukan modifikasi langsung, menjalankan pengujian, dan mengiterasi sendiri berdasarkan hasil kegagalan.

Definisi Claude Code dari situs web Anthropic: sekumpulan agen yang dapat membaca repositori kode, melakukan perubahan lintas file, menjalankan pengujian, dan mengirimkan kode yang telah dikomit.
Ini berarti ia akan benar-benar mengubah file, menjalankan tugas, dan mengakses seluruh proyek kode.
Anthropic sendiri menyadari betapa pentingnya hal ini, sehingga sering membahas masalah izin, sandbox, dan approval fatigue Claude Code di blog teknisnya.
Secara default, modifikasi file berisiko tinggi atau eksekusi perintah memerlukan persetujuan pengguna; untuk mengurangi kelelahan persetujuan yang disebabkan oleh otorisasi berulang, Anthropic juga memperkenalkan sandboxing, yang memungkinkan Claude Code berjalan lebih aman dalam batasan sistem file dan jaringan yang telah ditentukan.
Ketika sebuah AI dapat menjalankan perintah dan mengubah kode daring, biaya kesalahan menjadi sama sekali berbeda. Tujuan pelatihan pun berubah: dari "menulis dengan benar" naik menjadi "menulis dengan aman, andal, dan mudah dipelihara".
Hal-hal ini tidak bisa dihasilkan hanya dengan memberikan kode biasa. Dulu, hal ini tersembunyi dalam tinjauan kode insinyur berpengalaman, berupa pengalaman yang ditransmisikan secara manusia ke manusia. Sekarang, Anthropic ingin mengubahnya menjadi data yang dapat dibeli dengan merekrut ahli pemrograman manusia.
Snorkel, "pemasok senjata data" yang diremehkan
Tokoh sebenarnya dalam seluruh cerita ini adalah Snorkel.
Perusahaan ini muncul dari Stanford AI Lab pada tahun 2019, dengan fokus hanya pada satu arah: data lah yang benar-benar menentukan keberhasilan atau kegagalan machine learning, bukan model atau daya komputasi.
Dua pendiri penting Snorkel adalah Alex Ratner dan pembimbingnya di Stanford, Chris Ré, yang menyatakan sumber akademis inti Snorkel.

Alex Ratner, Co-founder dan CEO Snorkel AI
Pada tahun 2015, Snorkel hanyalah sebuah "proyek sore" saat Ratner menempuh studi doktoral: alih-alih menghabiskan biaya besar untuk menyewa orang guna menandai data satu per satu, lebih baik gunakan program dan aturan untuk melakukan "weak supervision", sehingga model dapat belajar tanpa perlu ditandai secara manual satu per satu.
Dengan pendekatan ini, Snorkel mengumpulkan lebih dari 60 makalah, dan alat open-source-nya juga digunakan oleh Google dan Intel, hingga akhirnya resmi dipisahkan menjadi perusahaan pada tahun 2019.

Co-founder of Snorkel AI, Professor Chris Ré dari Stanford
Mentor Ratner, Chris Ré, juga sosok yang tangguh.
Dia adalah profesor Stanford, penerima penghargaan MacArthur Genius, pengusaha berulang kali, yang terlibat dalam proyek-proyek yang diakuisisi oleh Apple, serta mendirikan SambaNova yang pernah bernilai hingga 5 miliar dolar AS.
Yang paling menarik adalah perubahan arah perusahaan ini.
Snorkel bertujuan untuk mengatasi masalah lama yaitu "annotasi manual yang lambat, mahal, dan tidak stabil", pada saat itu sekitar 80% waktu pengembangan AI habis untuk annotasi data secara manual, sehingga impian awal Snorkel adalah semaksimal mungkin melepaskan manusia dari tugas annotasi.
Namun, di era model mutakhir, yang paling langka dan paling berharga kembali berpusat pada manusia, hanya saja kini berupa selera dan penilaian para ahli seperti doktor, dokter, pengacara, dan insinyur senior. Perusahaan yang awalnya berdiri dengan prinsip "menggunakan sedikit orang" kini bisnis paling menguntungkannya justru mengorganisasi pasukan ahli mahal untuk melatih AI mutakhir, dengan Marlin hanyalah salah satu proyeknya.
Alur kerjanya juga selaras dengan kebutuhan proyek Marlin.
Snorkel menjelaskan alur kerja ini di situs webnya: pertama, tentukan tugas, kriteria penilaian, dan validator untuk menetapkan "apa yang dianggap baik", lalu jalankan alur tinjauan ahli, di mana penulis, beberapa reviewer, dan penentu keputusan akhir memeriksa secara bertahap, dengan seluruh proses tercatat.

Situs web Snorkel menunjukkan: setelah terjadi perbedaan pendapat dalam penilaian, keputusan diambil dan dicatat dalam riwayat perubahan standar penilaian; setiap perubahan dapat dilacak ke siapa, kapan, dan berdasarkan apa.
Ia juga akan menyediakan lingkungan evaluasi dan data sekaligus, sehingga tugas yang sama dapat dijalankan berulang kali pada berbagai versi model, menghasilkan skor yang dapat direproduksi dan dibandingkan. Agar skor bersih dan dapat dibandingkan, penilai tidak boleh terpengaruh oleh versi tersebut. Para insinyur eksternal ini tidak tahu versi mana yang mereka nilai, dan inilah alasannya.
The quote also speaks volumes.
Snorkel menawarkan posisi hukum publik dengan pembayaran antara $10 hingga $100 per tugas berkualitas tinggi; sementara tugas rekayasa perangkat lunak Marlin membayar $280 per tugas, sekitar satu jam, yang setara dengan gaji per jam sekitar dua setengah kali lipat dari rata-rata industri (Scale AI dan Mercor membayar insinyur hingga $110 per jam). Ahli top dapat menghasilkan lebih dari $3.000 per minggu.
Umpan balik dari insinyur eksternal yang direkrut oleh Snorkel benar-benar mahal.
Daftar klien mencakup Google, Mistral, dan Anthropic. Pada Mei 2025, Snorkel menyelesaikan putaran pendanaan D dengan valuasi 1,3 miliar dolar AS.
Kate Jensen, kepala pendapatan Anthropic, menyatakan bahwa untuk sepenuhnya melepaskan potensi Claude, diperlukan metode evaluasi baru yang menggabungkan ahli bidang dan umpan balik manusia, dan Anthropic akan terus bekerja sama dengan perusahaan seperti Snorkel.
Perusahaan-perusahaan seperti Snorkel, Scale, dan Mercor dulunya dianggap sebagai "platform pelabelan". Kini mereka menjadi rantai pasok tersembunyi di belakang perusahaan model mutakhir.
Pasukan ahli tak terlihat yang tersebar di seluruh dunia inilah yang memberi makan AI paling cerdas.

Beberapa raksasa
Yang diambil adalah data yang sama
Bukan hanya Anthropic yang membeli kemampuan rekayasa nyata. Dalam kompetisi ini, beberapa pemain besar juga ikut berpartisipasi, hanya saja caranya berbeda.
Cursor mengikuti jalan data produk.
Secara resmi dinyatakan: setelah pengguna mengaktifkan mode privasi, kode tidak akan pernah digunakan olehnya atau pihak ketiga untuk pelatihan; hanya ketika mode privasi dinonaktifkan, data perpustakaan kode, petunjuk, perilaku pengeditan, dan fragmen kode mungkin digunakan untuk meningkatkan fitur AI dan melatih model.
Model Tab dari Cursor menghasilkan lebih dari 10 miliar karakter suntingan setiap hari, dengan permintaan yang meningkat sekitar 100 kali lipat dibandingkan versi awal. Composer yang lebih lanjut, dilatih menggunakan pembelajaran penguatan (RL), memungkinkan model untuk belajar memanggil alat-alat seperti sunting dan pencarian dalam berbagai lingkungan tugas kode, sehingga mampu menangani tugas teknik yang berdurasi lebih panjang.
Ke Composer 2.5 terbaru yang secara khusus fokus pada tugas jangka panjang yang memerlukan ratusan langkah.
Musk menggunakan cara ikatan modal/opsi akuisisi.
Pada Februari tahun ini, xAI bergabung dengan SpaceX. Pada akhir April, SpaceX memperoleh hak untuk mengakuisisi induk perusahaan Cursor, Anysphere, seharga 60 miliar dolar AS tahun ini, atau membayar terlebih dahulu 10 miliar dolar AS untuk kolaborasi mendalam. Yang menjadi perhatian Musk adalah data perilaku pengembang nyata paling aktif di dunia yang dimiliki oleh Cursor.
Pada 25 Mei, Musk mengumumkan di X bahwa pelatihan model dasar generasi baru, Grok V9-Medium, telah selesai dengan 1,5 triliun parameter, tiga kali lipat dari model produksi saat ini. Ia secara khusus menekankan bahwa ini masih sebelum penambahan data Cursor untuk pelatihan ulang, dan setelah penambahan tersebut, "kemampuan pemrogramannya akan jauh lebih kuat". Model ini diperkirakan akan dirilis pada pertengahan Juni.

Dengan demikian, V9 akan menjadi Grok pertama yang secara sistematis «memakan» data perilaku pengembang nyata.
Codex dari OpenAI kemudian juga mengikuti jalan ini. Codex yang dirilis pada 2025 didorong oleh codex-1, yang menurut OpenAI dilatih menggunakan pembelajaran penguatan pada tugas pemrograman nyata, dengan tujuan menghasilkan kode yang mendekati gaya manusia dan sesuai dengan praktik PR, serta dapat menjalankan pengujian berulang kali hingga lulus; setiap tugas dijalankan di sandbox terisolasi yang telah dilengkapi dengan repositori kode Anda.
Saat ini Codex telah ditingkatkan menjadi platform pengkodean agen OpenAI, yang didorong oleh model pengkodean mutakhirnya; pengguna mingguan telah melebihi 5 juta.
Yang mereka pertarungkan sebenarnya adalah hal yang sama: data proses, hanya dengan jalur yang berbeda.
Anthropic memiliki model terlebih dahulu, tetapi kurang umpan balik dari lingkungan pengembangan nyata, sehingga menghabiskan uang untuk merekrut sekitar 1.000 insinyur, memecah proses rekayasa perangkat lunak menjadi data yang dapat dipelajari;
Cursor memiliki produk dan perilaku pengguna nyata, serta model pemrograman yang dikembangkan sendiri seperti Tab dan Composer. Namun, dibandingkan dengan OpenAI dan Anthropic, yang lebih kurang dimilikinya adalah dasar model umum dan daya komputasi pelatihan skala besar;
Yang juga kurang pada Musk adalah data, jadi ia mencoba membeli pintu masuk produk yang terus-menerus menghasilkan data perilaku pengembang dengan ratusan miliar dolar;
Model dan produk OpenAI tidak kurang, jadi ia membuat sandbox sendiri, memungkinkan model untuk melalui proses percobaan dan kesalahan, pengujian, koreksi, serta iterasi berulang-ulang dalam tugas pemrograman nyata melalui pembelajaran penguatan.
Beberapa pendekatan berbeda, tetapi tujuannya sama, yaitu menggunakan data yang semakin mendekati lingkungan teknis nyata untuk melatih model pemrograman AI mereka.


Moat yang sebenarnya
Selera dan penilaian manusia
Sebuah paper berjudul SWE-chat pertama kali mengumpulkan secara besar-besaran percakapan pengkodean agen nyata: 6.000 sesi, lebih dari 63.000 prompt pengguna, dan 355.000 panggilan alat.
Ini menghasilkan angka yang menyakitkan: hanya 44% kode yang dihasilkan oleh agen yang akhirnya masuk ke dalam commit pengguna. Lebih dari setengahnya nasibnya dihapus, diubah, atau dibatalkan.

SWE-chat uji coba: vibe coding telah mencakup 41% percakapan, tetapi kode yang ditulis oleh agen hanya 44% yang akhirnya masuk ke dalam commit; pengguna dalam 44% siklus interaksi mengoreksi, melaporkan kesalahan, atau menghentikan untuk mengembalikan output model.
Ini menunjukkan bahwa benchmark lama seperti HumanEval sudah jenuh, sehingga hanya melihat skor tidak lagi berarti banyak. Medan pertempuran yang sebenarnya adalah data dari proses pengembangan nyata yang melibatkan pengulangan, percobaan, dan penghapusan ulang.
Semakin kuat modelnya, semakin banyak uang yang harus dikeluarkan untuk membeli bagian yang belum bisa digantikan oleh manusia: intuisi teknik.
Anthropic membayar $280 per tugas, dan merekrut sekitar 1.000 insinyur untuk melakukan voting A/B: pekerjaan yang tampak berat ini justru menjadi nilai yang dibeli.
Siapa pun yang bisa mengubah lokasi proyek menjadi data yang dapat diproses oleh model, itulah yang memegang tiket masuk ke tahap berikutnya dari pemrograman AI.
