Anthropic melatih Claude Code melalui projek Marlin, yang merekrut sekitar 1.000 jurutera perisian luaran melalui syarikat data Snorkel AI untuk menguji A/B kod yang dihasilkan oleh model, dengan bayaran sebanyak $280 setiap tugas,

Penulis artikel, sumber: XinZhiYuan

Baru-baru ini, sebuah laporan telah memaparkan "rahsia kemajuan" Claude Code.

Business Insider menyatakan bahawa Anthropic mempunyai projek khas untuk meningkatkan Claude Code, yang sedang disempurnakan melalui maklum balas daripada sekitar 1.000 jurutera perisian.

Projek ini di dalam syarikat data Snorkel AI, dikenali sebagai "Marlin".

Pada Januari tahun ini, Boris Cherny, pengurus Claude Code, mengungkap bahawa dia tidak menulis sebaris kod pun dengan tangan selama lebih daripada dua bulan, dengan Claude menghantar 22 permintaan tarik (Pull Request) dalam sehari, dan 27 pada hari sebelumnya—semuanya ditulis oleh model.

Laporan juga menyatakan bahawa sebahagian besar kod dalaman Anthropic dihasilkan oleh AI.

Tempat yang menarik, sedang berlaku di sini.

Di satu sisi, jurutera inti Anthropic sendiri telah menyerahkan sejumlah besar kerja pengkodean kepada model; di sisi lain, ia menghabiskan wang untuk mempekerjakan sekitar 1,000 jurutera luaran untuk mengajar Claude Code secara langsung apa itu "kod yang baik".

Apa yang dibeli dengan US$280 dalam satu jam?

Menurut Business Insider, jurutera luaran yang dipekerjakan oleh projek Marlin semuanya memiliki latar belakang kejuruteraan perisian. Pekerjaan mereka kedengaran seperti satu penilaian kod sebenar.

Prosesnya kurang lebih begini. Pertama, pilih satu repositori GitHub daripada senarai yang mengandungi ribuan repositori. Kemudian, buat PR, iaitu langkah di mana pembangun menghantar perubahan kod. Selepas itu, tulis satu petunjuk untuk menjelaskan tugas tersebut.

Model akan menghasilkan dua set kod, dan apa yang perlu dilakukan oleh jurutera luar seterusnya ialah ujian A/B: membandingkan dua set output dan memilih yang lebih baik.

Setiap tugas membayar 280 dolar AS, mengambil kira-kira satu jam. Sebahagian memerlukan beberapa putaran balas balik dengan lapisan semakan Snorkel.

Kriteria penilaian adalah menilai kebenaran, keselamatan, kebolehpercayaan, dan kebolehpeliharaan kod peringkat pengeluaran.

Berikan dua contoh sebenar.

Dalam satu tugas, jurutera luar meminta model untuk semula bentuk cara sistem memproses metadat pelaksanaan, dengan tujuan membuat kod lebih jelas dan lebih mudah diselenggarakan, tanpa mengubah fungsi.

Dalam tugas lain, jurutera luaran memperbaiki keselamatan untuk platform pembelajaran mesin sumber terbuka MLflow, mengatasi kelemahan penyuntikan arahan yang mungkin berlaku semasa ia memuatkan model dan memuat turun pakej Python. Keperluan bahan sangat jelas: perlu menghalang penyuntikan arahan tanpa mengganggu pilihan pip (pengurus pakej Python) yang sah.

Keperluan tugas-tugas ini telah melampaui lingkup penandaan data, lebih menyerupai keperluan untuk meminta seorang jurutera berpengalaman menyalin semula penilaian 'cara ini lebih baik' yang ada dalam fikirannya kepada model.

Jelas bahawa Anthropic bukan membeli kod, tetapi penilaian daripada pengatur cara berpengalaman tentang bagaimana menulis kod yang lebih selamat dan lebih bersih.

Mengapa ia mesti seorang jurutera

Mengapa Anthropic perlu bersusah payah sebegitu rupa? Kerana Claude Code sudah lama bukan lagi sekadar kotak perbualan untuk menulis kod.

Anthropic secara rasmi mentakrifkannya sebagai agen AI peringkat projek. Ia mampu membaca keseluruhan kod pangkalan, merancang merentas fail, melaksanakan perubahan secara langsung, menjalankan ujian, dan beriterasi sendiri berdasarkan kegagalan.

Definisi Claude Code oleh laman web Anthropic: satu agen yang mampu membaca repositori kod, mengubah fail secara merentas, menjalankan ujian, dan menghantar kod yang telah diserahkan.

Ini bermakna ia akan benar-benar mengubah fail, menjalankan tugas, dan mengakses keseluruhan projek kod.

Anthropic sendiri juga memahami kepentingan perkara ini, oleh itu sering membincangkan isu keizinan, sandbox, dan kelesuan persetujuan (approval fatigue) Claude Code di blog kejuruteraan mereka.

Secara lalai, perubahan fail berisiko tinggi atau pelaksanaan arahan memerlukan persetujuan pengguna; untuk mengurangkan kelesuan persetujuan yang disebabkan oleh pengesahan berulang, Anthropic juga memperkenalkan sandboxing, membolehkan Claude Code beroperasi dengan lebih selamat dalam sempadan sistem fail dan rangkaian yang telah ditetapkan.

Apabila AI mampu menjalankan perintah dan mengubah kod dalam talian, kos kesilapan menjadi benar-benar berbeza. Matlamat latihan juga berubah: daripada "menulis dengan betul" dinaikkan kepada "menulis dengan selamat, boleh dipercayai, dan mudah diselenggarakan".

Benda-benda ini tidak dapat dihasilkan daripada korpus kod biasa. Ia dahulu tersembunyi dalam semakan kod oleh jurutera berpengalaman, iaitu pengalaman yang dipindahkan secara manusia ke manusia. Sekarang, Anthropic ingin menjadikannya data yang boleh dibeli dengan merekrut pakar pemrograman manusia.

Snorkel, pengedar senjata data yang terlebih pandang

Subjek sebenar keseluruhan perkara ini ialah Snorkel.

Perusahaan ini keluar dari Stanford AI Lab pada tahun 2019, dan hanya memfokuskan diri pada satu arah: data lah yang menentukan keberhasilan atau kegagalan pembelajaran mesin, bukan model atau kekuatan komputasi.

Dua pencipta utama Snorkel ialah Alex Ratner dan pensyarahnya di Stanford, Chris Ré, yang menyatakan sumber akademik utama Snorkel.

Pendiri bersama dan CEO Snorkel AI, Alex Ratner

Pada tahun 2015, Snorkel masih merupakan "projek petang" semasa Ratner mengejar PhD: alih-alih menghabiskan banyak wang untuk menyewa orang untuk menandai data satu per satu, lebih baik gunakan program dan peraturan untuk "pengawasan lemah" (weak supervision), membolehkan model belajar tanpa perlu penandaan manual satu per satu.

Dengan pendekatan ini, Snorkel mengumpulkan lebih daripada 60 kertas kerja, dan alat sumber terbuka tersebut telah digunakan oleh Google dan Intel, sehingga ia secara rasmi dipisahkan menjadi syarikat pada tahun 2019.

Pendiri bersama Snorkel AI, profesor Stanford Chris Ré

Pembimbing Ratner, Chris Ré, juga seorang yang tangguh.

Beliau ialah profesor Stanford, penerima Anugerah Kecerdasan MacArthur, usahawan berterusan, yang terlibat dalam projek yang telah dibeli oleh Apple, serta mendirikan SambaNova yang pernah bernilai sehingga 5 bilion dolar AS.

Yang paling menarik ialah perubahan perusahaan ini.

Snorkel bertujuan untuk menyelesaikan masalah lama "penandaan manual yang perlahan, mahal, dan tidak stabil", di mana pada masa itu, sekitar 80% masa pembangunan AI dihabiskan untuk menandakan data secara manual, oleh itu, impian awal Snorkel ialah untuk membebaskan manusia daripada tugas penandaan sebanyak mungkin.

Namun, di era model canggih, yang paling langka dan paling berharga kembali kepada manusia, hanya saja kini berupa selera dan penilaian pakar seperti doktor, peguam, jurutera berpengalaman, dan sebagainya. Syarikat yang bermula dengan "mengurangkan penggunaan tenaga manusia" kini mendapat keuntungan terbesar daripada menyusun pasukan pakar mahal untuk melatih AI canggih, dengan Marlin hanyalah salah satu projeknya.

Alirannya sejajar dengan keperluan projek Marlin.

Snorkel menyatakan dalam laman webnya bahawa alur kerja ini bermula dengan menentukan tugas, kriteria penilaian, dan validator untuk menentukan "apa yang dianggap baik", kemudian menjalankan saluran penilaian pakar, di mana penulis, beberapa penilai, dan pengambil keputusan akhir mengawal setiap tahap, dengan rekod penuh sepanjang proses.

Paparan laman web Snorkel: Selepas perbezaan penilaian diselesaikan melalui keputusan, ia akan direkodkan dalam catatan perubahan standard penilaian, dan setiap perubahan boleh dilacak kepada siapa, bila, dan berdasarkan apa.

Ia juga akan menyediakan persekitaran dan data penilaian, membolehkan tugas yang sama dijalankan berulang kali pada versi model yang berbeza untuk menghasilkan skor yang boleh diulang dan boleh dibandingkan. Untuk memastikan skor bersih dan boleh dibandingkan, penilai tidak boleh terjejas oleh versi tersebut. Para jurutera luar ini tidak mengetahui versi mana yang mereka nilaikan, dan inilah sebabnya.

Harga juga sangat memberikan petunjuk.

Snorkel menawarkan jawatan kontrak hukum terbuka, dengan setiap tugas berkualiti tinggi membayar antara $10 hingga $100; manakala tugas kejuruteraan perisian Marlin membayar $280 setiap tugas, kira-kira satu jam, yang setara dengan gaji sejam hampir dua setengah kali ganda berbanding rakan seindustry (Scale AI dan Mercor membayar jurutera sehingga $110 sejam). Pakar terkemuka boleh menghasilkan lebih daripada $3,000 seminggu.

Umpan balik daripada jurutera luar yang direkrut oleh Snorkel benar-benar mahal.

Senarai pelanggan termasuk Google, Mistral, Anthropic. Pada Mei 2025, Snorkel menyelesaikan pembiayaan Siri D dengan valuasi $1.3 bilion.

Kate Jensen, pegawai pendapatan Anthropic, menyatakan bahawa untuk membebaskan sepenuhnya potensi Claude, diperlukan kaedah penilaian baharu yang memperkenalkan pakar bidang dan maklum balas manusia, dan Anthropic akan terus bekerjasama dengan syarikat seperti Snorkel.

Syarikat-syarikat seperti Snorkel, Scale, dan Mercor dahulu dianggap sebagai "platform penandaan". Kini, mereka menjadi rangkaian bekalan terselindung di belakang syarikat-syarikat model terkini.

Pasukan pakar yang tidak kelihatan dan tersebar di seluruh dunia ini adalah yang memberi makan kepada AI paling bijak.

Beberapa raksasa

Yang diraih adalah data yang sama

Bukan hanya Anthropic yang membeli keupayaan kejuruteraan sebenar. Pertandingan ini melibatkan beberapa pemain utama, hanya dengan pendekatan yang berbeza.

Cursor mengikuti jalan data produk.

Ia secara rasmi menyatakan: selepas pengguna menghidupkan mod privasi, kod tidak akan pernah digunakan olehnya atau pihak ketiga untuk latihan; hanya apabila mod privasi dimatikan, ia mungkin menggunakan data perpustakaan kod, petunjuk, tindakan suntingan, dan potongan kod untuk meningkatkan fungsi AI dan melatih model.

Model Tab Cursor menghasilkan lebih daripada 10 milyar karakter sunting setiap hari, dengan permintaan yang meningkat sekitar 100 kali ganda berbanding versi asal. Composer yang lebih lanjut, dilatih menggunakan pembelajaran penguatan (RL), membolehkan model belajar memanggil alat-alat seperti sunting dan cari dalam pelbagai persekitaran tugas kod, serta menangani tugas kejuruteraan yang lebih panjang.

Ke Composer 2.5 terkini, fokus secara eksplisit pada tugas jangka panjang yang memerlukan ratusan langkah.

Elon Musk menggunakan kaedah ikatan modal/opsyen pengambilalihan.

Pada Februari tahun ini, xAI digabungkan ke dalam SpaceX. Pada akhir April, SpaceX memperoleh hak untuk mengakuisisi induk perusahaan Cursor, Anysphere, seharga 60 miliar dolar AS sepanjang tahun ini, atau membayar terlebih dahulu 10 miliar dolar AS untuk menjalankan kerja sama mendalam. Yang menjadi perhatian Musk adalah data perilaku pengembang nyata paling aktif di dunia yang dimiliki oleh Cursor.

Pada 25 Mei, Musk mengumumkan di X bahawa model asas generasi baru, Grok V9-Medium, telah selesai dilatih dengan 1.5T parameter, tiga kali ganda model produksi semasa. Beliau secara khusus menyebut bahawa ini masih sebelum penambahan data Cursor untuk latihan semula, dan selepas penambahan tersebut, "kemampuan pemrograman akan jauh lebih kuat". Model ini dijangka dilancarkan pada pertengahan Jun.

Dengan cara ini, V9 akan menjadi Grok pertama yang secara sistematik “memakan” data tingkah laku pembangun sebenar.

Codex seterusnya dari OpenAI juga mengikuti jalan ini. Codex yang dilancarkan pada 2025 didorong oleh codex-1, yang menurut OpenAI dilatih menggunakan pembelajaran penguatan pada tugas pengkodean sebenar, dengan tujuan menghasilkan kod yang mendekati gaya manusia dan mematuhi amalan PR, serta menjalankan ujian berulang kali sehingga lulus; setiap tugas dijalankan di dalam sandbox terpisah yang telah dipasang dengan repositori kod anda.

Kini Codex telah ditingkatkan menjadi platform pengkodean agen OpenAI, yang didorong oleh model pengkodean terkininya; pengguna mingguan telah melebihi 5 juta.

Mereka bersaing untuk sesuatu yang sama: data proses, hanya dengan jalan yang berbeza.

Anthropic mempunyai model terlebih dahulu, tetapi kekurangan maklum balas dari persekitaran pembangunan sebenar, jadi mereka membayar kira-kira 1,000 jurutera untuk memecahkan proses kejuruteraan perisian menjadi data yang boleh dipelajari;

Cursor mempunyai produk dan perilaku pengguna sebenar, serta model pemrograman Tab, Composer, dan sebagainya yang dikembangkan sendiri. Namun, berbanding dengan OpenAI dan Anthropic, ia kurang memiliki dasar model asas universal dan kuasa pengiraan latihan berskala besar;

Masuk juga kekurangan data, jadi cuba membeli entri produk yang terus menghasilkan data tingkah laku pembangun dengan ratusan bilion dolar;

Model dan produk OpenAI tidak kekurangan apa-apa, jadi mereka membina persekitaran simulasi sendiri, membenarkan model mencuba, menguji, memperbaiki, dan mengitar semula secara berulang-ulang dalam tugas pengaturcaraan sebenar melalui pembelajaran penguatan.

Beberapa pendekatan berbeza, tetapi mencapai tujuan yang sama, dengan menggunakan data yang semakin mendekati tapak kejuruteraan sebenar untuk melatih model pengaturcaraan AI mereka.

Benteng sejati

Selera dan pertimbangan manusia

Sebuah kertas berjudul SWE-chat telah mengumpulkan perbualan pengkodan agen sejati secara besar-besaran untuk pertama kalinya: 6,000 siri, lebih daripada 63,000 prompt pengguna, dan 355,000 panggilan alat.

Ia menghasilkan nombor yang menyakitkan: hanya 44% kod yang dihasilkan oleh agen akhirnya masuk ke dalam penghantaran pengguna. Lebih daripada separuhnya dibuang, diubah, atau ditolak.

SWE-chat uji coba: vibe coding telah mengambil 41% daripada sesi, tetapi kod yang ditulis oleh agen hanya 44% yang akhirnya dimasukkan ke dalam penghantaran; pengguna dalam 44% kitaran interaksi membetulkan, melaporkan ralat, atau menghentikan untuk membalikkan output model.

Ini menunjukkan bahawa benchmark lama seperti HumanEval telah mencapai kejenuhan, dan hanya melihat skor tidak lagi bermakna. Medan pertempuran yang sebenar ialah data daripada proses pembangunan sebenar yang melibatkan pengulangan, percubaan, dan pembatalan semula.

Semakin kuat model, semakin perlu dibelanjakan untuk membeli bahagian yang belum digantikan oleh manusia: intuisi kejuruteraan.

Anthropic membayar $280 setiap tugas, dan menghimpun sekitar 1,000 jurutera untuk melakukan undian A/B: tugas yang kelihatan berat ini memang sengaja dibeli kerana titik ini.

Siapa yang boleh mengubah tapak kejuruteraan menjadi data yang boleh diproses oleh model, dialah yang memegang tiket masuk ke peringkat seterusnya dalam pengaturcaraan AI.

Anthropic Mempekerjakan 1,000 Jurutera pada $280 setiap tugas untuk Memperbaiki Kod Claude

Apa yang dibeli dengan US$280 dalam satu jam?

Mengapa ia mesti seorang jurutera

Snorkel, pengedar senjata data yang terlebih pandang