Ang Anthropic ay nagtratrabaho sa proyektong Marlin upang masanay ang Claude Code, kung saan ang kompanya ng data na Snorkel AI ang nag-recruit ng higit sa 1,000 na eksternal na software engineer para mag-A/B testing sa code na ginawa ng model, na may kapalit na $280 bawat gawain.

May-akda ng artikulo, pinagkunan: XinZhiYuan

Kahit recent, isang ulat ang nagpalabas ng “mga lihim ng pag-unlad” ni Claude Code.

Sinabi ng Business Insider na mayroon si Anthropic na isang espesyal na proyekto para sa pagpapabuti ng Claude Code, na pinagpapakilala sa pamamagitan ng feedback ng humigit-kumulang 1,000 software engineers.

Ang proyektong ito ay nasa loob ng data company na Snorkel AI, na may code name na "Marlin".

Noong Enero ng taong ito, si Boris Cherny, ang tagapamahala ng Claude Code, ay nag-ulat na dalawang buwan na siyang hindi sumulat ng isang linya ng code, at sa isang araw ay insumbong ni Claude ang 22 na pull request, habang sa araw bago iyon ay 27, lahat ng ito ay isinulat ng model.

May mga ulat din na ang karamihan sa loobang code ng Anthropic ay ginawa ng AI.

Ang interesante ay nandito lang.

Sa isang tabi, ang mga pangunahing inhinyero ng Anthropic ay nagsaulo na ng malaking bahagi ng coding sa modelo; sa kabilang tabi, binabayaran nila ang halos 1,000 na eksternal na inhinyero upang direktang turuan ang Claude Code kung ano ang tumutukoy sa “mabuting code”.

Ano ang binili mo sa $280 sa isang oras?

Ayon sa Business Insider, ang lahat ng panlabas na inhinyero na hinirang ng proyektong Marlin ay may background sa software engineering. Ang kanilang gawain, tila isang tunay na code review.

Ganito ang pangkalahatang proseso. Una, pumili ng isang GitHub code repository mula sa isang listahan na naglalaman ng libu-libong repository. Pagkatapos, gumawa ng PR, na ang ibig sabihin ay ang hakbang kung saan ang mga developer ay sumusumite ng mga pagbabago sa code. Pagkatapos, isulat ang isang prompt upang malinaw na ipaliwanag ang gawain.

Ang model ay magpapagawa ng dalawang set ng code, at ang susunod na gagawin ng mga eksternong inhinyero ay ang A/B testing: ihahambing ang dalawang output at pipiliin ang mas mabuting set.

Ang bawat gawain ay nagbibigay ng $280, na kumukuha ng halos isang oras. May ilan na kailangan ng maraming pagpapalit ng feedback sa antas ng pagsusuri ng Snorkel.

Ang mga pamantayan sa pagtataya ay ang pag-e-evaluate ng kawastuhan, kaligtasan, katiyakan, at pagkakaroon ng mabuting pag-aalaga ng production-grade code.

Magbigay ng dalawang tunay na halimbawa.

Sa isang task, hiniling ng isang external engineer na i-restructure ng model ang paraan ng paghahandle ng execution metadata upang gawing mas malinaw at mas madaling pangalagaan ang code, nang hindi pagbabago ang functionality.

Sa isang ibang gawain, nagbigay ng security patch ang isang panlabas na inhinyero sa MLflow, isang open-source na platform para sa machine learning, upang ayusin ang command injection vulnerability na maaaring mangyari habang ina-download nito ang Python packages kapag iniloload ang model. Ang mga kahilingan ng materyal ay malinaw: kailangang pigilan ang command injection nang hindi nasasaktan ang mga legal na opsyon ng pip (Python package manager).

Ang mga kahilingan sa mga gawain ay lumampas na sa sakop ng data annotation, mas parang hinihingi na isama ng isang karanasan na inhinyero ang kanyang sariling pagtataya na “mas mabuti itong isulat” nang direkta sa modelo.

Malinaw na, ang binili ng Anthropic ay hindi ang code, kundi ang paghuhusga ng mga karanasan na programmer kung paano isulat ang code nang mas ligtas at mas malinis.

Bakit kailangang engineer?

Bakit kailangan ng Anthropic na gawin ito nang malaki? Dahil ang Claude Code ay hindi na isang chatbox para sa pagsusulat ng code.

Ipinapakilala ng Anthropic ito bilang isang AI agent na project-level. Kakayahan nito na basahin ang buong codebase, gumawa ng plano sa pagitan ng mga file, direktang isagawa ang mga pagbabago, jalurin ang mga pagsubok, at mag-iterate nang sarili nito batay sa mga resultang nabigo.

Ang definisyon ng Anthropic sa Claude Code: isang agent na nakakabasa ng codebase, nagpapalit ng mga file, nagpapatakbo ng mga pagsubok, at nagpapadala ng naisumite na code.

Ibig sabihin nito na ito ay tutuparin ang pagbabago sa mga file, pagsasagawa ng mga gawain, at pagpapalabas sa buong codebase.

Nakakaunawa si Anthropic sa kahalagahan ng bagay na ito, kaya paulit-ulit nilang binabanggit sa engineering blog ang mga pribilehiyo, sandbox, at approval fatigue ng Claude Code.

Sa default, kailangan ng pahintulot ng gumagamit para sa pagbabago o pagpapatupad ng mataas na panganib na file o utos; upang mabawasan ang pagkakaroon ng pagkakabagabag sa pagpapahintulot, kinuha rin ni Anthropic ang sandboxing upang mas ligtas na palakasin ang Claude Code sa loob ng mga nakapaghuhukay na file system at network boundaries.

Kapag isang AI ay kayang jalurin ang mga utos at baguhin ang online code, iba na ang gastos ng pagkakamali. Nagbabago rin ang layunin sa pagtuturo: mula sa “sumulat nang tama” patungo sa “sumulat nang ligtas, maaasahan, at madaling pangalagaan.”

Hindi ito maaaring maibigay sa pamamagitan ng karaniwang code corpus. Noong una, nakatago ito sa code reviews ng mga karanasan na inhinyero, isang karanasang ipinapasa mula sa tao sa tao. Ngayon, gustong gawin ng Anthropic na maging mabibili na data ito sa pamamagitan ng pag-recruit ng mga eksperto sa pag-program ng tao.

Snorkel, ang understated na “merchant ng data na armas”

Ang tunay na pangunahing tauhan sa buong bagay ay ang Snorkel.

Lumabas ang kumpanyang ito noong 2019 mula sa Stanford AI Lab, at ang kanilang tanging pagtataya ay ang data—ang tunay na nagdedesisyon kung saan matagumpay o hindi ang machine learning, hindi ang modelo o computing power.

Ang dalawang mahalagang tagapagtatag ng Snorkel ay si Alex Ratner at kanyang tagapayo sa Stanford, si Chris Ré, na sinasabi nila bilang pangunahing akademikong pinagmulan ng Snorkel.

Ang co-founder at CEO ng Snorkel AI, Alex Ratner

Noong 2015, ang Snorkel ay isang “afternoon project” lamang ni Ratner habang siya ay nag-aaral sa doktorado: mas mabuting gamitin ang mga programa at patakaran para sa “weak supervision” kaysa magbayad ng malaking halaga para sa mga tao na i-label ang bawat data.

Sa pamamagitan ng ideyang ito, nagtipon si Snorkel ng higit sa 60 na papel, at ang open-source tool ay ginamit na rin ng Google at Intel, hanggang sa ito ay opisyal na ispin-off bilang isang kumpanya noong 2019.

Co-founder ng Snorkel AI, propesor sa Stanford na si Chris Ré

Ang tagapayo ni Ratner, Chris Ré, ay isang matapang din.

Siya ay propesor sa Stanford, tagapagwagi ng MacArthur Fellowship, at patuloy na entrepreneur na naging bahagi ng mga proyekto na binili ng Apple, at itinatag ang SambaNova na may halaga na umabot sa $5 bilyon.

Ang pinakamalikhaing bagay ay ang pagbabalik ng kumpanyang ito.

Ang layunin ni Snorkel noong unang panahon ay lutasin ang matagal nang problema ng “pagsusuri ng tao na mabagal, mahal, at hindi matatag”—noong panahong iyon, 80% ng oras sa pagbuo ng AI ay ginugol sa pag-annotate ng data nang manu-manu, kaya ang unang pangarap ni Snorkel ay pagpalaya ang mga tao mula sa pag-annotate.

Ngunit sa panahon ng mga advanced na model, ang pinakakakulangan at pinakamahalaga ay bumalik sa tao, ngunit ngayon ay ang mga panlasa at pagpapasya ng mga eksperto tulad ng mga doktor, abogado, at senior na inhinyero. Ang kumpanyang nagsimula sa paggamit ng “kaunting tao” ay ngayon ang pinakakita sa pagpapalakas ng isang mahal na hukbo ng mga eksperto upang turuan ang mga advanced na AI, at ang Marlin ay isa lamang sa mga ito.

Ang kanyang workflow ay tumutugma rin sa pangangailangan ng proyektong Marlin.

Ipinapaliwanag ng Snorkel website ang workflow na ito: unang ilarawan ang gawain, mga pamantayan sa pagsusuri, at mga validator upang tukuyin ang “ano ang mabuti,” pagkatapos ay patakbuhin ang proseso ng pagmamarka ng eksperto, kung saan ang may-akda, maraming tagapagsuri, at huling desisyon ay nagpapalakas sa bawat yugto, na may buong record.

Ang Snorkel website ay nagpapakita: Pagkatapos ng pagkakaroon ng pagkakaiba-iba sa pagmamarka ng pagpapasya, ito ay lutasin at isasama sa talaan ng pagbabago sa mga pamantayan ng pagmamarka, at bawat pagbabago ay maaaring masuri kung sino, kailan, at batay sa ano.

Kakabuoan din nito ng environment at data para sa pagtataya, upang maaaring paulit-ulit na i-run ang parehong mga gawain sa iba’t ibang bersyon ng model at makakuha ng mga marka na maaaring muling isulat at ikumpara. Upang maging malinis at kumpara ang mga marka, ang mga tagapagsuri ay hindi dapat maapektuhan ng bersyon. Ito ang dahilan kung bakit hindi alam ng mga eksternal na inhinyero kong bersyon ang kanilang sinusuri.

The quote also speaks volumes.

Ang Snorkel ay nag-aalok ng isang pampublikong posisyon sa legal na kontrata, na may bayad na $10 hanggang $100 bawat mataas na kalidad na gawain; samantalang ang mga gawain sa software engineering ng Marlin ay $280 bawat isa, na tumatagal ng halos isang oras, o halos 2.5 beses ang suweldo sa oras kumpara sa mga katumbas na kompanya (ang Scale AI at Mercor ay nagbibigay ng $110 sa oras sa mga inhinyero). Maaaring kumita ng higit pa sa $3,000 sa isang linggo ang mga eksperto sa pinakamataas na antas.

Ang feedback ng mga eksperto mula sa Snorkel ay talagang mahal.

Kasali sa listahan ng mga kliyente ang Google, Mistral, at Anthropic. Noong Mayo 2025, natapos ni Snorkel ang kanilang D-round ng pagsasapalaran, na may halagang $1.3 bilyon.

Sinabi ni Kate Jensen, head of revenue sa Anthropic, na upang buuin ang buong potensyal ng Claude, kailangan ng mga bagong paraan ng pag-evaluate na naglalayong magdala ng mga eksperto sa larangan at human feedback, at patuloy na magkakaroon ng pakikipagtulungan ang Anthropic sa mga kumpanya tulad ng Snorkel.

Ang mga kumpanya tulad ng Snorkel, Scale, at Mercor ay dating itinuturing na mga “platform ng pag-annotate.” Ngayon, sila ay naging nakatago na supply chain sa likod ng mga kompanya ng avant-garde model.

Ang isang hindi nakikita ngunit global na hukbo ng mga eksperto ang nagbibigay ng mga datos sa pinakamatalinong AI.

Ilang mga malalaking kompanya

Sinisigla ang parehong uri ng data

Hindi lang si Anthropic ang bumibili ng totoong engineering capability. Sa paligsahan na ito, karamihan sa mga malalaking player ay nakikilahok, ngunit iba-iba ang kanilang paraan.

Ang cursor ay sumusunod sa daan ng produkto data.

Isinasaad nito sa opisyal: Kapag pinagana ng user ang privacy mode, hindi gagamitin ng ito o ng anumang third party ang code para sa pagtatrain; lamang kapag isinara ang privacy mode, posibleng gamitin ng ito ang codebase data, prompts, editing behavior, at code snippets upang mapabuti ang AI functionality at itrain ang model.

Ang Tab model ni Cursor ay nagpapagawa ng higit sa 1 milyar na edit character araw-araw, na tumataas ng halos 100 beses ang demand kumpara sa unang bersyon. Ang mas advanced na Composer, na tinuturuan gamit ang reinforcement learning (RL), ay nagpapahintulot sa model na matutunan ang paggamit ng mga tool tulad ng edit at search sa malalaking environment ng code task, upang masolusyunan ang mas mahabang cycle ng engineering tasks.

Ang pinakabagong Composer 2.5 ay direktang nakatuon sa mahabang panahon na gawain na nangangailangan ng mga daan-daang hakbang.

Ang ginagamit ni Musk ay ang capital binding/option to acquire.

Noong Pebrero ng taong ito, isinama ng xAI ang SpaceX. Noong huling bahagi ng Abril, kinuha ng SpaceX ang karapatan na bumili ng 60 bilyong dolyar ng parent company ng Cursor, ang Anysphere, o magbigay muna ng 10 bilyong dolyar para sa malalim na pakikipagtulungan. Ang tinutukoy ni Musk ay ang pinakamalawak at pinakamalikhaing data ng pag-uugali ng mga developer sa buong mundo na may-ari ng Cursor.

May 25, ipinahayag ni Musk sa X na natapos na ang pagtatrain ng bagong henerasyon ng pangunahing modelo, Grok V9-Medium, na may 1.5T na parameter, na tatlong beses ang laki ng kasalukuyang production model. Lalo niyang binanggit na ito ay ang resulta bago idagdag ang Cursor data para sa retraining; pagkatapos nito, “magiging mas malakas ang coding ability” ng modelo, at inaasahang ilalabas noong mid-June.

Sa ganitong paraan, ang V9 ay magiging unang sistematis na “nagkain” ng totoong data ng pag-uugali ng mga developer ng Grok.

Ang Codex na ipinakilala ng OpenAI ay sumunod sa parehong landas. Ang Codex na ipinakilala noong 2025 ay pinapagana ng codex-1, na sinasabing tinuruan ng OpenAI gamit ang reinforcement learning sa totoong coding tasks, na may layuning sumulat ng code na malapit sa istilo ng tao at sumusunod sa mga praktika ng PR, at maaaring mag-run ng mga pagsubok nang paulit-ulit hanggang makapasa; bawat task ay tumatakbo sa isang isolated sandbox na may iyo nang codebase na naka-install.

Ngayon ay na-upgrade na ang Codex bilang agentic coding platform ng OpenAI, na pinapagana ng kanilang advanced coding model; ang bilang ng mga user bawat linggo ay higit sa 5 milyon.

Ang kanilang ipinaglalaban ay tunay na iisang bagay: ang proseso ng data, ngunit iba-iba ang kanilang landas.

Ang Anthropic ay may mga modelo na una, ngunit kulang sa mga feedback mula sa tunay na pagpapalawak, kaya binayaran nila ang halos 1,000 na mga engineer upang hatiin ang proseso ng software engineering sa mga data na maaaring matutunan;

Mayroon ang Cursor ng mga produkto at totoong pag-uugali ng mga user, pati na rin ang kanilang sariling pag-develop na mga modelo ng pag-program tulad ng Tab at Composer. Ngunit kumpara sa OpenAI at Anthropic, kulang sila sa pangkalahatang base na modelo at malaking kapasidad ng pag-train na computing power;

Kulang din si Musk ng data, kaya sinubukan niyang bumili ng isang produktong entry na nagpapagawa ng mga data tungkol sa pagkilos ng mga developer gamit ang ilang dosenang bilyon dolyar;

Wala nang kakulangan sa OpenAI models at produkto, kaya nagtatayo sila ng isang sandbox upang ang model ay magsagawa ng paulit-ulit na pagsubok, pagtataya, pagpapabuti, at pag-itera sa mga totoong coding tasks gamit ang reinforcement learning.

Mga iba’t ibang paraan, magkakapareho ang layunin—gamit ang mga datos na lalong nagkakatulad sa tunay na mga proyektong inhinyero upang itrain ang kanilang AI programming model.

Totoong parapeto

Ang pagkakaintindi at pagpapasya ng tao

May isang papel na tinatawag na SWE-chat na unang malawakang kinolekta ang mga tunay na kausap sa pag-code ng mga agent: 6,000 na sesyon, higit sa 63,000 na user prompt, at 355,000 na pagtawag sa mga kasangkapan.

Nakakuha ito ng isang nakakasakit na numero: ang 44% lamang ng code na nilikha ng agent ang nakapasok sa mga sumbong ng user. Mas higit sa kalahati ang nasira, binago, o pinaglabanan.

SWE-chat real-world test: Ang vibe coding ay umabot sa 41% ng mga usapan, ngunit ang code na isinulat ng agent ay may 44% lamang na nakapasok sa pag-submit; sa 44% ng mga interactive round, ang mga user ay nag-correct, nag-report ng error, o nag-interrupt upang i-reverse-engineer ang output ng model.

Ito ay nagpapakita na ang mga lumang benchmark tulad ng HumanEval ay nasa punto na ng saturation, at ang pagtingin sa mga score lamang ay hindi na kasingkahulugan. Ang totoong battlefield ay ang mga data mula sa tunay na proseso ng pagbuo, kung saan maraming pag-uulit, pagsubok at pagkakamali, at pagbabalik sa simula.

Mas malakas ang modelo, mas maraming pera ang kailangan mong gastusin para bumili ng mga bagay na hindi pa nababago ng tao: ang engineering intuition.

Binabayaran ni Anthropic ang $280 bawat gawain, kaya hinanap nila ang halos 1,000 na inhinyero para sa A/B voting: ang mabigat na proseso na ito ay eksaktong kinuha nila.

Sino man ang makakapag-convert ng mga data mula sa construction site sa isang format na maaaring digest ng model, siya ang may-ari ng ticket papasok sa susunod na yugto ng AI programming.

Kinabukasan ng Anthropic ang 1,000 na inhinyero sa $280 bawat gawain upang mapabuti ang Claude Code

Ano ang binili mo sa $280 sa isang oras?

Bakit kailangang engineer?

Snorkel, ang understated na “merchant ng data na armas”