Anthropic 聘請 1,000 名工程師,每項任務酬勞 280 美元,以改善 Claude 代碼

iconMetaEra
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
Anthropic 宣布一項提升 Claude Code 的計畫,透過 Snorkel AI 聘請 1,000 名工程師進行 A/B 測試。每項任務酬勞為 $280,耗時一小時。該計畫公告強調了提升程式碼安全性與可靠性的努力。通貨膨脹數據追蹤雖不直接相關,但仍是投資者的重要指標。目標是透過專家反饋優化模型輸出。
Anthropic 透過 Marlin 項目訓練 Claude Code,該項目透過數據公司 Snorkel AI 招募約 1000 名外部軟體工程師,以每項任務 280 美元的報酬讓其對模型生成的代碼進行 A/B 測試,

文章作者、來源:新智元

最近,一篇報導將 Claude Code 的「進步秘訣」擺在了檯面上。

Business Insider 称,Anthropic 有一個專門提升 Claude Code 的項目,正透過約 1000 名軟體工程師的反饋來打磨它。

這個項目在數據公司 Snorkel AI 內部,代號為「Marlin」。

早在今年1月,Claude Code 負責人 Boris Cherny 就爆料自己已兩個多月沒手寫過一行代碼,一天內讓 Claude 提交了 22 個拉取請求(Pull Request),前一天則提交了 27 個,全都是模型撰寫的。

也有報導稱,Anthropic 內部的代碼也大部分由 AI 生成。

有趣的地方,就在這裡。

一方面,Anthropic 的內部核心工程師已將大量編碼工作交給模型;另一方面,它正花錢聘請約 1000 名外部工程師,手把手教 Claude Code 什麼才是「好代碼」。

每小時280美元,到底買了什麼?

根據 Business Insider 的說法,Marlin 項目聘請的外部工程師都具備軟體工程背景。他們的工作聽起來很像一次真實的程式碼審查。

流程大致是這樣。先從一份包含數千個倉庫的清單裡,選一個 GitHub 的代碼倉庫。然後建一個 PR,也就是開發者提交代碼修改的那一步。再寫一段提示詞,把任務講清楚。

模型會生成兩套代碼,而這些外部工程師接下來要做的,是 A/B 測試:比較兩套輸出,選出更好的那一套。

每個任務報酬 280 美元,大約花一小時。有些還需與 Snorkel 的審核層來回多輪。

評判的標準是評估生產級代碼的正確性、安全性、可靠性和可維護性。

請舉兩個真實的例子。

在一個任務中,外部工程師讓模型重構系統處理執行元數據(execution metadata)的方式,目標是讓代碼更清晰、更好維護,但不改變功能。

在另一項任務中,外部工程師為開源機器學習平台 MLflow 進行安全修復,針對其在加載模型時下載 Python 套件可能出現的命令注入漏洞。材料的要求十分明確:既要阻止命令注入,又不能誤傷合法的 pip(Python 套件管理器)選項。

這些任務的要求,已經超出了數據標註的範疇,更像是要讓一個資深工程師,把腦子裡那套「這樣寫更好」的判斷原樣拷給模型。

顯然,Anthropic 購買的並非代碼,而是資深程式設計師心中如何寫出更安全、更乾淨代碼的判斷。

為什麼非得是工程師

Anthropic 為何要如此大費周章?因為 Claude Code 早已不是一個寫代碼的聊天框了。

Anthropic 將其定義為項目級的 AI 智能體。它能讀取整個程式碼庫,跨檔案進行規劃,直接執行修改、運行測試,並根據失敗的結果自行迭代。

Anthropic 官網對 Claude Code 的定義:一套能夠讀取程式碼庫、跨檔案修改、運行測試並交付已提交程式碼的智能體。

這意味著它會實際修改檔案、執行任務,並接觸整個程式碼專案。

Anthropic 本身也清楚這件事的分量,因此在工程部落格中反覆講述 Claude Code 的權限、沙箱和批准疲勞(approval fatigue)問題。

預設情況下,高風險檔案修改或命令執行需用戶批准;為減少反覆授權帶來的批准疲勞,Anthropic 還引入了 sandboxing,讓 Claude Code 在預設檔案系統和網路邊界內更安全地運行。

當一個 AI 能執行命令、能修改線上代碼時,犯錯的代價就完全不一樣了。訓練目標也隨之改變:從「寫對」升級到「寫得安全、可靠、可維護」。

這些東西,單靠普通的代碼語料是無法培養出來的。它過去藏身於資深工程師的代碼審查中,是人與人傳授的經驗。現在,Anthropic 想透過招募人類程式設計專家,將其轉化為可購買的數據。

Snorkel 被低估的「數據軍火商」

整件事情的真正主角是 Snorkel。

這家公司於2019年從史丹福AI實驗室脫穎而出,專注於一個方向:真正決定機器學習成敗的是數據,而非模型或算力。

Snorkel 的兩位重要創始人是 Alex Ratner 和他在史丹福的導師 Chris Ré,他們闡述了 Snorkel 的核心學術來源。

Snorkel AI 联合創始人、首席執行官 Alex Ratner

2015年,Snorkel 還只是 Ratner 博士期間的一個「下午項目」:與其花大錢雇人逐條標註數據,不如用程式和規則進行「弱監督」(weak supervision),讓模型無需人工逐條標註也能學習。

憑藉這套思路,Snorkel 累積了 60 多篇論文,其開源工具也被 Google、Intel 採用,直到 2019 年才正式拆分為公司。

Snorkel AI 联合創始人、史丹福大學教授 Chris Ré

Ratner 的導師 Chris Ré 也是個狠角色。

他是史丹福教授、麥克阿瑟天才獎得主、連續創業者,參與的項目曾被蘋果收購,並創辦了估值一度達50億美元的SambaNova。

最有趣的是這家公司轉型。

Snorkel 當年要解決的,正是「人工標註又慢、又貴、又不穩定」這個老大難問題,當時 AI 開發約 80% 的時間都耗在手工標註數據上,因此 Snorkel 最初的夢想,就是盡量把人從標註中解放出來。

但來到前沿模型時代,最稀缺、最值錢的又回到了人身上,只是變成了博士、醫生、律師、資深工程師等專家的品味與判斷。這家以「少用人」起家的公司,如今最賺錢的業務反而變成組建一支昂貴的專家大軍來訓練前沿AI,Marlin 只是其中一單。

Its workflow also aligns perfectly with the needs of the Marlin project.

Snorkel 官網這樣描述這套工作流程:先定義任務、評分標準和驗證器,界定「什麼算好」,再運行專家評審流水線,由作者、多名評審和最終裁決者層層把關,全程留痕。

Snorkel 官網示意:評審打分出現分歧後經裁決解決,並寫入評分標準變更記錄,每處改動都可追溯到誰、何時、依據什麼。

它還會一併設置評估環境和數據,讓同一組任務能在不同模型版本上反覆運行,得出可重現、可比較的分數。而要讓分數乾淨且可比,評分者就不能受到版本干擾。這些外部工程師不知道自己評估的是哪個版本,原因就在於此。

The quote also speaks volumes.

Snorkel 提供公開的法律方向合約職位,每個高品質任務報酬為 10 至 100 美元;而 Marlin 的軟體工程任務為每個 280 美元,約需一小時,時薪約為同行的兩倍半(Scale AI 和 Mercor 給工程師的時薪為 110 美元)。頂尖專家每周收入還可超過 3000 美元。

Snorkel 招募的這些外部工程師的回饋,真的貴。

客戶名單包括 Google、Mistral、Anthropic。2025 年 5 月,Snorkel 完成 D 輪融資,估值 13 億美元。

Anthropic 的營收負責人 Kate Jensen 表示,要完全釋放 Claude 的潛力,需引入領域專家和人類反饋的新評估方法,Anthropic 將持續與 Snorkel 等公司合作。

Snorkel、Scale、Mercor 這些公司,過去被當成「標註平台」。如今它們成了前沿模型公司背後的隱形供應鏈。

喂養最聰明AI的,正是這樣一支遍布全球、無形的專家大軍。

幾個巨頭

搶的是同一種數據

不只是 Anthropic 在購買真實的工程能力。這場競賽,幾個重量級玩家都在參與,只是打法不同。

Cursor 走的是產品數據這條路。

它官方明確表示:用戶啟用隱私模式後,其代碼絕不會被它或第三方用於訓練;只有在關閉隱私模式時,它才可能使用代碼庫數據、提示詞、編輯行為和代碼片段來改進AI功能並訓練模型。

Cursor 的 Tab 模型每天產生超過 10 億個編輯字符,請求量比初版增加了約 100 倍。更進一步的 Composer 透過強化學習(RL)訓練,讓模型在大量代碼任務環境中學習調用編輯、搜索等工具,以處理更長週期的工程任務。

到最新的 Composer 2.5,專注於需要數百步操作的長週期任務。

馬斯克採用的是資本綁定/收購期權的方式。

今年2月,xAI併入SpaceX。4月底,SpaceX獲得了以600億美元收購Cursor母公司Anysphere的權利,或先支付100億美元進行深度合作。馬斯克看重的正是Cursor所掌握的全球最活躍的真實開發者行為數據。

5月25日,馬斯克在 X 上宣布,新一代基礎模型 Grok V9-Medium 訓練完成,參數達 1.5T,為當前生產模型的 3 倍。他特別指出,這還是在未加入 Cursor 數據補訓前的成績,加完後「編程能力會強很多」,模型預計於 6 月中旬發布。

這樣一來,V9 將是第一個系統性地「吃過」真實開發者行為數據的 Grok。

OpenAI 後來的 Codex 也走上了這條路。2025 年發布的 Codex 由 codex-1 驅動,OpenAI 称其是透過強化學習在真實編碼任務上訓練的,目標是寫出貼近人類風格、符合 PR 傳統的程式碼,並能反覆執行測試直到通過;每個任務都在預裝了你程式碼庫的隔離沙箱中執行。

如今 Codex 已升級為 OpenAI 的 agentic coding 平台,由其前沿編碼模型驅動;每周用戶已超過 500 萬。

What they are competing for is actually the same thing: process data, just through different paths.

Anthropic 先有模型,但缺乏真實開發現場的反饋,於是花錢聘請約 1000 名工程師,將軟體工程流程拆解為可學習的數據;

Cursor 擁有產品和真實用戶行為,以及自研的 Tab、Composer 等編程模型。但與 OpenAI、Anthropic 相比,它更缺乏的是通用基礎模型底座和大規模訓練算力;

馬斯克缺的也是數據,乾脆試圖用幾百億美元去購買一個持續產生開發者行為數據的產品入口;

OpenAI 的模型和產品都不缺,於是自行搭建沙箱,讓模型在真實的編碼任務中透過強化學習反覆試錯、測試、修正與迭代。

幾家打法不同,殊途同歸,都在用越來越接近真實工程現場的數據,來訓練自己的 AI 編程模型。

真正的護城河

是人的品味和判斷

有一篇名為 SWE-chat 的論文,首次大規模採集了真實的智能體編碼對話:6000 段、超過 6.3 萬條用戶 prompt、35.5 萬次工具調用。

它得出一個扎心的數字:智能體生成的代碼,只有 44% 最終進入了用戶的提交中。超過一半的代碼被人刪除、修改或推翻。

SWE-chat 實測:vibe coding 已佔 41% 的會話,但智能體撰寫的代碼僅有 44% 最終進入提交;用戶在 44% 的互動輪次中,透過修正、報錯或中斷來反推模型輸出。

這說明,像 HumanEval 這樣的舊基準測試已經達到飽和,單純看分數意義不大。真正的戰場,是真實開發過程中那些反覆、試錯、推倒重來的數據。

模型越強,就越要花錢購買人類尚未被取代的那部分東西:工程直覺。

Anthropic 每個任務花費 280 美元,請來約 1000 名工程師進行 A/B 投票:這套看似笨重的作業,正是買在這一點上。

誰能把工程現場轉化為模型能消化的數據,誰就握住了進入AI編程下一程的入場券。

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露