Anthropic đã đào tạo Claude Code thông qua dự án Marlin, trong đó công ty dữ liệu Snorkel AI đã tuyển dụng khoảng 1.000 kỹ sư phần mềm bên ngoài để thực hiện kiểm thử A/B trên mã do mô hình tạo ra với mức thù lao 280 đô la Mỹ cho mỗi nhiệm vụ.

Tác giả bài viết, nguồn: NewZeYuan

Gần đây, một bài báo đã phơi bày “bí quyết tiến bộ” của Claude Code.

Business Insider cho biết, Anthropic có một dự án chuyên biệt nhằm cải thiện Claude Code, đang được tinh chỉnh thông qua phản hồi từ khoảng 1.000 kỹ sư phần mềm.

Dự án này được phát triển bên trong công ty dữ liệu Snorkel AI với mã nội bộ là «Marlin».

Ngay từ tháng 1 năm nay, Boris Cherny, người phụ trách Claude Code, đã tiết lộ rằng anh ấy đã hơn hai tháng không viết một dòng mã nào bằng tay, một ngày đã để Claude gửi 22 pull request, ngày trước đó thì gửi 27 pull request, tất cả đều do mô hình viết.

Cũng có báo cáo cho rằng phần lớn mã nội bộ của Anthropic được tạo bởi AI.

Điều thú vị đang diễn ra ở đây.

Một mặt, các kỹ sư cốt lõi của Anthropic đã giao phần lớn công việc mã hóa cho mô hình; mặt khác, họ đang chi tiền thuê khoảng 1.000 kỹ sư bên ngoài để hướng dẫn từng bước Claude Code thế nào mới là “mã tốt”.

Bạn đã mua gì với giá 280 USD trong một giờ?

Theo Business Insider, các kỹ sư bên ngoài mà dự án Marlin thuê đều có nền tảng về kỹ thuật phần mềm. Công việc của họ nghe giống như một cuộc đánh giá mã thật sự.

Quy trình nhìn chung như sau. Trước tiên, chọn một kho mã GitHub từ danh sách gồm hàng ngàn kho. Sau đó, tạo một PR, tức là bước nhà phát triển gửi các thay đổi mã. Tiếp theo, viết một đoạn hướng dẫn để làm rõ nhiệm vụ.

Mô hình sẽ tạo ra hai bộ mã, và những kỹ sư bên ngoài tiếp theo sẽ thực hiện kiểm tra A/B: so sánh hai đầu ra và chọn bộ tốt hơn.

Mỗi nhiệm vụ trả 280 USD, mất khoảng một giờ. Một số nhiệm vụ cần trao đổi nhiều vòng với bộ phận kiểm duyệt của Snorkel.

Tiêu chí đánh giá là đánh giá tính đúng đắn, an toàn, độ tin cậy và khả năng bảo trì của mã sản xuất.

Hai ví dụ thực tế.

Trong một nhiệm vụ, kỹ sư bên ngoài yêu cầu mô hình tái cấu trúc cách hệ thống xử lý siêu dữ liệu thực thi (execution metadata) nhằm làm cho mã nguồn rõ ràng hơn và dễ bảo trì hơn, mà không thay đổi chức năng.

Trong một nhiệm vụ khác, các kỹ sư bên ngoài đã thực hiện sửa lỗi bảo mật cho nền tảng máy học mã nguồn mở MLflow, nhằm khắc phục lỗ hổng tiêm lệnh có thể xảy ra khi nó tải mô hình và tải về các gói Python. Yêu cầu tài liệu rất rõ ràng: vừa phải ngăn chặn tiêm lệnh, vừa không ảnh hưởng đến các tùy chọn hợp lệ của pip (trình quản lý gói Python).

Các yêu cầu của những nhiệm vụ này đã vượt quá phạm vi ghi chú dữ liệu, giống như đang yêu cầu một kỹ sư giàu kinh nghiệm sao chép nguyên vẹn phán đoán “viết như vậy sẽ tốt hơn” từ trong đầu vào mô hình.

Rõ ràng, Anthropic không mua mã nguồn, mà là phán đoán của những lập trình viên giàu kinh nghiệm về cách viết mã an toàn và sạch sẽ hơn.

Tại sao lại phải là kỹ sư

Tại sao Anthropic lại tốn nhiều công sức như vậy? Vì Claude Code đã không còn là một khung trò chuyện để viết mã nữa.

Anthropic chính thức định nghĩa nó là một tác nhân AI cấp dự án. Nó có thể đọc toàn bộ kho mã nguồn, lập kế hoạch xuyên suốt các tệp, thực hiện thay đổi trực tiếp, chạy kiểm thử và tự lặp lại dựa trên kết quả thất bại.

Định nghĩa của Anthropic về Claude Code: Một tác nhân có khả năng đọc kho mã nguồn, thực hiện thay đổi xuyên tệp, chạy bài kiểm tra và giao mã đã được cam kết.

Điều này có nghĩa là nó sẽ thực sự sửa đổi tệp, thực hiện tác vụ và tiếp xúc với toàn bộ dự án mã nguồn.

Anthropic cũng hiểu rõ tầm quan trọng của vấn đề này, do đó đã nhiều lần đề cập đến các vấn đề về quyền hạn, sandbox và sự mệt mỏi do phê duyệt của Claude Code trong blog kỹ thuật.

Mặc định, các thay đổi tệp rủi ro cao hoặc thực thi lệnh yêu cầu sự đồng ý của người dùng; để giảm tình trạng mệt mỏi do phải xác nhận lặp đi lặp lại, Anthropic còn giới thiệu tính năng sandboxing, giúp Claude Code chạy an toàn hơn trong các giới hạn hệ thống tệp và mạng đã được thiết lập trước.

Khi một AI có thể thực thi lệnh và thay đổi mã trực tuyến, chi phí của những sai lầm hoàn toàn khác biệt. Mục tiêu huấn luyện cũng thay đổi theo: từ việc “viết đúng” được nâng cấp lên “viết an toàn, đáng tin cậy và dễ bảo trì”.

Những thứ này không thể được tạo ra từ dữ liệu mã thông thường. Trước đây, chúng ẩn mình trong các cuộc kiểm tra mã của các kỹ sư giàu kinh nghiệm, là kinh nghiệm được truyền lại từ người này sang người khác. Bây giờ, Anthropic muốn thông qua việc tuyển dụng các chuyên gia lập trình con người, biến chúng thành dữ liệu có thể mua được.

Snorkel – “nhà cung cấp vũ khí dữ liệu” bị đánh giá thấp

Người thật sự đóng vai chính trong toàn bộ sự việc là Snorkel.

Công ty này ra đời từ Phòng thí nghiệm AI của Stanford năm 2019, và chỉ tập trung vào một hướng: dữ liệu mới là yếu tố quyết định thành bại của học máy, chứ không phải mô hình hay sức mạnh tính toán.

Hai nhà sáng lập quan trọng của Snorkel là Alex Ratner và người hướng dẫn của anh ấy tại Stanford, Chris Ré, những người nói về nguồn gốc học thuật cốt lõi của Snorkel.

Alex Ratner, đồng sáng lập và CEO của Snorkel AI

Năm 2015, Snorkel chỉ là một “dự án chiều thứ Sáu” của Ratner khi đang học tiến sĩ: thay vì tốn kém thuê người gán nhãn từng dữ liệu một, hãy dùng chương trình và quy tắc để thực hiện “giám sát yếu” (weak supervision), giúp mô hình học mà không cần gán nhãn thủ công từng mẫu.

Dựa trên ý tưởng này, Snorkel đã tích lũy được hơn 60 bài báo khoa học, và công cụ mã nguồn mở của họ đã được Google và Intel sử dụng, cho đến khi chính thức tách thành công ty vào năm 2019.

Chris Ré, đồng sáng lập Snorkel AI, giáo sư tại Stanford

Giáo sư của Ratner, Chris Ré, cũng là một nhân vật không tầm thường.

Anh ấy là giáo sư Stanford, người đoạt giải MacArthur Genius, doanh nhân liên tục, tham gia vào các dự án từng được Apple mua lại và đồng sáng lập SambaNova, từng có định giá lên tới 5 tỷ USD.

Điều thú vị nhất vẫn là sự chuyển mình của công ty này.

Snorkel khi đó nhắm vào vấn đề lâu năm “gán nhãn thủ công vừa chậm, vừa tốn kém, vừa không ổn định”, khi đó khoảng 80% thời gian phát triển AI đều tiêu tốn vào việc gán nhãn dữ liệu thủ công, do đó giấc mơ ban đầu của Snorkel là giải phóng con người khỏi công việc gán nhãn càng nhiều càng tốt.

Nhưng đến thời đại các mô hình tiên tiến nhất, điều khan hiếm và có giá trị nhất lại quay trở lại con người, chỉ là thay vào đó là gu thẩm mỹ và phán đoán của các chuyên gia như tiến sĩ, bác sĩ, luật sư, kỹ sư giàu kinh nghiệm. Công ty từng khởi nghiệp bằng cách “sử dụng ít người hơn” giờ đây lại kiếm nhiều tiền nhất từ việc tổ chức một đội ngũ chuyên gia đắt đỏ để huấn luyện AI tiên tiến, Marlin chỉ là một trong những hợp đồng đó.

Workflow của nó cũng vừa đúng với nhu cầu của dự án Marlin.

Snorkel mô tả quy trình này trên trang web của họ: trước tiên xác định nhiệm vụ, tiêu chí đánh giá và bộ kiểm tra, xác định rõ “thế nào là tốt”, sau đó chạy quy trình đánh giá của chuyên gia, với tác giả, nhiều người đánh giá và người ra quyết định cuối cùng cùng kiểm soát từng bước, toàn bộ quá trình đều được ghi lại.

Trang web của Snorkel chỉ ra: Sau khi có sự khác biệt trong điểm đánh giá, vấn đề sẽ được giải quyết thông qua phán quyết và ghi lại trong hồ sơ thay đổi tiêu chí đánh giá; mọi thay đổi đều có thể truy xuất được ai, khi nào và dựa trên cơ sở gì.

Nó còn thiết lập sẵn môi trường đánh giá và dữ liệu để cùng một nhiệm vụ có thể chạy lặp lại trên các phiên bản mô hình khác nhau, từ đó tạo ra các điểm số có thể tái tạo và so sánh được. Để các điểm số sạch và có thể so sánh, người chấm điểm không được bị ảnh hưởng bởi phiên bản. Các kỹ sư bên ngoài không biết mình đang chấm phiên bản nào, và lý do nằm ở đây.

The quote also speaks volumes.

Snorkel cung cấp các vị trí hợp đồng pháp lý công khai, mỗi nhiệm vụ chất lượng cao trả từ 10 đến 100 đô la; trong khi các nhiệm vụ kỹ sư phần mềm của Marlin trả 280 đô la mỗi nhiệm vụ, khoảng một giờ, tương đương mức lương theo giờ gần gấp hai rưỡi so với ngành (Scale AI và Mercor trả kỹ sư lên đến 110 đô la mỗi giờ). Các chuyên gia hàng đầu có thể kiếm hơn 3.000 đô la mỗi tuần.

Phản hồi từ những kỹ sư bên ngoài mà Snorkel tuyển dụng thực sự đắt đỏ.

Danh sách khách hàng bao gồm Google, Mistral, Anthropic. Tháng 5 năm 2025, Snorkel hoàn thành vòng gọi vốn D với định giá 1,3 tỷ USD.

Kate Jensen, trưởng bộ phận doanh thu của Anthropic, cho biết để giải phóng hoàn toàn tiềm năng của Claude, cần áp dụng các phương pháp đánh giá mới dựa trên chuyên gia lĩnh vực và phản hồi con người, và Anthropic sẽ tiếp tục hợp tác với các công ty như Snorkel.

Các công ty như Snorkel, Scale, Mercor trước đây được coi là “nền tảng gán nhãn”. Bây giờ, chúng trở thành chuỗi cung ứng ẩn sau các công ty mô hình tiên tiến.

Đó là một đội ngũ chuyên gia vô hình, phân bố toàn cầu, đang cung cấp dữ liệu cho AI thông minh nhất.

Một vài ông lớn

Đang cạnh tranh cùng một loại dữ liệu

Không chỉ có Anthropic đang mua năng lực kỹ thuật thực tế. Cuộc cạnh tranh này, vài người chơi lớn đều đang tham gia, chỉ là cách tiếp cận khác nhau.

Cursor đang đi theo con đường dữ liệu sản phẩm.

Nó ghi rõ chính thức: sau khi người dùng kích hoạt chế độ riêng tư, mã sẽ không bao giờ được nó hoặc bên thứ ba sử dụng để huấn luyện; chỉ khi tắt chế độ riêng tư, nó mới có thể sử dụng dữ liệu kho mã, lời nhắc, hành vi chỉnh sửa và đoạn mã để cải thiện chức năng AI và huấn luyện mô hình.

Mô hình Tab của Cursor tạo ra hơn 10 tỷ ký tự chỉnh sửa mỗi ngày, lượng yêu cầu tăng khoảng 100 lần so với phiên bản đầu tiên. Composer nâng cao hơn, được huấn luyện bằng học tăng cường (RL), giúp mô hình học cách gọi các công cụ như chỉnh sửa, tìm kiếm trong môi trường nhiệm vụ mã nguồn lớn, xử lý các nhiệm vụ kỹ thuật có chu kỳ dài hơn.

Đến Composer 2.5 mới nhất, tập trung hoàn toàn vào các nhiệm vụ chu kỳ dài đòi hỏi hàng trăm bước thao tác.

Musk sử dụng phương thức ràng buộc vốn / quyền chọn mua.

Tháng 2 năm nay, xAI đã sáp nhập vào SpaceX. Cuối tháng 4, SpaceX đã giành quyền mua lại công ty mẹ của Cursor là Anysphere với giá 60 tỷ USD trong năm nay, hoặc thanh toán trước 10 tỷ USD để hợp tác sâu rộng. Điều mà Musk quan tâm chính là dữ liệu hành vi thực tế của các nhà phát triển sôi động nhất toàn cầu mà Cursor đang sở hữu.

Ngày 25 tháng 5, Musk tuyên bố trên X rằng mô hình nền tảng thế hệ mới Grok V9-Medium đã hoàn thành đào tạo, với 1,5 nghìn tỷ tham số, gấp 3 lần mô hình sản xuất hiện tại. Ông đặc biệt nhấn mạnh đây vẫn là kết quả trước khi bổ sung dữ liệu Cursor để tinh chỉnh thêm, và sau khi thêm dữ liệu này, “khả năng lập trình sẽ mạnh hơn nhiều”. Mô hình dự kiến được ra mắt vào giữa tháng 6.

Như vậy, V9 sẽ là Grok đầu tiên được hệ thống hóa “ăn” dữ liệu hành vi của các nhà phát triển thực tế.

Sau đó, Codex của OpenAI cũng đi theo con đường này. Codex được phát hành vào năm 2025, được điều khiển bởi codex-1, theo OpenAI, nó được huấn luyện bằng học tăng cường trên các nhiệm vụ mã hóa thực tế, nhằm viết mã gần với phong cách con người, tuân thủ các thói quen PR, đồng thời chạy lặp lại các bài kiểm tra cho đến khi vượt qua; mỗi nhiệm vụ được thực hiện trong một sandbox cô lập đã cài sẵn kho mã của bạn.

Hiện nay, Codex đã được nâng cấp thành nền tảng mã hóa agentic của OpenAI, được điều khiển bởi mô hình mã hóa tiên tiến nhất của họ; số người dùng hàng tuần đã vượt quá 5 triệu.

What they are competing for is actually the same thing: process data, just through different paths.

Anthropic ban đầu có mô hình, nhưng thiếu phản hồi từ môi trường phát triển thực tế, nên đã chi tiền thuê khoảng 1.000 kỹ sư để chia nhỏ quy trình phần mềm thành các dữ liệu có thể học được;

Cursor đã có sản phẩm và hành vi người dùng thực tế, cùng các mô hình lập trình tự phát triển như Tab, Composer. Tuy nhiên, so với OpenAI và Anthropic, nó thiếu hơn cả là nền tảng mô hình cơ sở chung và năng lực tính toán huấn luyện quy mô lớn;

Elon Musk cũng thiếu dữ liệu, nên trực tiếp cố gắng dùng hàng chục tỷ USD để mua một cổng sản phẩm tạo ra dữ liệu hành vi của nhà phát triển liên tục;

Không thiếu mô hình hay sản phẩm của OpenAI, nên họ tự xây dựng môi trường thử nghiệm để mô hình trải qua quá trình học tăng cường, lặp đi lặp lại việc thử nghiệm, kiểm tra, sửa đổi và cải tiến trong các nhiệm vụ mã hóa thực tế.

Một vài cách tiếp cận khác nhau, nhưng đều hướng đến mục tiêu tương tự, sử dụng dữ liệu ngày càng sát với thực tế công trường để huấn luyện mô hình lập trình AI của riêng mình.

Hào phòng vệ thực sự

Là sở thích và phán đoán của con người

Một bài luận có tên SWE-chat đã thu thập lần đầu tiên quy mô lớn các cuộc hội thoại mã hóa của tác nhân thực tế: 6.000 đoạn, hơn 63.000 prompt người dùng và 355.000 lần gọi công cụ.

Nó đưa ra một con số đau lòng: chỉ 44% mã do tác nhân tạo ra cuối cùng được đưa vào các bản nộp của người dùng. Hơn một nửa số mã bị xóa, sửa đổi hoặc bác bỏ.

SWE-chat thực nghiệm: vibe coding đã chiếm 41% các cuộc hội thoại, nhưng mã do tác nhân viết chỉ có 44% cuối cùng được đưa vào提交; người dùng đã phản hồi lại đầu ra của mô hình thông qua việc sửa lỗi, báo lỗi hoặc ngắt trong 44% vòng tương tác.

Điều này cho thấy các benchmark cũ như HumanEval đã bị khai thác hết, việc chỉ nhìn vào điểm số không còn ý nghĩa nhiều nữa. Chiến trường thực sự nằm ở dữ liệu từ quá trình phát triển thực tế, với những lần lặp lại, thử nghiệm và xây dựng lại liên tục.

Mô hình càng mạnh, càng phải chi tiền để mua phần mà con người vẫn chưa bị thay thế: trực giác kỹ thuật.

Anthropic trả 280 đô la cho mỗi nhiệm vụ, hãy tuyển khoảng 1.000 kỹ sư tham gia bỏ phiếu A/B: công việc trông có vẻ cồng kềnh này, chính là điều họ đang mua.

Ai có thể biến hiện trường kỹ thuật thành dữ liệu mà mô hình có thể xử lý, người đó sẽ nắm giữ vé vào cửa cho giai đoạn tiếp theo của lập trình AI.

Anthropic tuyển 1.000 kỹ sư với mức trả 280 USD mỗi nhiệm vụ để cải thiện mã Claude

Bạn đã mua gì với giá 280 USD trong một giờ?

Tại sao lại phải là kỹ sư

Snorkel – “nhà cung cấp vũ khí dữ liệu” bị đánh giá thấp