Khi những người bình thường vẫn đang nghiên cứu những "lời chú phép mạnh nhất", các phòng thí nghiệm hàng đầu ở Thung lũng Silicon đã biến cơ sở hạ tầng AI thành dây chuyền sản xuất.

Tác giả bài viết, nguồn: Sina Trí tuệ

Bạn vẫn đang lặp lại prompt trong khung trò chuyện của ChatGPT?

Gần đây, một người dùng X đã đăng một bài tweet bắt đầu bằng một lời thốt lên: Mẫu dự án Claude Code mà các công ty lớn đang sử dụng bí mật đã bị rò rỉ!

Đây không còn là viết prompt nữa. Đây là cơ sở hạ tầng kỹ thuật AI.

Toàn bộ chiến lược được xây dựng xung quanh một tệp tin có tên «CLAUDE.md», và nguyên tắc cốt lõi của nó chỉ có ba điều:

Mỗi khi Claude mắc lỗi → bạn thêm một quy tắc; mỗi khi bạn lặp lại chính mình → bạn thêm một quy trình làm việc; mỗi khi có lỗi → bạn thêm một hàng rào bảo vệ.

Làm như vậy nhằm lưu trữ kinh nghiệm dự án thành ngữ cảnh dài hạn và các ràng buộc tự động hóa mà nó sẽ đọc mỗi lần khởi động.

Toàn bộ kiến trúc giống như cơ cấu nhân sự của một công ty AI: CLAUDE.md là tài liệu hướng dẫn nhập viện, skills/ là quy trình làm việc chuẩn, hooks/ là bộ phận tuân thủ, docs/ là điều lệ công ty, tools/ là bộ phận hậu cần, src/ mới là bộ phận kinh doanh thực sự tạo ra sản phẩm.

Bạn không còn đang trò chuyện với AI nữa, mà đang xây dựng một AI hiểu rõ kho mã nguồn của bạn.

Phần điên rồ nhất là bạn chỉ cần cấu hình một lần, Claude sẽ tự động kiểm tra mã, tái cấu trúc theo lệnh, áp dụng các quy tắc kiến trúc, viết bản cập nhật phát hành, chạy quy trình từ kỹ năng và ghi nhớ các lỗi trước đó.

Và nó sẽ càng dùng càng thông minh.

Đa số mọi người đều mở ChatGPT, viết lời nhắc, sao chép và dán, lặp đi lặp lại; nhưng với cách tiếp cận này, bạn chỉ cần mở terminal và chạy một mã skill đã được giao.

Điều này giống như đang nuôi một đội ngũ đồng nghiệp AI trong kho mã nguồn của chính bạn.

B背后这条推文，传递的是这个时代正在悄悄翻篇的一个小信号，大多数人可能还没反应过来。

Một ảnh chụp được cho là “không rò rỉ” phơi bày một sự thật

Ảnh chụp màn hình mà @ai_rohitt chia sẻ là mẫu chuẩn được tài liệu chính thức của Anthropic công khai khuyến nghị cho Claude Code.

CLAUDE.md là tệp bộ nhớ dự án mà Claude Code tự động đọc khi bắt đầu mỗi phiên.

.claude/skills/ và .claude/hooks/ là các cơ chế mở rộng được hỗ trợ chính thức.

Đây đều là những thực hành công khai đã được cộng đồng thảo luận trong vài tháng qua, không phải là “mẫu nội bộ” bị ai đó đánh cắp.

Nhưng việc nó khiến một số nhà phát triển kỳ cựu chủ động chia sẻ cho thấy nó đã nhận được sự công nhận từ những nhà phát triển thường xuyên sử dụng Claude.

Một phần đáng kể trong số đó có thể mới nhận ra vài ngày nay rằng nó còn có thể được sử dụng theo cách này.

Trong khi đó, đội ngũ hàng đầu ở Thung lũng Silicon đã biến việc này thành một dây chuyền sản xuất.

Ví dụ đầu tiên là đội ngũ OpenAI Frontier.

Trong các thí nghiệm của đội Frontier được OpenAI công bố, một phiên bản beta nội bộ bắt đầu từ repo trống đã tạo ra khoảng 1 triệu dòng mã và khoảng 1.500 PR trong vòng 5 tháng bởi Codex; đội ngũ mở rộng từ 3 người lên 7 người, và con người không trực tiếp viết mã.

Ryan Lopopolo, người dẫn đầu đội ngũ, đã bổ sung trong cuộc phỏng vấn sau đó rằng quy trình này đã gần đạt đến hình thái cực hạn của “0 mã do con người viết, 0 đánh giá do con người thực hiện”.

Anh ấy cho rằng thay vì tiết kiệm token, nên tận dụng khả năng xử lý song song cực cao và chi phí cực thấp của mô hình để thay thế sự chú ý đồng bộ có hạn và đắt đỏ của con người.

Ví dụ thứ hai là hệ thống đại lý mã tự động nội bộ của Stripe có tên Minions.

Các Minions trong Stripe tạo và đẩy hơn 1.300 PR được hợp nhất mỗi tuần, toàn bộ mã này được AI tạo ra từ đầu đến cuối nhưng vẫn được kiểm tra bởi con người.

Ở đây còn một cặp dữ liệu: 1,6% so với 98,4%, được lấy từ một bài báo của VILA-Lab, Đại học Mohamed bin Zayed về AI.

https://arxiv.org/pdf/2604.14228

Các nhà nghiên cứu đã phân tích hệ thống 512.000 dòng mã nguồn TypeScript của phiên bản Claude Code v2.1.88 và kết luận rằng chỉ có 1,6% là logic ra quyết định của AI, còn lại 98,4% là cơ sở hạ tầng kỹ thuật xác định.

Cụ thể là bốn loại: cổng phân quyền, quản lý ngữ cảnh, định tuyến công cụ và phục hồi lỗi.

Bộ số liệu này không có nghĩa là mô hình chỉ đóng góp 1,6% khả năng, mà cho thấy rằng với sản phẩm Claude Code, phần lớn độ phức tạp không nằm ở chính mô hình, mà ở các cơ sở hạ tầng kỹ thuật xác định như quyền truy cập, ngữ cảnh, định tuyến công cụ và cơ chế phục hồi.

Cấu trúc CLAUDE.md/skills/hooks trong hình đó là một “hạ tầng phiên bản nhập môn” mà bất kỳ nhà phát triển thông thường nào cũng có thể xây dựng, nó cùng một mô hình với hạ tầng sản xuất của OpenAI và Stripe, chỉ là quy mô nhỏ hơn nhiều.

Bí mật bị lộ của CLAUDE.md

Trong ba năm qua, mọi người đều hỏi: “GPT khi nào sẽ thông minh hơn?” “Claude khi nào ra phiên bản mới?”

Nhưng những đội ngũ thực sự triển khai AI lập trình trong môi trường sản xuất, điều họ quan tâm có thể hoàn toàn không phải là điều này, mà là làm thế nào để AI ghi nhớ những lỗi đã gặp phải trước đó, làm thế nào để AI xem xét các ràng buộc kiến trúc dự án trước khi bắt tay vào thực hiện, và làm thế nào để công cụ tự động ngăn cản AI khi nó mắc lỗi.

CLAUDE.md chính là nền tảng mang tất cả những điều này.

Định nghĩa chính thức của Anthropic chỉ gồm một câu:

Một tệp markdown, đặt ở thư mục gốc của dự án, Claude Code sẽ tự động đọc khi bắt đầu mỗi phiên.

https://code.claude.com/docs/en/memory

Nghe thì có vẻ đơn giản, nhưng những lớp cấu trúc xung quanh nó mới là phần thực sự nổi bật.

CLAUDE.md là bộ não của dự án.

Các quyết định kiến trúc, quy ước đặt tên, yêu cầu kiểm thử, những lỗi lặp lại thường xuyên — tất cả đều được tập trung ở đây. Đây là “sổ tay nhân viên” mà AI sẽ nhìn thấy đầu tiên mỗi khi khởi động.

.claude/skills/ là các quy trình làm việc có thể tái sử dụng.

Boris Cherny, người sáng tạo ra Claude Code, đã nhiều lần nhấn mạnh trong cộng đồng: "Nếu bạn làm một việc nào đó hơn một lần mỗi ngày, hãy biến nó thành kỹ năng hoặc lệnh."

Một skill là một phương pháp có thể thực thi. Code review, tạo commit message, viết bản thông báo phát hành đều không nên là những công việc phải gõ thủ công các prompt mỗi ngày, mà nên được thực hiện chỉ bằng cách gọi skill là có kết quả ngay.

.claude/hooks/ là hàng rào tự động.

Đây là phần quan trọng nhất. Nó không phụ thuộc vào việc AI tự phán đoán, mà được chặn trước khi AI mắc lỗi bởi mã xác định. Đó là lý do tại sao chúng tôi dám để AI chạy “không có người giám sát”, vì ranh giới lỗi đã bị khóa bởi các hook.

docs/decisions/ là hồ sơ quyết định kiến trúc.

Để AI không chỉ biết mã nguồn "là gì", mà còn hiểu mã nguồn "vì sao lại như vậy".

Đây là điểm dễ bị bỏ qua nhất, nhưng cũng là điểm đòn bẩy lớn nhất của sự hợp tác AI.

tools/ và src/ là các lớp thực thi.

Điều đáng chú ý thực sự ở kiến trúc này không phải là một nhà phát triển tạo ra một thư mục đẹp mắt, mà là ngày càng nhiều nhóm độc lập đang hội tụ về cùng một hướng: đưa mô hình vào một hệ thống bao gồm ngữ cảnh, công cụ, quyền hạn, đánh giá và vòng lặp phản hồi.

Bạn đã có thể thấy nhiều dự án tương tự trên GitHub:

rohitg00's awesome-claude-code-toolkit, diet103's claude-code-infrastructure-showcase, và affaan-m's everything-claude-code đều đang xây dựng môi trường làm việc kỹ thuật hóa cho Claude Code dựa trên các thành phần như agents, skills, hooks, rules, MCP configs.

Điều này cho thấy, một quy trình lập trình AI thực sự chín muồi không chỉ dựa vào một mô hình mạnh hơn, cũng không chỉ dựa vào một prompt dài hơn, mà là tích hợp mô hình vào một hệ thống kỹ thuật có thể tái sử dụng, có thể kiểm soát, có thể phục hồi và có thể kiểm toán.

Về cấu trúc thư mục cụ thể, các triển khai khác nhau không hoàn toàn giống nhau.

Thí nghiệm giới hạn của phòng thí nghiệm OpenAI

Vào ngày 11 tháng 2 năm 2026, blog chính thức của OpenAI đã đăng một bài viết: “Harness engineering: leveraging Codex in an agent-first world”.

https://openai.com/index/harness-engineering/

Anthropic đã điều chỉnh lại tư duy kiến trúc của Claude Code xung quanh khái niệm này; trang web của Martin Fowler đã tóm gọn nó thành một công thức: « Agent = Model + Harness. »

Từ "harness" có nguồn gốc từ ngựa. Nó chỉ toàn bộ bộ đồ kéo ngựa, bao gồm dây cương, mõm ngựa, yên ngựa và dây cương đầu.

Một con ngựa có thể chạy nhanh và mạnh mẽ, nhưng chính nó không biết phải đi đâu: toàn bộ bộ yên cương quyết định hướng đi của nó.

So sánh với lập trình AI: Mô hình có khả năng rất mạnh, nhưng nó không biết nên đi đâu trong kho mã nguồn của bạn. Harness chính là vô lăng + phanh + định vị mà bạn tạo ra cho nó.

Thí nghiệm “1 triệu dòng mã không có sự can thiệp của con người” từ đội ngũ Frontier của OpenAI về bản chất là đẩy Harness lên mức tối đa.

Các thực hành kỹ thuật then chốt của họ bao gồm các điểm sau.

Hạn chế mạnh mẽ về kiến trúc phân cấp.

Từ Types đến Config, đến Repo, đến Service, đến Runtime, đến UI, mối quan hệ phụ thuộc chảy một chiều và được linter thực thi bắt buộc ở cấp CI. Agent viết mã vi phạm mối quan hệ phân cấp? Xây dựng sẽ thất bại ngay lập tức.

Thông báo lỗi của linter chính là hướng dẫn sửa lỗi, đây cũng là chi tiết phản trực giác nhất.

Lỗi lint của các dự án thông thường là «violation detected», dành cho con người xem; lỗi lint của OpenAI Frontier là «sử dụng logger.info({event: 'name', …data}) thay vì console.log», là các lệnh dành cho Agent, có thể đọc và sửa trực tiếp.

Tài liệu là nguồn sự thật duy nhất. Tất cả các sơ đồ kiến trúc, kế hoạch thực thi và thông số thiết kế đều nằm trong thư mục docs/ trong kho lưu trữ. Agent không cần bất kỳ cơ sở tri thức bên ngoài nào, mọi thứ đều có trong repo.

Hiệu quả của bộ这套东西 này mạnh đến mức nào?

Mô hình không thay đổi, nhưng LangChain đã điều chỉnh harness, bao gồm hệ thống prompt, công cụ, middleware và chế độ suy luận, cuối cùng nâng điểm Terminal Bench 2.0 từ 52.8 lên 66.5.

Việc bạn có thể làm ngay hôm nay

Làm một bộ não dự án cho AI

Vấn đề quay trở lại với các nhà phát triển thông thường: Nếu mô hình đã thay đổi, thì ngay hôm nay, một kỹ sư bình thường có thể làm gì.

Điều đầu tiên, tạo một tệp CLAUDE.md trong thư mục gốc của dự án quan trọng nhất của bạn.

Không cần hoàn hảo, cũng không cần dài dòng. Viết ra quy tắc kiến trúc đội nhóm, quy ước đặt tên, yêu cầu kiểm thử, những lỗi lặp lại đã gặp phải—10 phút là có thể viết xong một phiên bản dùng được.

Khi AI tiếp theo mắc lỗi, đừng sửa thủ công ngay, mà hãy tự hỏi: CLAUDE.md thiếu gì?

Việc thứ hai là biến những việc lặp lại hàng ngày thành kỹ năng.

Lưu ý câu nói nổi tiếng của Boris Cherny: “Nếu bạn làm một việc nào đó hơn một lần mỗi ngày, hãy biến nó thành kỹ năng hoặc lệnh.”

Code review, tạo commit message, viết bản phát hành, sửa các lỗi lặp lại kiểu này đều nên là kỹ năng, không nên là những thứ phải gõ thủ công từng lời nhắc mỗi ngày.

Việc thứ ba, thêm một hook ở những nơi dễ mắc lỗi.

Hook là phần có đòn bẩy cao nhất trong 98,4%. Nó không phụ thuộc vào AI để trở nên thông minh, mà dựa vào mã xác định để thực hiện các kiểm tra bắt buộc. Đây là quá trình chuyển đổi phán đoán của kỹ sư con người thành các ràng buộc có thể đọc được bởi máy.

Điều cốt lõi ở đây không phải là viết mã, mà là viết quy tắc.

Câu nói của Karpathy vào tháng 1 năm nay trên Twitter, được chia sẻ rộng rãi: “Tôi đã chuyển từ việc viết mã thủ công 80% sang giao 80% cho Agent viết.”

Trong năm năm tới, đường cong năng lực của các kỹ sư đang chuyển từ “Tôi có thể viết được bao nhiêu dòng mã” sang “Tôi có thể thiết kế môi trường làm việc nghiêm ngặt đến mức nào cho AI”.

Công việc lập trình đang được Agent tiếp nhận.

Nhưng việc thiết kế thế giới để Agent có thể viết mã tốt vẫn là công việc của con người. Và khó hơn, quan trọng hơn, cũng thú vị hơn bao giờ hết.

Claude Code của Anthropic tiết lộ 98,4% cơ sở hạ tầng kỹ thuật đằng sau AI

Việc bạn có thể làm ngay hôm nay