當普通人還在研究「最強提示詞咒語」時，矽谷頂級實驗室已將 AI 基礎設施運轉成生產線

文章作者、來源：新智元

你還在 ChatGPT 的聊天框裡反覆調 prompt？

最近，一位 X 用戶發了一條推文，開頭就是一聲驚呼：頭部大廠偷偷在用的 Claude Code 項目模板外洩！

這已經不是寫提示詞了。這是 AI 工程基礎設施。

整個打法圍繞一個文件「CLAUDE.md」展開，而它的核心原則只有三條：

每次 Claude 犯錯 → 你新增一條規則；每次你重複自己 → 你新增一個工作流程；每次出現 bug → 你新增一道防護措施。

This is done to solidify project experience into long-term context and automated constraints that are read each time the system starts.

整個架構，就像一家 AI 公司的崗位編制：CLAUDE.md 是入職手冊，skills/ 是工作 SOP，hooks/ 是合規部，docs/ 是公司章程，tools/ 是後勤組，src/ 才是真正出活的業務部門。

你不再是在和 AI 聊天，而是在建構一個了解你程式碼倉庫的 AI。

最瘋狂的部分是，你只需設定一次，Claude 就會自動審查程式碼，並根據指令重構、強制執行架構規則、撰寫發行說明、從技能中執行工作流程、記住過去的錯誤等。

而且它會越用越聰明。

大多數人都是打開 ChatGPT，撰寫提示詞，複製貼上，反覆進行；但在這套方法下，你只需打開終端，運行一個已交付的 skill 代碼即可。

這就像在自己的代碼庫中養了一隊 AI 同事。

這條推文背後，傳遞的是這個時代正在悄悄翻篇的一個小信號，大多數人可能還沒有反應過來。

一張不算洩露的「洩露截圖」撕開一個真相

@ai_rohitt 晾出的這張截圖，是 Anthropic 官方文件中公開推薦的 Claude Code 標準範式。

CLAUDE.md 是 Claude Code 在每次會話開始時自動讀取的專案記憶檔案。

.claude/skills/ 和 .claude/hooks/ 是官方支援的擴展機制。

這些都是社區已經討論了幾個月的公開做法，並不是什麼人偷出來的「內部模板」。

但它之所以能讓一些資深開發者主動轉發，說明它得到了一些天天使用 Claude 的開發者的認同。

當中相當一部分人，可能這兩天才意識到原來它還能這樣用。

而硅谷的頂尖團隊，已將這件事打造成一條生產線。

第一個例子，是 OpenAI Frontier 團隊。

在 OpenAI 官方披露的 Frontier 團隊實驗中，一個從空 repo 開始的內部 beta，在約 5 個月內由 Codex 生成了約 100 萬行程式碼和約 1500 個 PR；團隊從 3 人擴展至 7 人，人工不直接撰寫程式碼。

帶隊的 Ryan Lopopolo 在後續訪談中進一步提到，這套工作流程已接近「0 人工代碼、0 人工審核」的極限形態。

他認為，與其節省 token，不如利用模型極高的併發能力和極低的成本，來取代人類有限且昂貴的同步注意力。

第二個例子是 Stripe 內部的自動化代碼代理系統 Minions。

Stripe 內部的 Minions 每週生成並推動超過 1300 個 PR 合併，這些代碼完全由 AI 生成，但仍經過人工審查。

這裡還有一組數據：1.6% vs 98.4%，它來自 Mohamed bin Zayed AI 大學 VILA-Lab 發表的一篇論文。

https://arxiv.org/pdf/2604.14228

研究者系統性分析了 Claude Code v2.1.88 版本的 51.2 萬行程式碼，得出的結論是：僅有 1.6% 是 AI 決策邏輯，其餘 98.4% 為確定性的工程基礎設施。

具體來說，包括權限網關、上下文管理、工具路由和錯誤恢復這四類。

這組數字並非表示模型僅貢獻了 1.6% 的能力，而是說明作為產品的 Claude Code，其大量複雜性不在模型本身，而在權限、上下文、工具路由、恢復機制等確定性工程基礎設施上。

@ai_rohitt 圖中的 CLAUDE.md/skills/hooks 結構，普通開發者也能搭建一套「入門版基建」，它與 OpenAI、Stripe 的生產級架構屬於同一種範式，只是規模小得多。

CLAUDE.md 暴露的秘密

過去三年，所有人都在問「GPT 什麼時候能更聰明」「Claude 什麼時候出新版本」。

但真正能在生產環境中運行 AI 編程的團隊，他們更關心的可能根本不是這個，而是如何讓 AI 記住自己上次踩過的坑，怎麼讓 AI 在動手前先看一下項目的架構約束，怎麼讓 AI 犯錯的時候自己被工具擋住。

CLAUDE.md 正是這一切的承載體。

Anthropic 官方對它的定義只有一句：

一個 markdown 檔案，放在專案根目錄，Claude Code 會在每次會話開始時自動讀取。

https://code.claude.com/docs/en/memory

Sounds simple, but it's the several layers built around it that make it truly impressive.

CLAUDE.md 是項目大腦。

架構決策、命名約定、測試要求、那些反覆踩過的坑，都堆在這裡。它是 AI 每次啟動時第一眼看到的「員工手冊」。

.claude/skills/ 是可重複使用的工作流程。

Claude Code 的創建者 Boris Cherny 在社區中反覆強調一句話：「如果你每天做某件事超過一次，把它變成 skill 或 command。」

一個 skill 就是一段可執行的方法論。Code review、生成 commit message、寫發布說明，這些都不該是每天手動輸入提示詞的工作，而應該是調用一下 skill 就能出結果。

.claude/hooks/ 是自動護欄。

這是最重要的部分。它不依賴 AI 自行判斷，而是由確定性代碼在 AI 出錯前就將其擋下。這就是為何敢讓 AI「無人監督」地運行，因為出錯的邊界已被 hooks 把控住。

docs/decisions/ 是架構決策記錄。

讓 AI 不僅知道代碼「是什麼」，還知道代碼「為什麼是這樣」。

這項最易被忽略，卻也是 AI 協作最大的槓桿點。

tools/ 和 src/ 是執行層。

這套架構真正值得注意的地方，不在於某個開發者弄出了一個漂亮的目錄，而在於越來越多獨立團隊正逐漸趨向同一個方向：將模型放入一套由上下文、工具、權限、評估和反饋迴圈組成的 harness 中。

在 GitHub 上已經可以看到不少類似項目：

rohitg00 的 awesome-claude-code-toolkit、diet103 的 claude-code-infrastructure-showcase、affaan-m 的 everything-claude-code，均圍繞 agents、skills、hooks、rules、MCP configs 等組件搭建 Claude Code 的工程化工作環境。

This shows that a truly mature AI programming workflow is not just about relying on a more powerful model or a longer prompt, but about embedding the model into a reusable, controllable, recoverable, and auditable engineering system.

至於具體的目錄結構，各家實現並不完全相同。

OpenAI 實驗室的極限實驗

2026 年 2 月 11 日，OpenAI 官方博客發佈了一篇文章：《Harness engineering: leveraging Codex in an agent-first world》。

https://openai.com/index/harness-engineering/

Anthropic 重新調整了 Claude Code 的架構理念；Martin Fowler 的網站將其濃縮為一個公式：「Agent=Model+Harness。」

Harness 一詞源自馬術，指的是馬的全套挽具，包括繮繩、馬嚼子、馬鞍和籠頭。

一匹馬可以跑得很快很有力，但它自己不知道往哪兒走：整套挽具決定了它的方向。

類比到 AI 編程：模型本身能力很強，但它不知道在你的程式碼庫中該往哪兒走。Harness 就是你為它打造的方向盤 + 刹車 + 導航。

OpenAI Frontier 團隊那個「100 萬行 0 人工」的實驗，本質就是把 Harness 做到極致。

他們的關鍵工程實踐包括以下幾條。

層級架構強制約束。

從 Types 到 Config 到 Repo 到 Service 到 Runtime 到 UI，依賴關係單向流動，並由 linter 在 CI 層強制執行。Agent 寫出違反層級關係的代碼？直接構建失敗。

Linter 錯誤訊息本身即是修復指令，這也是最反直覺的細節。

一般項目的 lint 錯誤是「violation detected」，供人類查看；OpenAI Frontier 的 lint 錯誤是「use logger.info({event: 'name', …data}) instead of console.log」，供 Agent 查看，可直接理解並修復的指令。

文件作為單一事實來源。所有架構圖、execution plans、設計規範均位於倉庫內的 docs/ 目錄中。Agent 不需要任何外部知識庫，一切皆在 repo 內。

這套東西的效果有多強？

模型未更換，但 LangChain 調整了 harness，包括系統提示、工具、中間件和推理模式，最終將 Terminal Bench 2.0 分數從 52.8 提升至 66.5。

你今天就能做的事

為 AI 創建一個項目大腦

問題回到普通開發者這裡：如果範式已經轉移，作為一個普通工程師，今天就能做點什麼。

第一件事，在你最重要的項目根目錄建一個 CLAUDE.md。

不需要完美，也不需要很長。寫下你團隊的架構規則、命名約定、測試要求，那些反覆踩過的坑，10分鐘能寫完一個能用的版本。

下次 AI 犯錯的時候，先不要手動修，而是問自己一句：CLAUDE.md 裡缺了什麼？

第二件事，把每天重複做的事轉化為技能。

這裡要注意 Boris Cherny 的金句：「如果你每天做某件事超過一次，把它變成 skill 或 command。」

代碼審查、生成 commit message、撰寫發佈說明、修復一類重複的 bug，這些都應是技能，不該每天手動輸入提示詞。

第三件事，在容易踩坑的地方加上一個 hook。

Hook 是 98.4% 中最具槓桿的那部分。它不依賴 AI 變聰明，而是依賴確定性代碼進行強制檢查。這是將人類工程師的判斷力翻譯成機器可讀約束的過程。

這件事的核心不在於寫代碼，而在於寫規則。

Karpathy 今年 1 月在推特上那句被廣泛轉發的話：「我已經從 80% 手動寫代碼變成了 80% 交給 Agent 寫。」

未來五年，工程師的能力曲線正從「我能寫多少行程式碼」轉向「我能為AI設計多嚴格的工作環境」。

寫代碼的工作正被 Agent 接管。

但設計那個讓 Agent 能寫出好代碼的世界，還是人的工作。而且比以前更難、更重要、也更有意思。

Anthropic 的 Claude Code 揭示 AI 背後 98.4% 的工程基礎設施

你今天就能做的事