Anthropic 的 Claude Code 揭示 AI 背後 98.4% 的工程基礎設施

iconMetaEra
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
MetaEra 分析的 Anthropic 的 Claude Code 專案顯示,其 98.4% 的運作依賴工程基礎設施,而非 AI。該系統使用 markdown 檔案 CLAUDE.md 作為指南和記憶體。開發者正使用此方法建構具有自動化、錯誤回應和執行工具的結構化 AI 工作流程。OpenAI 和 Stripe 的工作量證明(PoW)和權益證明(PoS)團隊正在將此方法應用於擴展程式碼生成與審查。
當普通人還在研究「最強提示詞咒語」時,矽谷頂級實驗室已將 AI 基礎設施運轉成生產線

文章作者、來源:新智元

你還在 ChatGPT 的聊天框裡反覆調 prompt?

最近,一位 X 用戶發了一條推文,開頭就是一聲驚呼:頭部大廠偷偷在用的 Claude Code 項目模板外洩!

這已經不是寫提示詞了。這是 AI 工程基礎設施。

整個打法圍繞一個文件「CLAUDE.md」展開,而它的核心原則只有三條:

每次 Claude 犯錯 → 你新增一條規則;每次你重複自己 → 你新增一個工作流程;每次出現 bug → 你新增一道防護措施。

This is done to solidify project experience into long-term context and automated constraints that are read each time the system starts.

整個架構,就像一家 AI 公司的崗位編制:CLAUDE.md 是入職手冊,skills/ 是工作 SOP,hooks/ 是合規部,docs/ 是公司章程,tools/ 是後勤組,src/ 才是真正出活的業務部門。

你不再是在和 AI 聊天,而是在建構一個了解你程式碼倉庫的 AI。

最瘋狂的部分是,你只需設定一次,Claude 就會自動審查程式碼,並根據指令重構、強制執行架構規則、撰寫發行說明、從技能中執行工作流程、記住過去的錯誤等。

而且它會越用越聰明。

大多數人都是打開 ChatGPT,撰寫提示詞,複製貼上,反覆進行;但在這套方法下,你只需打開終端,運行一個已交付的 skill 代碼即可。

這就像在自己的代碼庫中養了一隊 AI 同事。

這條推文背後,傳遞的是這個時代正在悄悄翻篇的一個小信號,大多數人可能還沒有反應過來。

一張不算洩露的「洩露截圖」撕開一個真相

@ai_rohitt 晾出的這張截圖,是 Anthropic 官方文件中公開推薦的 Claude Code 標準範式。

CLAUDE.md 是 Claude Code 在每次會話開始時自動讀取的專案記憶檔案。

.claude/skills/ 和 .claude/hooks/ 是官方支援的擴展機制。

這些都是社區已經討論了幾個月的公開做法,並不是什麼人偷出來的「內部模板」。

但它之所以能讓一些資深開發者主動轉發,說明它得到了一些天天使用 Claude 的開發者的認同。

當中相當一部分人,可能這兩天才意識到原來它還能這樣用。

而硅谷的頂尖團隊,已將這件事打造成一條生產線。

第一個例子,是 OpenAI Frontier 團隊。

在 OpenAI 官方披露的 Frontier 團隊實驗中,一個從空 repo 開始的內部 beta,在約 5 個月內由 Codex 生成了約 100 萬行程式碼和約 1500 個 PR;團隊從 3 人擴展至 7 人,人工不直接撰寫程式碼。

帶隊的 Ryan Lopopolo 在後續訪談中進一步提到,這套工作流程已接近「0 人工代碼、0 人工審核」的極限形態。

他認為,與其節省 token,不如利用模型極高的併發能力和極低的成本,來取代人類有限且昂貴的同步注意力。

第二個例子是 Stripe 內部的自動化代碼代理系統 Minions。

Stripe 內部的 Minions 每週生成並推動超過 1300 個 PR 合併,這些代碼完全由 AI 生成,但仍經過人工審查。

這裡還有一組數據:1.6% vs 98.4%,它來自 Mohamed bin Zayed AI 大學 VILA-Lab 發表的一篇論文。

https://arxiv.org/pdf/2604.14228

研究者系統性分析了 Claude Code v2.1.88 版本的 51.2 萬行程式碼,得出的結論是:僅有 1.6% 是 AI 決策邏輯,其餘 98.4% 為確定性的工程基礎設施。

具體來說,包括權限網關、上下文管理、工具路由和錯誤恢復這四類。

這組數字並非表示模型僅貢獻了 1.6% 的能力,而是說明作為產品的 Claude Code,其大量複雜性不在模型本身,而在權限、上下文、工具路由、恢復機制等確定性工程基礎設施上。

@ai_rohitt 圖中的 CLAUDE.md/skills/hooks 結構,普通開發者也能搭建一套「入門版基建」,它與 OpenAI、Stripe 的生產級架構屬於同一種範式,只是規模小得多。

CLAUDE.md 暴露的秘密

過去三年,所有人都在問「GPT 什麼時候能更聰明」「Claude 什麼時候出新版本」。

但真正能在生產環境中運行 AI 編程的團隊,他們更關心的可能根本不是這個,而是如何讓 AI 記住自己上次踩過的坑,怎麼讓 AI 在動手前先看一下項目的架構約束,怎麼讓 AI 犯錯的時候自己被工具擋住。

CLAUDE.md 正是這一切的承載體。

Anthropic 官方對它的定義只有一句:

一個 markdown 檔案,放在專案根目錄,Claude Code 會在每次會話開始時自動讀取。

https://code.claude.com/docs/en/memory

Sounds simple, but it's the several layers built around it that make it truly impressive.

CLAUDE.md 是項目大腦。

架構決策、命名約定、測試要求、那些反覆踩過的坑,都堆在這裡。它是 AI 每次啟動時第一眼看到的「員工手冊」。

.claude/skills/ 是可重複使用的工作流程。

Claude Code 的創建者 Boris Cherny 在社區中反覆強調一句話:「如果你每天做某件事超過一次,把它變成 skill 或 command。」

一個 skill 就是一段可執行的方法論。Code review、生成 commit message、寫發布說明,這些都不該是每天手動輸入提示詞的工作,而應該是調用一下 skill 就能出結果。

.claude/hooks/ 是自動護欄。

這是最重要的部分。它不依賴 AI 自行判斷,而是由確定性代碼在 AI 出錯前就將其擋下。這就是為何敢讓 AI「無人監督」地運行,因為出錯的邊界已被 hooks 把控住。

docs/decisions/ 是架構決策記錄。

讓 AI 不僅知道代碼「是什麼」,還知道代碼「為什麼是這樣」。

這項最易被忽略,卻也是 AI 協作最大的槓桿點。

tools/ 和 src/ 是執行層。

這套架構真正值得注意的地方,不在於某個開發者弄出了一個漂亮的目錄,而在於越來越多獨立團隊正逐漸趨向同一個方向:將模型放入一套由上下文、工具、權限、評估和反饋迴圈組成的 harness 中。

在 GitHub 上已經可以看到不少類似項目:

rohitg00 的 awesome-claude-code-toolkit、diet103 的 claude-code-infrastructure-showcase、affaan-m 的 everything-claude-code,均圍繞 agents、skills、hooks、rules、MCP configs 等組件搭建 Claude Code 的工程化工作環境。

This shows that a truly mature AI programming workflow is not just about relying on a more powerful model or a longer prompt, but about embedding the model into a reusable, controllable, recoverable, and auditable engineering system.

至於具體的目錄結構,各家實現並不完全相同。

OpenAI 實驗室的極限實驗

2026 年 2 月 11 日,OpenAI 官方博客發佈了一篇文章:《Harness engineering: leveraging Codex in an agent-first world》。

https://openai.com/index/harness-engineering/

Anthropic 重新調整了 Claude Code 的架構理念;Martin Fowler 的網站將其濃縮為一個公式:「Agent=Model+Harness。」

Harness 一詞源自馬術,指的是馬的全套挽具,包括繮繩、馬嚼子、馬鞍和籠頭。

一匹馬可以跑得很快很有力,但它自己不知道往哪兒走:整套挽具決定了它的方向。

類比到 AI 編程:模型本身能力很強,但它不知道在你的程式碼庫中該往哪兒走。Harness 就是你為它打造的方向盤 + 刹車 + 導航。

OpenAI Frontier 團隊那個「100 萬行 0 人工」的實驗,本質就是把 Harness 做到極致。

他們的關鍵工程實踐包括以下幾條。

層級架構強制約束。

從 Types 到 Config 到 Repo 到 Service 到 Runtime 到 UI,依賴關係單向流動,並由 linter 在 CI 層強制執行。Agent 寫出違反層級關係的代碼?直接構建失敗。

Linter 錯誤訊息本身即是修復指令,這也是最反直覺的細節。

一般項目的 lint 錯誤是「violation detected」,供人類查看;OpenAI Frontier 的 lint 錯誤是「use logger.info({event: 'name', …data}) instead of console.log」,供 Agent 查看,可直接理解並修復的指令。

文件作為單一事實來源。所有架構圖、execution plans、設計規範均位於倉庫內的 docs/ 目錄中。Agent 不需要任何外部知識庫,一切皆在 repo 內。

這套東西的效果有多強?

模型未更換,但 LangChain 調整了 harness,包括系統提示、工具、中間件和推理模式,最終將 Terminal Bench 2.0 分數從 52.8 提升至 66.5。

你今天就能做的事

為 AI 創建一個項目大腦

問題回到普通開發者這裡:如果範式已經轉移,作為一個普通工程師,今天就能做點什麼。

第一件事,在你最重要的項目根目錄建一個 CLAUDE.md。

不需要完美,也不需要很長。寫下你團隊的架構規則、命名約定、測試要求,那些反覆踩過的坑,10分鐘能寫完一個能用的版本。

下次 AI 犯錯的時候,先不要手動修,而是問自己一句:CLAUDE.md 裡缺了什麼?

第二件事,把每天重複做的事轉化為技能。

這裡要注意 Boris Cherny 的金句:「如果你每天做某件事超過一次,把它變成 skill 或 command。」

代碼審查、生成 commit message、撰寫發佈說明、修復一類重複的 bug,這些都應是技能,不該每天手動輸入提示詞。

第三件事,在容易踩坑的地方加上一個 hook。

Hook 是 98.4% 中最具槓桿的那部分。它不依賴 AI 變聰明,而是依賴確定性代碼進行強制檢查。這是將人類工程師的判斷力翻譯成機器可讀約束的過程。

這件事的核心不在於寫代碼,而在於寫規則。

Karpathy 今年 1 月在推特上那句被廣泛轉發的話:「我已經從 80% 手動寫代碼變成了 80% 交給 Agent 寫。」

未來五年,工程師的能力曲線正從「我能寫多少行程式碼」轉向「我能為AI設計多嚴格的工作環境」。

寫代碼的工作正被 Agent 接管。

但設計那個讓 Agent 能寫出好代碼的世界,還是人的工作。而且比以前更難、更重要、也更有意思。

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露