OpenAI 的 Codex 與 Anthropic 的 Claude Code 在 AI 程式設計工具上趨於一致

幾天前，OpenAI 正式發布了全新的大模型 GPT-5.4-Cyber。和很多網友的感受一樣，這個模型也給我們帶來了一種極其強烈的既視感。

這款新模型在目標用戶群、應用場景甚至宣傳策略上，幾乎完全對標 Anthropic 前幾天發布的 Claude Mythos。這種「貼身肉搏」的態勢已到毫不掩飾的地步。就連《紐約時報》都在最新報導標題中一針見血地指出：「與 Anthropic 一樣，OpenAI……」

Claude Code

這種同質化的趨勢絕不僅僅停留在最底層的基座模型上。如果你把目光投向這兩家公司近期發布的一系列產品，你會發現它們正在成為彼此的鏡像！

在資本市場的無影燈下，這種趨同更加明顯。目前兩家公司在二級市場上的估值咬得非常緊，Anthropic 甚至在近期憑藉其在企業級市場的狂飆突進，價格略高於 OpenAI。資本的嗅覺最為靈敏，在他們眼中，這兩隻獨角獸正在長出相同的犄角。

Claude Code

It appears that the homogenization of underlying large models will inevitably lead to convergence in upper-layer applications.

今天，我想和大家探討的，正是代表當今 AI 輔助編程最高水平的兩個標竿工具：OpenAI 的 Codex 和 Anthropic 的 Claude Code。從曾經的分道揚鑣，到如今的殊途同歸，它們是如何一步步長成了同一副模樣的？

從分道揚鑣到殊途同歸：雙雄的演進史

把時間撥回幾年以前，Codex 和 Claude Code 完全是兩種不同技術哲學的產物。

Codex 的底層邏輯是「天下武功唯快不破」。它就像一個跟在你身後、隨時準備補全代碼的 5 年經驗高級開發。

Claude Code

在 OpenAI 的構想中，Codex 是一個輕量級、高互動的終端智能體，主打快速迭代和互動式編程。它的執行速度極快，在 Cerebras WSE-3 硬體的加持下，能夠達到每秒 1000 個 token 的吞吐量。在具體的工作流中，Codex 提供建議、自動編輯和全自動三種明確的審批模式，讓開發者始終保持在循環之內。這種設計思路非常符合那些需要快速構建原型、處理高頻互動的極客開發者。

相比之下，Claude Code 從誕生之初就自帶一種高冷且克制的「架構師」屬性。

Claude Code

Anthropic 為它注入了處理極端複雜任務的基因。它依賴高達 100 萬 token 的龐大上下文視窗，以及獨特的「壓縮」技術來實現無限對話。Claude Code 的信條是「全局掌控，謀定而後動」。在執行任何動作之前，它會先使用智能體搜索技術吃透整個代碼庫的脈絡，然後協調多文件進行一致性修改。對於那些涉及數萬行代碼遷移的企業級重構任務，Claude Code 展現出了驚人的統治力。

然而，隨著時間的推移以及應用場景的不斷下探，這兩個原本性格迥異的工具，開始互相抄作業。

Claude Code

圖片來源：MorphLLM

在處理複雜項目時，單體 AI 模型面臨的最大瓶頸就是上下文污染。你讓 AI 重構認證模組，它讀了 40 個文件之後，往往就忘記了第一個文件的設計模式。為了解決這個痛點，兩家公司给出了幾乎一模一樣的答案：為每個子任務分配獨立的上下文窗口。

OpenAI 即將推出全新的 macOS 桌面應用，將任務按項目隔離在不同的執行緒中，並在雲端沙盒中獨立運行。Anthropic 則推出了代理團隊架構，允許開發者派生出多個子代理，它們共享任務列表與依賴關係，並在各自的獨立視窗中並行工作。你會發現，無論是稱為「雲端沙盒」還是「代理團隊」，它們在工程實現上的核心理念已完全一致。

在基準測試的成績單上，它們也呈現出一種微妙的平衡。GPT-5.3-Codex 在終端任務 Terminal-Bench 2.0 中以 77.3% 的得分領先。Claude Code 則在複雜的 SWE-bench Verified 榜單上拿下了 80.8% 的成績。它們都在自己的優勢區間裡做到了極致，同時又在拼命彌補自身的短板。

OpenClaw 效應：推倒高牆的無形之手

如果兩家公司的內部戰略決定了它們走向同質化的內因，那麼整個開源生態的倒逼則是不可忽視的外力。在這裡，我們必須要提到 OpenClaw 為整個 AI 編程工具賽道帶來的深遠影響。

作為開源社區推出的流程框架，OpenClaw 的出現可謂推倒了巨頭們辛苦建立的生態高牆。它將大模型與本地終端工具鏈的互動過程進行了標準化。過去，如何讓大模型優雅地調用本地 Git 提交、如何安全地在沙盒中運行測試腳本、如何進行多步推理驗證，這些都是 Codex 和 Claude Code 各自引以為傲的專有「黑科技」。

但 OpenClaw 將這些流程抽象為通用協議。這意味著，開發者不再需要為了某一種特定的協同模式而被綁定在特定的平台上。開源社區的狂歡讓標準化成為了不可逆轉的洪流。面對這種情況，無論是 OpenAI 還是 Anthropic，都不得不放低姿態去兼容這種開放的標準。

當底層的技術壁壘被 OpenClaw 這種開源力量拉平，當所有高級功能都成為行業的標準配備，Codex 和 Claude Code 唯一的出路，就是在更細微的使用者體驗層面進行無止境的內捲。這也是為什麼我們會覺得它們越來越相似，因為在標準化的框架下，最佳解往往只有一個——就像生物的趨同演化。

Codex 正在追趕 Claude Code

雖然 Claude Code 與 Codex 正在趨同演化的道路上，但兩者的差異依然存在，甚至 Codex 在某些方面已經更受開發者青睞。

前兩天，在 r/ClaudeCode 社區，一位擁有 14 年經驗、曾於科技巨頭工作的高級工程師 u/Canamerican726 分享了一份極其硬核的評測。

具體而言，他在一個包含 8 萬行代碼的複雜項目中，分別投入 100 小時使用 Claude Code 和 20 小時使用 Codex。

Claude Code

在他看來，使用 Claude Code 就像在指導一個被截止日期追趕的工程師，它衝刺速度極快，卻經常會忽略開發者在 CLAUDE.md 中寫下的規範，並且喜歡在現有檔案中不斷堆砌代碼來完成任務，缺乏重構思維。

相比之下，Codex 給他的感覺更像是擁有 5 到 6 年經驗的沉穩老手。它的處理速度雖然慢了 3 到 4 倍，但會在中途主動停下來思考並重構程式碼，並嚴格遵守指令邊界。這種高度的自主性，讓這位工程師敢於把任務直接丟給它，然後放心去做其他事情。

同樣的聲音也出現在 X 等社交網絡上。研究員 Aran Komatsuzaki 結合自己的使用體驗提到，在前端領域 Claude Code 依然占優，但在後端規劃和保持資訊更新方面，高頻調用網絡搜索的 Codex 明顯更加紮實。

Claude Code

評論區充滿了真實業務場景下的血淚總結。有開發者極其銳利地指出，基於 Opus 的模型雖然跑得快，但往往會為項目累積大量「代碼清潔債務」，Codex 動作慢，卻能在前行的同時順手把地掃乾淨。我甚至看到有用戶總結出一條生存法則，建議大家在上下文視窗的使用率達到 70% 時立刻開啟新會話，否則極易收到系統附贈的隱蔽 bug。

Claude Code

這些來自一線的真实吐槽清楚地表明，當兩大神器的能力面板越來越重合時，決定開發者最終陣營歸屬的，往往就是這些關於「填坑成本」和「維護心智」的微小體驗差距，當然對於中國用戶還有一些特殊的困難，比如：

Claude Code

冷思考：同質化背後的生態暗戰

當然，Codex 和 Claude Code 的優劣還取決於各位開發者自身，也要看開發者的能力，正如上述 u/Canamerican726 的評測報告總結的那樣：如果你不懂軟體工程，這兩個工具都會輸出糟糕的結果，工具並不等同於技能。

這句話戳破了 AI 編程工具長期以來營造的某種幻覺。我們曾經以為，只要有足夠強大的 AI 助手，哪怕是毫無基礎的 Vobe Coder 也能單槍匹馬打造出企業級應用。但現實是，Claude Code 需要一個極其專注且技能過硬的「駕駛員」，否則它很容易在龐大的程式碼庫中迷失方向。Codex 雖然更加獨立，但它同樣需要開發者提供精準的系統上下文才能發揮最大效用。

那麼，在工具能力高度同質化的今天，這兩家公司的護城河究竟轉移到了哪裡？

答案藏在那些枯燥的財務報表和定價策略裡。在相同的任務下，Claude Code 消耗的 token 數量往往是 Codex 的 3 到 4 倍。使用成本更高。對於企業團隊來說，使用 Claude Code 每個月需要為每位開發者支付 100 到 200 美元的費用。而 Codex 則將其能力打包進了價格更為親民的訂閱計劃中，並且通過龐大的 GitHub 社區積累了大量基礎用戶。

Claude Code

圖片來源：MorphLLM

Anthropic 的野心在於將 Claude Code 深度嵌入那些不缺錢的科技巨頭的工作流程中。例如，Stripe 讓 1370 名工程師使用 Claude Code，在 4 天內完成了一項原本需要 10 人數週才能完成的跨語言代碼遷移。Ramp 公司更依靠它將事件響應時間縮短了 80%。OpenAI 則依靠其無孔不入的生態滲透率，讓 Codex 成為許多普通開發者的預設選擇。

這不再是一場單純的技術競賽，而是一場關於生態綁定、定價策略以及用戶習慣重塑的消耗戰。

開發者的十字路口

回望這一年來的技術演進，GPT-5.4-Cyber 的發布只是這場漫長戰役中的一個微小註腳。Codex 和 Claude Code 正在走向「同一張面孔」，標誌著 AI 編程工具從早期充滿變數和獵奇色彩的測試階段，正式邁入了成熟且乏味的工業化生產階段。

目前，Claude Code 每天會自動生成 13.5 萬次 GitHub 提交，這一數字已佔全網公開提交量的 4%。我們可以預見，在不久的將來，大部分的樣板代碼、基礎測試用例以及常規的代碼重構，都將由這些越來越相似的 AI 智能體在後台默默完成。

Claude Code

圖源：MorphLLM & SemiAnalysis / GitHub Search API

面對兩個在能力上無限趨近、在體驗上相互模仿的超級工具，我們作為人類開發者的核心價值還剩下什麼？或許，工具紅利期即將徹底結束。當每個人手中都握著同樣鋒利的武器時，真正決定勝負的，將不再是谁擁有更好的程式碼補全速度，而是誰能更好地定義問題、誰擁有更宏大的系統架構視野，以及誰能在這個被 AI 填滿的程式碼世界裡，找到那份屬於人類獨有的不可替代性。

話歸正傳，你選哪個？

參考連結

https://www.morphllm.com/comparisons/codex-vs-claude-code

https://www.reddit.com/r/ClaudeCode/comments/1sk7e2k/claude_code_100_hours_vs_codex_20_hours/

https://x.com/arankomatsuzaki/status/2044270102003196007

https://www.nytimes.com/2026/04/14/technology/openai-cybersecurity-gpt54-cyber.html

本文來自微信公眾號「機器之心」（ID：almosthuman2014），作者：機器之心