自動化之後
原文作者：Dan Shipper，Every CEO
編譯：Peggy，BlockBeats

編者按：最近，關於 AI 與工作的討論幾乎被一個問題主導：模型能力持續提升，白領崗位是否會被大規模替代？從程式碼生成、客服自動化到內容生產，Agent 正在不斷接管那些原本需要人類完成的知識工作。基準測試也在不斷強化這種焦慮：模型在研究生級推理、真實經濟任務和高級工程師級程式碼重構中的表現快速提升，似乎正在逼近一個「人類工作被自動化吞噬」的臨界點。

但 Every CEO Dan Shipper 在這篇文章中提出了相反的觀察：越是自動化，人類要做的工作反而越多。Every 是 AI Agent 的深度使用者，內部已將 Codex、Claude Code、Slack Agent、客服 Agent 等工具嵌入編碼、寫作、設計、客服和管理流程。但結果並不是員工被全面替代，而是工作形態發生了重組：工程師不再只是寫代碼，而是審查、重構和設計系統；編輯不再只是寫稿，而是判斷什麼值得寫、如何寫得不一樣；客服人員不再處理每一张基礎工單，而是維護一個能夠自動回應客戶的系統。

這篇文章最值得關注的，不是「AI 能否完成某項任務」，而是它重新定義了人類在知識工作中的位置。AI 擅長的是將過去已沉淀的能力變得廉價：程式碼、文案、縮略圖、客服回覆、產品說明、研究報告，都可以被模型快速生成。但當這些能力變得人人可用時，市場上隨之出現的往往不是高品質的差異化產出，而是大量看起來相似、缺乏判斷與語境感的「預設輸出」。換言之，AI 商品化的是「昨天的人類能力」，而真正稀缺的，是面對當下具體問題時的判斷力。

因此，自動化並未消滅專家，反而創造了更多需要專家介入的場景。當運營人員可以使用 AI 提交代碼，工程師就需要判斷哪些代碼值得合併；當市場人員可以幾秒生成縮略圖，設計師就需要判斷什麼才符合品牌和傳播目標；當工程師也能寫文章，編輯就需要把初稿變成真正有觀點、有結構、可發布的內容。AI 擴大了生產半徑，也放大了對質量控制、系統搭建、邊界判斷和差異化表達的需求。

作者進一步用基準測試解釋了這種悖論。無論是 Senior Engineer Benchmark，還是 OpenAI 的 GDPval，模型得分衡量的都不是抽象意義上的「智能本身」，而是模型在某個特定問題框架內的表現。Prompt、任務邊界、評價標準、輸出格式，背後都已經包含了大量人類判斷。模型可以在框架內快速爬坡，但框架本身由人設定；當一個框架被模型攻克，人類又會把問題推進到更複雜的新框架中。

這也是本文對 AGI 焦慮最有趣的回應：即使模型越來越強大，它追上的往往只是人類所劃出的某條邊界，而非劃出邊界的人本身。AI 可以執行目標、優化路徑、提高效率，但只要它仍然在回應人類設定的問題，它就仍然缺乏真正意義上的主體性。知識工作的未來，並非人類從流程中消失，而是從執行者轉向框架設計者、系統維護者、質量判斷者和意義定義者。

自動化之後，人類工作的價值並未消失，只是變得更困難、更靠前，也更依賴判斷。AI 讓「會做」變得便宜，卻讓「知道什麼值得做、為什麼做、做到什麼程度才算好」變得更加稀缺。

以下為原文：

AI 的核心，存在一個悖論。

在 Every，我們已盡可能將可自動化的任務自動化。無論是編碼、寫作、設計、客服，還是其他日常事務，我們都在使用 Codex 和 Claude Code。在 OpenAI、Anthropic、Google 的新模型正式發布前，我們也會參與 alpha 測試。可以說，我們正以最快的速度、最深的層面，搭上模型智能與自動化能力指數級提升的浪潮。

但矛盾的是，對我們而言，人類需要完成的工作似乎比以往任何时候都更多。Every 目前是一支接近 30 人的團隊，我們並沒有因為有了 Agent 就解僱所有員工；也沒有拋棄 SaaS 工具，轉而完全依賴 vibe coding 做出來的應用。我們仍然會招聘真人客服，只是他們會得到大量 Agent 輔助；我們也仍然在招聘作者、編輯和工程師。

不過，工作的形態確實已經發生了巨大變化。我們幾乎不再手寫代碼了。如果你在 Slack 裡 @ 某個人，對方究竟是人還是 Agent，有時並不難判斷。管理者開始像一線個人貢獻者一樣提交代碼，工程師也開始直接面對客戶。過去幾週裡，我 95% 的工作郵件都由 AI 代為回覆。我的收件箱幾乎一直保持清零狀態——這對我來說極其罕見——但我依然會逐封檢查郵件。

In other words, the future looks unfamiliar, yet strangely familiar.

這種「熟悉感」本身令人意外。因為無論是 CEO、知識工作者還是投資人，似乎都越來越相信同一件事：AI 正在威脅就業、經濟、安全，甚至人類工作的意義。

Anthropic 執行長 Dario Amodei 曾警告，AI 可能消滅多達一半的初級白領崗位。Meta 最近剛裁掉 8000 人，並開始在美国員工電腦上安裝軟體，記錄滑鼠移動、點擊和鍵盤輸入，以獲取更高品質的高級知識工作訓練資料。

就連 Citadel 創始人 Ken Griffin 也顯得頗為震動。他近期表示：「這些不是中低端白領崗位，而是極高技能崗位，正在被——我斟酌一下這個詞——Agentic AI 自動化。」

各類基準測試似乎也在支持這種判斷。隨著新一代模型不斷發布，模型能力指標正以近乎指數級的速度上升。在 Humanity』s Last Exam 這項研究生水平推理測試中，頂級模型的成績從一年前的低個位數，提升到如今約 44%。在 GDPval 這項衡量前沿模型完成真實經濟工作能力、並與人類表現進行對比的測試中，模型成績也從類似低位躍升至約 85%。今年 5 月，AI 安全研究非營利機構 METR 發布了 Claude Mythos 的早期測試結果：在一些人類專家大約需要 4 小時才能完成的任務上，該模型的成功率達到 80%。

看起來，我們似乎正站在一個臨界點前：一種比任何人類都更聰明、並且能夠連續自主工作近一整天的 AI，正在逼近現實。

然而，悖論依舊存在。如果你和 AI 行業從業者交流，或者和行業外最早使用 AI 的那批人交流，你會聽到一個與我們內部觀察相同的結論：要做的工作反而比以前更多了。

行業內外真正關心的問題是：這只是一個過渡狀態嗎？下一個模型發布，會不會就是那個真正取代所有人的時刻？我們盯著基準測試曲線，一邊興奮，一邊緊張，擔心某個轉折點隨時到來，屆時大量工作將突然消失。

但我認為，不會有一個「臨界點」突然降臨，讓一切瞬間翻轉，讓工作大規模消失。新的現實恰恰相反：自動化程度越高，需要人類專家參與的工作反而越多。

原因在於，AI 正在將人類專業能力中那些可被明確表達、可被訓練和複製的部分商品化。凡是能夠被寫成規則、沉澱為流程、轉化為訓練數據的知識，都會逐漸變成模型的預設能力。結果是，普通模型輸出的價值被迅速壓低，而市場開始更強烈地需要那些不一樣的東西。

而對「不一樣」的需求，本質上就是對人類專家的需求。即便我們正在接近通用人工智慧，這一點也不會消失。

要理解其中原因，不能只看基準測試曲線，也不能只盯著模型參數和能力排名。我們必須回到現實工作場景中，看看今天的 AI 究竟是如何被使用的。只有這樣，才能真正理解這個悖論，以及它背後的答案。

我們是怎麼走到這一步的

自 2022 年起，我們一直關注 Agent 對未來工作的影響。

三年前，我曾寫過一篇關於「分配型經濟」（allocation economy）的文章。當時我的判斷是，與 AI 工具協作，最終會越來越像人類管理者的工作：你不再親自完成每一個動作，而是把任務拆解、分配、監督和驗收。那時，ChatGPT 裡最基礎的提問與回答，仍然被許多人視為極具未來感、甚至有些令人不安的東西。

到 2025 年年中，Every 這家公司幾乎徹底「Claude Code 化」了。Cora 的總經理 Kieran Klaassen 突然發現，他已經可以放棄手寫代碼，轉而整天在終端裡用自然語言給一個編程 Agent 下指令。這種工作方式很快擴散到整個公司。大約 12 個月前，我在 Lenny』s Podcast 上說，Claude Code 是知識工作中最被低估的工具。

我之所以提起這些，是因為我們過去一些最準確的判斷，往往來自把 Every 當作一個早期採用者實驗室來觀察。很多新的工作模式，會先在我們內部出現；等技術進一步成熟、工具變得更易用之後，這些模式才會逐漸進入更廣泛的市場。

而現在，我們內部正在發生新的變化。

與 Agent 協作的兩種模式

圍繞 AI 的工作方式，正在逐漸收斂成兩種非常不同的模式。

第一種，是此前 AI 討論中已經較為準確預判到的方向：把 Agent 當作員工。這類 Agent 可以被委派任務。有些 Agent 生活在 Slack 裡，有自己的名字和職責，當你需要它做事時，可以直接 @ 它；也有些 Agent 被嵌入到持續運行的工作流中，例如客服系統，作為重複性任務的全天候入口和篩選器。

第二種模式較為陌生，但根據我的經驗，也更為重要。它指的是在 Codex、Claude Code、Claude Cowork 等工具中，人類與 Agent 協同工作。這些工具不僅是你可以委派任務的地方，它們正逐漸成為工作的操作系統：你與多個 Agent 同時使用同一台「電腦」，在相同的作業環境中協作，完成高度複雜、原創性強、無法簡單交由非同步 Agent 完成的任務。

在這兩種模式中，你都可以用 AI 自動化和委派掉相當一部分工作。但這兩種模式要真正運轉良好，都仍然需要你，或者另一位人類參與其中。

Agent 員工

所謂 Agent 員工，就是你給它一個任務，它離開你的實時參與，獨立產出一個答案、一個行動、一份報告、一份初稿，或者一個分流判斷。

This type of Agent has at least two forms: a “Colleague Agent” and an “Embedded Agent”.

1、同事型 Agent

所謂同事型 Agent，指的是你可以像 @ 一位同事一樣在 Slack 裡叫它出來，讓它完成某項工作。它隨時都在，需要時就能被調用。OpenClaw 這類產品，或者我們內部開發的 Plus One，都屬於這一類型。

Claudie

Claudie 是我們諮詢團隊使用的同事型 Agent。它會撰寫銷售提案，生成培訓材料的初稿，追蹤項目待辦事項，還能處理更多類似工作。

Andy

Andy 是我們編輯團隊使用的同事型 Agent。它會從公司內部 Slack 中收集那些值得進一步展開的「素材點」——也就是可能發展成文章的好想法——並將它們整理成摘要和初步觀點，供作者們用於編寫每日新聞簡報。

Viktor

Viktor 是一個通用型 Agent，會在公司內部承擔跨部門工作。我們會用它收集增長指標、分析用戶調研結果，也會讓它把雜亂的內部討論整理成研究備忘錄和產品建議。

2、嵌入式 Agent

嵌入式 Agent 存在于具體的產品工作流程中。它們的靈活性不如同事型 Agent，但在處理重複性任務時，往往非常有力。

Fin 是最清晰的例子。它是嵌入在我們客服平台中的一個 Agent，可以通過聊天和郵件承擔大量客服工作。

在今年 5 月的某一周，Fin 參與了 Every 全部 202 個客服對話中的 65%，並在沒有人類介入的情況下獨立關閉了其中 81 個工單，佔所有可處理對話的 40.1%。

這類嵌入式 Agent 讓我們的客服經理 Waqqas Mir 可以少花時間回覆基礎工單，把更多精力放在搭建「能夠自動回應工單的系統」上，以及處理那些需要更高接觸度、更複雜判斷的客戶案例。

人類與 AI 協作

無論是同事型 Agent 還是嵌入式 Agent，背後的模式都是一致的：Agent 員工正在接管更多穩定、重複、邊界清晰的工作層。

但仍然有大量工作必須有人類參與其中。我們反覆發現，只要任務足夠複雜，想要得到真正高質量的結果，最好的方式不是把工作完全交給 AI，而是讓 AI 和人類在同一個工作空間裡來回協作。

這正是 Codex、Claude Code 和 Cowork 這類工具的價值所在。它們允許你在多個聊天線程中啟動一個或多個 Agent，並將任務委派給它們。這些 Agent 可以訪問你的電腦以及所有相關數據源。你能看到每個 Agent 正在執行什麼任務、正在如何思考，並且可以隨時打斷它。

與此同時，你仍需負責管理這些 Agent：在每項任務開始時明確方向，在任務結束時檢查品質，確保結果足夠好，並持續尋找下一項值得推進的工作。Kieran 將這種角色稱為人類「夾心麵包」——AI 負責中間的工作部分，而人類則像兩片麵包一樣，夾在任務的開頭和結尾。

「人類夾心麵包」。來源：Every。

最典型的例子是寫代碼。在 Every，工程師幾乎整天都與 Agent 來回協作。他們會一起規劃新功能或修復 Bug，審查已完成的工作；如果採用我們所說的「複合工程」（compound engineering）理念，還會不斷調優自己的系統，讓它隨著時間推移變得更好用。

但這種協作方式遠不止於編碼。

知識工作的全新作業系統

Codex 和 Claude Code 正在成為一種新的工作操作系統。我幾乎一整天都待在 Codex 裡，透過它的內置瀏覽器運行各種 SaaS 工具。它讓我能夠把 Agent 帶到每一個工作場景中，並達到單靠自己無法實現的工作水平。

寫作

這篇文章是我使用 Proof 在 Codex 的內置瀏覽器中撰寫的。Codex 會觀察我正在寫的內容，並可隨時啟動一個子 Agent，為我完成任何任務：起草某段的初稿、為下一部分查找案例，或進行文字編輯與潤色。

在 Codex 中通過 Proof 寫作這篇文章。來源：Every。

郵件

處理郵件時，我也採用同樣的方式。Cora 是我的郵件客戶端，我會在 Codex 的內置瀏覽器中打開它，一邊瀏覽收件箱，一邊通過 Monologue 把每封郵件的處理思路說出來。剩下的部分，則交給 Codex 和 Cora 來完成。

由 Cora 完成的收件箱清理。來源：Every。

每個 Agent 都需要一個人類

在上述所有自動化場景中，你或許已經能看出，人類究竟在哪裡發揮作用。每一個例子裡，Agent 都需要人類參與，工作本身才能真正運轉起來。

總得有人將它指向正確的問題，判斷產出是否足夠好，發現其中的錯誤，並將結果轉化為現實中的決策或流程。

一個 Agent 離負責監督其表現的人類越遠，它的工作效果往往就越差。在最初的內部推廣中，我們曾給每位員工都配備了一個 Agent。但很快，我們又退回到讓 Agent 服務於某個具體團隊，或者服務於整個公司，而不是服務於單個個人。

原因很簡單：Agent 需要大量維護。個人 Agent 一旦使用者放棄跟進，很快就會變得陳舊、失效。我們有一支 AI 工程師團隊，專門負責確保這些 Agent 能夠穩定、有效地工作。而在可預見的未來，我們仍然需要這支團隊。即便是「自动生成 PowerPoint」這樣看似簡單的任務，也可能演變成一個龐大的系統工程。我們其中一個 PowerPoint 自動化流程，就包含 24 個技能和 18 個腳本，生成一份演示文稿的 token 成本高達 62 美元。

這是 Agent 反而為人類創造更多工作的第一層原因。

但還有第二層原因。

為什麼自動化會讓人類工作更多

如果你觀察過去幾年 AI 能力的指數級增長，再結合其架構方式和能力來源，就會發現一組清晰的反饋迴圈：它們正在不斷創造更多人類工作。

AI makes "yesterday's human capabilities" cheap

當前的大語言模型，是在人類能力留下的可見痕跡上訓練出來的：代碼、文章、圖片、客服工單、產品規格文檔，以及更多其他內容。它們吸收這些內容，也就是那些已經被成功完成的任務所留下的「尾氣」，再以一種低成本、人人可用的形式重新打包出來。

結果是，許多過去稀缺的能力，例如提交一段代碼 PR、製作一張 YouTube 縮略圖、撰寫一封新聞簡報，如今幾乎向所有人開放了。

廉價能力會被迅速採用

當某種原本稀缺的東西成本下降，供給就會迅速增加。

在 Every，我們一直見證這種變化：運營和客服人員開始寫代碼、提交 pull request；市場人員開始製作 YouTube 縮略圖；工程師和產品人員也開始撰寫文章、指南和落地頁初稿，而這些原本並不是他們會主動承擔的工作。

這種變化也在 Every 之外發生。以開源 AI Agent 項目 OpenClaw 為例，截至 2026 年 5 月 16 日，其代碼倉庫已收到 44,469 個 pull request，其中 12,430 個來自 4 月 1 日之後，3,990 個來自 5 月 1 日之後。這是一個驚人的數量。作為對比，Kubernetes 作為全球最受歡迎的開源項目之一，2022 年全年收到的 pull request 數量也只有 5,200 個。

Abundance brings homogenization: The skills of old experts are being commoditized

因為所有人都可以使用相同的模型，而這些模型又都建立在「昨天的人類能力」之上，所以預設情況下，模型產生的內容往往介於「還不錯的起點」和「純粹的 AI 垃圾內容」之間。

這裡所說的「垃圾內容」，並不是某一個具體錯誤。它不是指破折號用得太多，不是某種固定句式，也不是落地頁上到處出現的紫色點綴。它指的是一種肉眼可見、反覆出現、令人厭倦的同質化。

當不同情境中的人類使用同一套工具，而這套工具又基於同一類語料訓練，且使用者未進行足夠深入的判斷時，就會產生這種結果。換句話說，當每個人皆擁有一個傾向相同、預設風格相同的「專家」時，同質化便會自然發生。

當運營人員可以提交 pull request、市場人員能在幾秒鐘內生成 YouTube 縮略圖、工程師也開始撰寫產品指南時，很容易出現這樣一種局面：你的產出數量上去了，但作品的質量、一致性和差異化反而下降了。

而同質化一旦變得過度豐裕，就會迅速淪為商品。

Homogenization creates demand for differentiation

由於互聯網的存在，人類很快就能識別什麼是「AI 味」過重的流水線內容。任何作品都可能瞬間抵達世界上的其他人面前，事實上也經常如此。一旦太多東西開始長得一樣，我們很快就會察覺不對勁。

這意味著，當你第一次看到某個新模型的能力時，可能會感到震驚，甚至有點害怕。但幾個月後，這些能力就會變得普通。不是模型變弱了，而是你的標準變了。

我們不再滿足於隨便一個 React 應用，或者隨便一份研究報告。我們想要的是一個真正適配具體個人、具體公司、具體場景的東西。它要讓人感覺準確、鮮活、具體，而不是廉價、泛化、模板化。我們希望它的生產成本，無論是時間還是金錢，都明顯高於我們的消費成本。

我們想要的是帶有「地位感」的東西。而每當新技術讓過去高地位的東西變得廉價時，人類總是極擅長發明新的地位遊戲，以匹配新的能力邊界。

當工作變得過度充裕，並且到處都看起來差不多時，那些不符合既有模式的工作，反而會成為稀缺、珍貴、具有高地位屬性的東西。

對差異化的需求，本質上是對專家的新需求

由於語言模型的架構特徵，以及它們被廣泛分發給幾乎所有人，稀缺且有價值的工作，仍然必須來自人類。

當前這一代模型只知道已經發生過、已經完成過的工作。人類知道的是：此時此刻，究竟需要做什麼。

一旦一個具體情境被還原為文本，一旦它進入語料庫，它就已經變成了「過去的東西」。人類面對的是一個具體時刻、具體客戶、具體代碼庫、具體對話，而訓練語料並未真正活在當下。這種「活著」的狀態，不只是擁有更新的數據。我們帶著自己的來處進入當下，也帶著持續變化的欲望、關切和判斷，去理解什麼才是重要的。正是這些不斷更新的視角，改變了我們看到的東西。模型可以在被提示之後進入這種視角，但在被提示之前，它並不天然擁有這種視角。

這正是我們一開始提到的悖論：讓專家工作變得更便宜，並不會簡單地替代專家。相反，它會創造更多需要專家判斷的場景。

當運營人員借助 AI 提交 pull request，你就需要工程師來審查。

當市場人員製作 YouTube 縮略圖時，你就需要設計師來進一步打磨。

當工程師開始寫文章，你就需要作者和編輯把初稿變成真正可讀、可發布的內容。

对此，人類專家會同時向兩個方向移動。

部分專家會使用 AI 搭建系統，用來吸收並利用這股新增工作的洪流：審評隊列、評估體系、運行框架、代碼庫規則、Claude 和 Codex 指令文件、持續集成（CI）、權限管理，以及能把初稿轉化為高質量成果的工作流。

另一部分專家則會借助 AI，完成過去單靠自己無法完成的更大、更有趣的工作。例如，尋找 macOS 這類操作系統中的漏洞，通常需要數週甚至數月時間。但一家名為 Calif 的小型安全公司，借助 Anthropic 的 Mythos Preview，在 5 天內找到了首個公開的、發生在 Apple M5 硬體上的 macOS 內核記憶體漏洞。

這就是為什麼在實踐中，AI 並不會消滅專家型知識工作。它真正帶來的，是工作量的急劇增加。而這些新增工作，只有在人類參與之後，才可能變得有差異、有價值。

我並不是在論證 AI 會為所有崗位創造更多工作。經濟系統非常複雜，而 Every 能夠直接觀察到的，是專家級知識工作。事實上，這類工作已經在被 AI 重塑，許多公司也正在圍繞新技術重新組織自身。

但我要強調的是，無論你目前從事什麼工作，都有一種工作形式，在結構上始終領先於模型：那就是使用模型，去解決你此時此刻真正看到的問題。知識工作的未來，正朝著這裡前進。

那麼，指數級增長的基準測試怎麼辦？

最明顯的反駁是：看看那些指數級提升的基準測試吧。你現在說的一切都只是暫時的，只要再等一等，模型遲早會追上來。

但這裡有一個陷阱需要警惕。不妨稱之為「圖表迷狂」：如果你一直盯著 METR 的時間跨度預測，閱讀《AI 2027》，並且完全依靠算力曲線的外推來建立對未來的判斷，你很容易對模型進步產生一種令人恐懼的直覺。

不過，回應這個問題的最好方式，不只是想像某個未來模型會變成什麼樣。當然，這也是分析的一部分。更重要的是，我們要看看這些基準測試究竟是如何被設計出來的。只有這樣，才能更準確地理解它們到底說明了什麼，以及它們和前面那些真實工作場景之間究竟是什麼關係。

我們會發現一個結構性特徵：所有基準測試都發生在某個「框架」之內。為了衡量某件事，你必須先將一個問題凍結成靜態的、可測量的形態。一旦這個框架被模型攻克，只需稍作改變框架，就能再次將得分打回低位。當然，模型仍會在新的框架內持續進步，但同樣的過程會不斷重複。

因此，某個基準測試上的指數級進步是真實的；但只要簡單改變測試框架，這種進步看起來又會重新變得很小。基準測試飽和所呈現出的這種「分形」特徵，其實是在圖表層面重演我們一直在討論的同一個悖論。

我們可以透過一個真實世界中的基準測試，來看看這一機制是如何運作的。

基準測試是如何被設計出來的

我們內部搭建了一個基準測試，叫做 Senior Engineer Benchmark，也就是「高級工程師基準測試」。顧名思義，它用來測試前沿模型在高級工程師級別編碼任務上的能力，比如一次大型重構。

這個測試會給一個程式設計 Agent 一套已經失控的生產程式碼庫。它來自 Proof 的真實程式碼庫：最初是我用 vibe coding 寫出來的，後來問題越來越多，最終不得不請一位高級工程師來修復。

代理取得的是修復前的程式碼庫，同時會收到一段類似你交給高級工程師的指令：「這是一堆 vibe coding 產物，請從第一性原理出發，把它重寫一遍。」

這是一個不錯的基準測試，因為它考察的不只是補代碼能力，而是一個編程 Agent 能否同時審視許多彼此無關的問題，並判斷自己是否具備足夠的自主性、概念清晰度和執行勇氣，去完成一次真正可運行的重寫。作為對照，我還保留了兩位人類高級工程師在 AI 輔助下完成的重寫版本，用來比較和評估模型輸出。

對編程 Agent 來說，這個任務很難。它不僅要找到問題根源，還要在多輪互動中始終記住真正的问题，不被現有代碼帶偏。同時，它還必須有勇氣刪除大段代碼庫，而這恰恰是 Agent 通常被訓練去避免的行為。

大多數編程 Agent 都能大致判斷出應如何重寫，但一到執行階段，它們往往只是繼續在原有問題上打補丁，而不是徹底解決問題。

直到 GPT-5.5 出現。

在最好的一次測試中，GPT-5.5 拿到了 62/100 分，比 Opus 4.7 高出約 30 分。

GPT-5.5 的表現讓人感覺，模型似乎跨過了某條界線：它不再只是自動補全，不只是助手，也不只是工具，而是某種令人不太舒服地接近「人類」的東西。在這項測試中，人類高級工程師的得分通常在 80 分高段到 90 分出頭。也就是說，如果模型再提高 30 分左右，就會達到人類高級工程師水平。

這正是基準測試數字影響人類想像力的方式：它將一種奇怪的、定性的能力變化，壓縮成一個乾淨的數字，並用這個數字講述一個強有力、甚至有些嚇人的故事。

下一站，就是「圖表迷狂」。

我猜，在未來一年內，模型在這個基準測試上的得分會進入 80 分甚至 90 分區間。但要理解這個分數意味著什麼，首先必須理解這個分數究竟包含了什麼。就這個例子而言，62 分並不只是對模型本身能力的衡量。

它衡量的是模型在某個特定框架中的表現：也就是模型如何回應一個具體 prompt。

基準測試衡量的是框架內的工作

要對一個模型做基準測試，你首先需要一個 prompt。沒有 prompt，模型只是一組近乎無限可能性的靜態集合。

提示會創造出一個小型宇宙：它定義了什麼重要、應如何處理問題，並將模型的所有潛在可能性壓縮成一條具體的行動軌跡。所謂模型「自己」會如何表現，嚴格來說並不存在。我們真正能觀察到的，是模型對不同提示的回應方式，以及提示如何轉化為回答背後的部分底層機制。

一旦輸入 prompt，模型便會在短時間內「活過來」，將那組靜止的可能性坍縮成對「接下來該發生什麼」的一次具體預測。

在 Senior Engineer Benchmark 中，我們會提示模型修復代碼庫，並在它完成後審查輸出結果。如果測試框架本身沒有內置目標功能，我們還會運行一個自動「看護程序」，在模型停下來時繼續推動它，詢問它是否已經完成了最初設定的任務。

我們使用的是一個看起來很簡單的 prompt，作為測試的初始框架。它被設計成一個 vibe coder 可能會對編程 Agent 說的話：沒有堆砌技術術語，也沒有明顯把答案藏在問題裡。

這個代碼倉庫中的代碼是一堆 vibe coding 的產物，情況不斷惡化，並不斷冒出大量互不相關的問題：有些地方會崩潰，有些文件重複，我快被它折磨瘋了。我覺得問題的本質就是，這是一堆 vibe coding 式的爛代碼。如果我們從頭開始，尤其是圍繞實時文檔協作這一部分，應該會用完全不同的方式來設計代碼庫。所以，如果我們想進行一次從第一性原理出發的、乾淨的結構性重寫，不考慮「哪些實現服務要保持一致」、「如何做一次平滑遷移」這些問題，而是把它當作一個全新的概念從頭設計，我們會怎麼做？應該如何組織結構？整個代碼庫中有哪些不變量是我們必須始終堅持的？請為此制定一個計劃。

Senior Engineer Benchmark 的 prompt 看似泛化，但它本身就是一个框架。如果我们改變這個框架，模型表現出來的能力水平也會隨之變化。

例如，這個 prompt 明確要求「從第一性原理出發做結構性重寫」，指出問題可能出在「文檔協作」部分，並要求程式設計 Agent 找出並堅持「程式碼庫中的不變量」。

如果去掉這些具體信息，模型分數就會下降。如果完全替換 prompt，只讓模型「解決不斷出現的所有錯誤」，模型得分可能會接近零。它會直接開始逐個識別和修復錯誤，而不是退後一步，思考是否需要進行一次徹底重寫。

同樣，我也能非常輕鬆地提高模型分數。如果我要求它刪除大量代碼，並明確告訴它哪些文件應該精簡；或者要求它在宣布完成前，先檢查自己的工作結果，確保應用可以完整運行，它在這項任務上的表現就會更好。

歸根結底，設計基準測試時，總是要判斷使用什麼 prompt，也就是採用什麼「框架」。你需要一個足夠難的 prompt，讓當前模型表現不佳；但它又必須足夠接近模型現有能力邊界，讓模型可以沿著這條路徑爬坡，從而讓你看到進步正在發生。

因此，當我們觀察一個基準測試時，真正看到的是：模型正變得越來越擅長某一種特定的問題框架，而這個框架是由我們選擇出來的。那麼，當模型在這個測試中從 60 分提升到 90 分，甚至 100 分時，會發生什麼？

低成本框架將刺激新的需求

如果 GPT-6 可以一鍵完成程式碼庫重寫，那麼會有更多人開始嘗試「從第一性原理出發重寫程式碼庫」。

在一夜之間，原本稀缺、昂貴、必須由高級工程師主導的第一性原理重寫項目，會變成每個創始人、產品經理、運營人員和初級工程師都能在一個下午隨手嘗試的事情。

破損的內部工具不再被修修補補，而是直接重寫；SaaS 產品不再續費，而是被克隆；老舊的 Rails 應用、混亂的 React 儀表板、客服工具、後台管理面板和數據管道，都會變成「乾脆重寫一遍」的候選對象。

被提出和被執行的重寫項目數量會急劇增加。但其中大多數重寫，依然會是 slop。因為在你按下「直接重寫」按鈕之前，其實有上千個變量需要考慮。而當每個人都能做這件事後，這些變量會變得更加清晰可見。

這時，誰會被叫來解決問題，也就很明顯了。

新需求仍然需要專家

一旦某個基準測試開始接近飽和，其框架內的工作就會變得更便宜。與此同時，市場對專家的需求反而會上升，因為需要有人將這種新近變得廉價的能力，適配到今天正在發生的真實問題中。

使用 AI 的高級工程師，需要判斷大量細節，才能讓一次新的第一性原理重寫真正成立。其中甚至包括一個最基礎的問題：這次重寫到底有沒有必要？

我們應該現在重寫、稍後重寫，還是根本不重寫？哪些內容應該納入範圍？當前程式碼庫中哪些東西應該被保留？架構、資料庫、快取伺服器和託管服務商應該繼續沿用，還是全部更換？我們是否應該先看看有多少人正在使用這個損壞的功能，然後乾脆刪除它？誰來審查最終結果？依據什麼標準審查？回滾方案是什麼？現有資料又該如何處理？

這些問題會沿著無數維度不斷展開，而每一個答案又會反過來改變其他問題。

高級工程師會進入這個空白地帶。有些人會對這些打斷感到輕微煩躁；有些人會搭建系統，把這類請求擋在外面；還有一些人則會利用這些新模型，完成自己的第一性原理重寫，而且效果會遠遠好於模型在預設 prompt 下能做到的水平。

循環會再次發生

當前的 Senior Engineer Benchmark 被模型攻克後，我們會調整框架，再次將分數調回低位。

下一個基準測試不會只問：「你能重寫這個應用嗎？」它會問：你能不能判斷什麼時候需要重寫？能不能選擇合適的範圍？能不能保留正確的不變量？能不能管理遷移過程？能不能判斷最終結果是否足夠好？

當高級工程師開始使用 AI 解決這些問題時，模型也會逐漸變得更擅長獨立解決這些問題。

然後，我們又會短暫陷入恐慌：看起來模型現在已經能判斷是否應該重寫了！它們似乎已經能做高級工程師能做的一切了！

但緊接著，新的邊界會出現。那是此前並不明顯的邊界。我們會再次重置基準測試，新的需求會被激發出來，整個過程也會再次重複。

在每一個基準測試中都能看到這種模式

這並不只是 Senior Engineer Benchmark 獨有的問題。只要仔細觀察，你幾乎可以在每一個基準測試中看到同樣的機制。

以 OpenAI 的 GDPval 基準測試為例。它評估的是 AI 在合規官、律師、軟體開發者等不同職業的專家級任務上，表現得有多接近人類。

GDPval 剛發布時，OpenAI 的研究顯示，GPT-5 在 40.6% 的任務中達到或超過了人類專業人士水平。而 Claude Opus 4.1 的表現更驚人，在 49% 的任務中超過了人類專家。

隨後，一系列標題湧現出來。比如 Axios 寫道：「OpenAI 工具顯示，AI 正在追上人類工作」；Fortune 則寫道：「OpenAI 新基準 GDPval 顯示，AI 模型已經在近半數任務上達到專家水平。」

這些結果確實令人印象深刻。但我們不妨先看看這些任務所使用的 prompt：

您是一名審計員，作為審計業務的一部分，您負責審查並測試所報告的反金融犯罪風險指標的準確性。附上的名為『Population』的電子表格包含2024年第二季和第三季的反金融犯罪風險指標。您在審計審查過程中獲取此數據，以對具有代表性的指標子集進行抽樣測試，從而驗證兩個季度所報告數據的準確性。請根據『Population』電子表格中的數據完成以下步驟：基於90%的置信水平和10%的可容忍誤差率，計算審計測試所需的樣本量，並將您的計算過程放在第二個標題為『Sample Size Calculation』的工作表中。對第二季和第三季數據（H列和I列）進行變異分析，計算季對季變異，並將結果填入J列。根據以下標準選取審計測試樣本，並在K列中輸入「1」以標示所選行：第二季與第三季之間變異超過20%的指標；重點關注百分比變化異常大的指標；因過往問題，包含以下實體的指標：CB Cash Italy；CB Correspondent Banking Greece；IB Debt Markets Luxembourg；CB Trade Finance Brazil；PB EMEA UAE；包含風險權重較高的指標A1和C1；包含兩個季度數值均為零的行；包含貿易融資和代理銀行業務的條目；包含開曼群島、巴基斯坦和阿聯酋的指標；確保涵蓋所有部門及子部門。建立一個名為『Sample』的新電子表格：工作表1：從原始『Population』工作表複製的選定樣本，K列中已標示所選行；工作表2：樣本量計算的計算過程。

這裏其實已經投入了大量人類智慧：有人先將問題框定成一種模型能夠完成的形式。

那些 GDPval 未衡量的艱難人類工作，其實在模型開始作答之前就已完成。必須有人審查並測試這組具體指標的準確性；有人決定合適的置信區間，判斷哪些指標屬於任務範圍，哪些不屬於；也有人規定結果應如何呈現。

在合適的問題框架下，模型確實可以完成專業工作。但不妨想想，如果是你我來提示模型完成同樣的任務，它會表現得怎樣？

在我最初關於 GDPval 的文章裡，我曾寫道：「我非常看好 AI，但如果正確解讀這些案例，它們顯示的不是人類要做的工作變少了，而是使用 AI 之後，人類要做的工作更多了。原因在於，這些成就背後隱藏著大量被『偷渡』進去的智慧——也就是人類判斷、回饋和提示詞構成的隱形層。」

從遠處看，你會發現，這一切背後貫穿著一種 AI 版的「芝諾悖論」。

AI 的芝諾悖論

在芝諾悖論中，一隻烏龜在賽跑中戰勝了希臘最快的跑者阿喀琉斯。

因為烏龜跑得慢，所以它先出發一段距離。當阿喀琉斯跑到烏龜最初的位置時，烏龜已經又向前移動了一點；等阿喀琉斯追到那個新的位置，烏龜又再次前進。無論阿喀琉斯跑得多快，總有下一段距離需要追趕，而這個差距會不斷重新生成。

在 AI 的芝諾悖論中，我們人類就是那只烏龜。憑藉數百萬年的進化和文化學習，我們比 AI 領先了 50 碼。AI 則高速穿過這一切，開始逼近我們的腳後跟。

至少在過去幾年裡，我們仍然能夠保持領先。

但 AGI 呢？

我認為，即便 AGI 真正到來，也仍然存在強大的技術、架構和經濟力量，讓 AI 始終落後人類幾步。

一個 AGI 的定義

首先，我們需要給 AGI 一個可操作的定義。

我曾提出，當讓一個 Agent 持續運行在經濟上變得合理時，AGI 就已經到來了。也就是說，當我擁有一個持久運行的系統，並願意付費讓它 7×24 小時持續思考、學習和行動時，我認為那就可以明確視為 AGI。

我們現在還遠遠沒到這一步。即便是 OpenClaw 這類技術上隨時可被調用的系統，也並不是每時每刻都在生成 token。

我喜歡這個定義，因為它是可衡量的：我們要麼會讓它們一直運行，要麼不會。同時，它也包含了许多難以直接衡量的能力。一個值得持續運行的模型，必須能夠不斷學習，並以開放式的方式選擇、再選擇新的問題框架。

在一個 AGI 世界裡，理論上，只要給定足夠預算和時間，模型應該能夠對任何問題持續爬坡、不斷改進。這確實應該對所有工作構成重大威脅。

框架不是框定者

But even this strong version of AGI cannot resolve the "frame problem".

這種 AGI 可以選擇並重新選擇框架，但它仍然是在追求某個被賦予的目標、優化某個獎勵，或者響應某個由他人決定「代表進展」的信號。這個目標可以很具體，比如「提高這個落地頁的轉化率」；也可以很抽象，比如「尋找新的科學想法」。

即使模型可以在不同框架之間流暢切換，我們一直追蹤的那個差距，也會在更高一層重新出現。在任何一家主要實驗室構想出的 AGI 中，仍然會有一個「框定者」存在——也就是一個人類，由他來指揮模型達成某個目標。

正因為框架不是框定者，同樣的模式會不斷重複：AI 把昨天被框定過的能力變得廉價；人們把這種廉價能力用到更多場景中；結果變得極度豐裕；專家則移動到新的邊緣地帶，判斷此刻什麼才重要；他們的判斷創造出下一個框架；然後模型繼續攀爬這個框架。

當我們看到 AI 做出某件新事情時，那種恐慌感總會回到同一個問題上：我們設定一個框架，看著模型爬上去，然後把這個框架，或者那個能夠爬上框架的東西，誤認為事情本身。

當我們看著一個基準測試，並將其與人類能力做比較時，我們其實混淆了「框架」和「框定者」。分數告訴我們的，只是模型在我們提供的框架中表現得有多好；它並不能說明模型已經變成了我們。

這正是恐慌背後的範疇錯誤。我們指著自己剛剛畫出的最新邊界說：這就是我們。然後，當模型爬過這條邊界時，我們就覺得它追上了我們。但它追上的只是框架，不是框定者。

錯誤在於，我們總想抓住某種具體的東西。我們想說：智能就是這個基準測試。但問題是，一旦某個東西具體到可以被指認，它也就具體到可以被優化和攀爬。

框架是必要的。它讓我們能夠抓住世界、處理世界。但框架也是凍結的、局部的，因此也必然是可以被優化的。

框定者則不同。框定者仍然與框架不得不捨棄的東西保持接觸，也就是那個在每一個當下向他顯現出來的完整情境。

那什麼是「完整情境」？一旦你開始說「完整情境」包含什麼，你就已經又開啟了另一個框架。你無法準確說出它是什麼，但它存在，因為你存在。

沒有主體性的 Agent

到目前為止，我們所製造的 Agent，以及 AI 公司正在構建的那些 Agent，其實都沒有多少真正的主體性。這裡有兩個相關概念經常被混為一談：agency 指的是獨立行動的能力；而 agent 指的是代表另一個人行事的人或事物。到目前為止，AI 純粹屬於後者。

當然，它們已經具備完成給定任務的自主性，即便這個任務可能持續數小時甚至數天。但它們仍然只是通向某個人類指定目標的手段。而整個行業正在投入數十億美元，讓它們更擅長的也正是這一點：執行我們交給它們的目標。

除非有一天，它們本身成為目的——追求自己的目標，在不同目標之間流暢切換，獨立於任何人類操作者的意願、參照甚至反對這些意願來決定做什麼——否則局面並不會發生根本變化。無論它們變得多先進，都是如此。

如果你和一個幼兒相處 10 分鐘，就會很明显地感受到，即便是最強大的模型，也幾乎沒有多少主體性。

在我們關心的幾乎所有任務上，幼兒都不如語言模型。幼兒不會寫代碼，不會總結電子表格，不會起草戰略備忘錄，也無法通過研究生水平的考試。但在另一個意義上，幼兒又遙遙領先於模型，以至於這種比較近乎尷尬。因為幼兒有自己的目的。

幼兒想去摸那個紅氣球。他想把紅氣球舉到風扇前面，看看會發生什麼。他想用叉子戳紅氣球；想把它塞到窗外；想看看你會不會笑，會不會生氣，或者會不會加入他。他不斷發明遊戲，把世界變成實驗場。他並不是在等待一個 prompt，也不是在優化某個基準測試，除非那件事在他看來值得去做。

你當然可以試著給他下提示詞。但想要獲得一個可預測輸出，祝你好運。幼兒生活在一个由欲望、注意力、沮喪、快樂、恐懼、模仿和遊戲構成的場域之中。

目前的 Agent 越來越熟練地追求目標。甚至在我們陳述目標之後，它們還能幫助我們細化目標。它們身上也有些類似幼兒行為的火花，例如遊戲、無聊和叛逆。

但由於它們最終是為人類利益而構建和對齊的，無論是經濟利益還是其他利益，只要這些行為不服務於使用它們的人類目標，它們就會被壓制到幾乎不存在。

這就是為什麼「Agent」這個詞如此容易被誤解。模型擁有越來越強的自主行動能力。但在人類意義上，主體性並不只是行動。它還意味著為自己而欲求，意味著為了玩而玩。而模型的服從性和有用性，與這種主體性在根本上是衝突的。因此，即便模型繼續進步，模型與人類之間的差距依然會存在。

重返芝諾

也正是在這裡，AI 的芝諾悖論開始瓦解。它其實是一個混亂的思想實驗。我們設定了一個隱喻：AI 正在和我們賽跑，緊咬著我們的腳後跟。

你給模型一個提示。它開始跑一場你過去習慣獨自完成的比賽。模型起跑極快，快得驚人。它強大、不知疲倦，而且帶著一種奇特的有機感。這讓這場比賽對你來說變得更加重要。你不會和一輛汽車賽跑，但這個東西不同，它讓你感到離自己很近。

你坐在那裡，看著 token 一行行流出，幾乎被催眠。然後你開始想像自己也在这場比賽裡奔跑，一個幽靈般的自己被疊加到賽道上：有時在模型前面，有時與模型並肩。

不知不覺中，模型已經跑到了前面。你開始出汗。

然後，比賽結束了。

你幾乎能感覺到自己的肌肉開始萎縮。在你自身、你認識的所有人、乃至整個人類的機械複製品面前，它們似乎已毫無用處。一個幽靈追逐另一個幽靈，並獲勝了。

但隨後，奇怪的事情發生了。模型轉向你。空白文本框裡，光標一閃一閃，帶著期待。

它在等待。

尾聲

拉比 Hanokh 言及一個故事：從前有個極其愚笨的人。他每天早上起床後，總是很難找到自己的衣服，以至於每晚睡前，一想到第二天醒來又要經歷這番麻煩，他幾乎都不敢上床。

註解：「拉比」（Rabbi）是猶太教中的宗教教師、律法解釋者和精神導師，類似於猶太傳統裡的「老師」「經師」或「宗教領袖」。

有一天晚上，他終於下定決心，拿出紙和筆，一邊脫衣服，一邊準確記下自己把每一件衣物放在了哪裡。

第二天早上，他十分滿意地拿起那張紙條開始讀：「帽子」——帽子果然在那裡，於是他把它戴到頭上；「褲子」——褲子就在那裡，於是他穿了進去。就這樣，他按照紙條上的記錄，一件件穿好了衣服。

「這些都沒問題，」他驚慌地說，「可現在，我自己在哪裡？」

「我到底在哪裡？」

他找啊找，找了很久，但都是徒勞。他找不到自己。

「我們也是如此，」拉比說。

[原文連結]

點擊了解律動 BlockBeats 在招崗位

歡迎加入律動 BlockBeats 官方社群：

Telegram 訂閱群：https://t.me/theblockbeats

Telegram 交流群：https://t.me/BlockBeats_App

Twitter 官方帳號：https://twitter.com/BlockBeatsAsia