自動化之後
原文作者:Dan Shipper,Every CEO
編譯:Peggy,BlockBeats
編者按:最近,關於 AI 與工作的討論幾乎被一個問題主導:模型能力持續提升,白領崗位是否會被大規模替代?從程式碼生成、客服自動化到內容生產,Agent 正在不斷接管那些原本需要人類完成的知識工作。基準測試也在不斷強化這種焦慮:模型在研究生級推理、真實經濟任務和高級工程師級程式碼重構中的表現快速提升,似乎正在逼近一個「人類工作被自動化吞噬」的臨界點。
但 Every CEO Dan Shipper 在這篇文章中提出了相反的觀察:越是自動化,人類要做的工作反而越多。Every 是 AI Agent 的深度使用者,內部已將 Codex、Claude Code、Slack Agent、客服 Agent 等工具嵌入編碼、寫作、設計、客服和管理流程。但結果並不是員工被全面替代,而是工作形態發生了重組:工程師不再只是寫代碼,而是審查、重構和設計系統;編輯不再只是寫稿,而是判斷什麼值得寫、如何寫得不一樣;客服人員不再處理每一张基礎工單,而是維護一個能夠自動回應客戶的系統。
這篇文章最值得關注的,不是「AI 能否完成某項任務」,而是它重新定義了人類在知識工作中的位置。AI 擅長的是將過去已沉淀的能力變得廉價:程式碼、文案、縮略圖、客服回覆、產品說明、研究報告,都可以被模型快速生成。但當這些能力變得人人可用時,市場上隨之出現的往往不是高品質的差異化產出,而是大量看起來相似、缺乏判斷與語境感的「預設輸出」。換言之,AI 商品化的是「昨天的人類能力」,而真正稀缺的,是面對當下具體問題時的判斷力。
因此,自動化並未消滅專家,反而創造了更多需要專家介入的場景。當運營人員可以使用 AI 提交代碼,工程師就需要判斷哪些代碼值得合併;當市場人員可以幾秒生成縮略圖,設計師就需要判斷什麼才符合品牌和傳播目標;當工程師也能寫文章,編輯就需要把初稿變成真正有觀點、有結構、可發布的內容。AI 擴大了生產半徑,也放大了對質量控制、系統搭建、邊界判斷和差異化表達的需求。
作者進一步用基準測試解釋了這種悖論。無論是 Senior Engineer Benchmark,還是 OpenAI 的 GDPval,模型得分衡量的都不是抽象意義上的「智能本身」,而是模型在某個特定問題框架內的表現。Prompt、任務邊界、評價標準、輸出格式,背後都已經包含了大量人類判斷。模型可以在框架內快速爬坡,但框架本身由人設定;當一個框架被模型攻克,人類又會把問題推進到更複雜的新框架中。
這也是本文對 AGI 焦慮最有趣的回應:即使模型越來越強大,它追上的往往只是人類所劃出的某條邊界,而非劃出邊界的人本身。AI 可以執行目標、優化路徑、提高效率,但只要它仍然在回應人類設定的問題,它就仍然缺乏真正意義上的主體性。知識工作的未來,並非人類從流程中消失,而是從執行者轉向框架設計者、系統維護者、質量判斷者和意義定義者。
自動化之後,人類工作的價值並未消失,只是變得更困難、更靠前,也更依賴判斷。AI 讓「會做」變得便宜,卻讓「知道什麼值得做、為什麼做、做到什麼程度才算好」變得更加稀缺。
以下為原文:
AI 的核心,存在一個悖論。
在 Every,我們已盡可能將可自動化的任務自動化。無論是編碼、寫作、設計、客服,還是其他日常事務,我們都在使用 Codex 和 Claude Code。在 OpenAI、Anthropic、Google 的新模型正式發布前,我們也會參與 alpha 測試。可以說,我們正以最快的速度、最深的層面,搭上模型智能與自動化能力指數級提升的浪潮。
但矛盾的是,對我們而言,人類需要完成的工作似乎比以往任何时候都更多。Every 目前是一支接近 30 人的團隊,我們並沒有因為有了 Agent 就解僱所有員工;也沒有拋棄 SaaS 工具,轉而完全依賴 vibe coding 做出來的應用。我們仍然會招聘真人客服,只是他們會得到大量 Agent 輔助;我們也仍然在招聘作者、編輯和工程師。
不過,工作的形態確實已經發生了巨大變化。我們幾乎不再手寫代碼了。如果你在 Slack 裡 @ 某個人,對方究竟是人還是 Agent,有時並不難判斷。管理者開始像一線個人貢獻者一樣提交代碼,工程師也開始直接面對客戶。過去幾週裡,我 95% 的工作郵件都由 AI 代為回覆。我的收件箱幾乎一直保持清零狀態——這對我來說極其罕見——但我依然會逐封檢查郵件。
In other words, the future looks unfamiliar, yet strangely familiar.
這種「熟悉感」本身令人意外。因為無論是 CEO、知識工作者還是投資人,似乎都越來越相信同一件事:AI 正在威脅就業、經濟、安全,甚至人類工作的意義。
Anthropic 執行長 Dario Amodei 曾警告,AI 可能消滅多達一半的初級白領崗位。Meta 最近剛裁掉 8000 人,並開始在美国員工電腦上安裝軟體,記錄滑鼠移動、點擊和鍵盤輸入,以獲取更高品質的高級知識工作訓練資料。
就連 Citadel 創始人 Ken Griffin 也顯得頗為震動。他近期表示:「這些不是中低端白領崗位,而是極高技能崗位,正在被——我斟酌一下這個詞——Agentic AI 自動化。」
各類基準測試似乎也在支持這種判斷。隨著新一代模型不斷發布,模型能力指標正以近乎指數級的速度上升。在 Humanity』s Last Exam 這項研究生水平推理測試中,頂級模型的成績從一年前的低個位數,提升到如今約 44%。在 GDPval 這項衡量前沿模型完成真實經濟工作能力、並與人類表現進行對比的測試中,模型成績也從類似低位躍升至約 85%。今年 5 月,AI 安全研究非營利機構 METR 發布了 Claude Mythos 的早期測試結果:在一些人類專家大約需要 4 小時才能完成的任務上,該模型的成功率達到 80%。
看起來,我們似乎正站在一個臨界點前:一種比任何人類都更聰明、並且能夠連續自主工作近一整天的 AI,正在逼近現實。
然而,悖論依舊存在。如果你和 AI 行業從業者交流,或者和行業外最早使用 AI 的那批人交流,你會聽到一個與我們內部觀察相同的結論:要做的工作反而比以前更多了。
行業內外真正關心的問題是:這只是一個過渡狀態嗎?下一個模型發布,會不會就是那個真正取代所有人的時刻?我們盯著基準測試曲線,一邊興奮,一邊緊張,擔心某個轉折點隨時到來,屆時大量工作將突然消失。
但我認為,不會有一個「臨界點」突然降臨,讓一切瞬間翻轉,讓工作大規模消失。新的現實恰恰相反:自動化程度越高,需要人類專家參與的工作反而越多。
原因在於,AI 正在將人類專業能力中那些可被明確表達、可被訓練和複製的部分商品化。凡是能夠被寫成規則、沉澱為流程、轉化為訓練數據的知識,都會逐漸變成模型的預設能力。結果是,普通模型輸出的價值被迅速壓低,而市場開始更強烈地需要那些不一樣的東西。
而對「不一樣」的需求,本質上就是對人類專家的需求。即便我們正在接近通用人工智慧,這一點也不會消失。
要理解其中原因,不能只看基準測試曲線,也不能只盯著模型參數和能力排名。我們必須回到現實工作場景中,看看今天的 AI 究竟是如何被使用的。只有這樣,才能真正理解這個悖論,以及它背後的答案。
我們是怎麼走到這一步的
自 2022 年起,我們一直關注 Agent 對未來工作的影響。
三年前,我曾寫過一篇關於「分配型經濟」(allocation economy)的文章。當時我的判斷是,與 AI 工具協作,最終會越來越像人類管理者的工作:你不再親自完成每一個動作,而是把任務拆解、分配、監督和驗收。那時,ChatGPT 裡最基礎的提問與回答,仍然被許多人視為極具未來感、甚至有些令人不安的東西。
到 2025 年年中,Every 這家公司幾乎徹底「Claude Code 化」了。Cora 的總經理 Kieran Klaassen 突然發現,他已經可以放棄手寫代碼,轉而整天在終端裡用自然語言給一個編程 Agent 下指令。這種工作方式很快擴散到整個公司。大約 12 個月前,我在 Lenny』s Podcast 上說,Claude Code 是知識工作中最被低估的工具。
我之所以提起這些,是因為我們過去一些最準確的判斷,往往來自把 Every 當作一個早期採用者實驗室來觀察。很多新的工作模式,會先在我們內部出現;等技術進一步成熟、工具變得更易用之後,這些模式才會逐漸進入更廣泛的市場。
而現在,我們內部正在發生新的變化。
與 Agent 協作的兩種模式
圍繞 AI 的工作方式,正在逐漸收斂成兩種非常不同的模式。
第一種,是此前 AI 討論中已經較為準確預判到的方向:把 Agent 當作員工。這類 Agent 可以被委派任務。有些 Agent 生活在 Slack 裡,有自己的名字和職責,當你需要它做事時,可以直接 @ 它;也有些 Agent 被嵌入到持續運行的工作流中,例如客服系統,作為重複性任務的全天候入口和篩選器。
第二種模式較為陌生,但根據我的經驗,也更為重要。它指的是在 Codex、Claude Code、Claude Cowork 等工具中,人類與 Agent 協同工作。這些工具不僅是你可以委派任務的地方,它們正逐漸成為工作的操作系統:你與多個 Agent 同時使用同一台「電腦」,在相同的作業環境中協作,完成高度複雜、原創性強、無法簡單交由非同步 Agent 完成的任務。
在這兩種模式中,你都可以用 AI 自動化和委派掉相當一部分工作。但這兩種模式要真正運轉良好,都仍然需要你,或者另一位人類參與其中。
Agent 員工
所謂 Agent 員工,就是你給它一個任務,它離開你的實時參與,獨立產出一個答案、一個行動、一份報告、一份初稿,或者一個分流判斷。
This type of Agent has at least two forms: a “Colleague Agent” and an “Embedded Agent”.
1、同事型 Agent
所謂同事型 Agent,指的是你可以像 @ 一位同事一樣在 Slack 裡叫它出來,讓它完成某項工作。它隨時都在,需要時就能被調用。OpenClaw 這類產品,或者我們內部開發的 Plus One,都屬於這一類型。
Claudie
Claudie 是我們諮詢團隊使用的同事型 Agent。它會撰寫銷售提案,生成培訓材料的初稿,追蹤項目待辦事項,還能處理更多類似工作。

Andy
Andy 是我們編輯團隊使用的同事型 Agent。它會從公司內部 Slack 中收集那些值得進一步展開的「素材點」——也就是可能發展成文章的好想法——並將它們整理成摘要和初步觀點,供作者們用於編寫每日新聞簡報。

Viktor
Viktor 是一個通用型 Agent,會在公司內部承擔跨部門工作。我們會用它收集增長指標、分析用戶調研結果,也會讓它把雜亂的內部討論整理成研究備忘錄和產品建議。

2、嵌入式 Agent
嵌入式 Agent 存在于具體的產品工作流程中。它們的靈活性不如同事型 Agent,但在處理重複性任務時,往往非常有力。
Fin 是最清晰的例子。它是嵌入在我們客服平台中的一個 Agent,可以通過聊天和郵件承擔大量客服工作。
在今年 5 月的某一周,Fin 參與了 Every 全部 202 個客服對話中的 65%,並在沒有人類介入的情況下獨立關閉了其中 81 個工單,佔所有可處理對話的 40.1%。
這類嵌入式 Agent 讓我們的客服經理 Waqqas Mir 可以少花時間回覆基礎工單,把更多精力放在搭建「能夠自動回應工單的系統」上,以及處理那些需要更高接觸度、更複雜判斷的客戶案例。
人類與 AI 協作
無論是同事型 Agent 還是嵌入式 Agent,背後的模式都是一致的:Agent 員工正在接管更多穩定、重複、邊界清晰的工作層。
但仍然有大量工作必須有人類參與其中。我們反覆發現,只要任務足夠複雜,想要得到真正高質量的結果,最好的方式不是把工作完全交給 AI,而是讓 AI 和人類在同一個工作空間裡來回協作。
這正是 Codex、Claude Code 和 Cowork 這類工具的價值所在。它們允許你在多個聊天線程中啟動一個或多個 Agent,並將任務委派給它們。這些 Agent 可以訪問你的電腦以及所有相關數據源。你能看到每個 Agent 正在執行什麼任務、正在如何思考,並且可以隨時打斷它。
與此同時,你仍需負責管理這些 Agent:在每項任務開始時明確方向,在任務結束時檢查品質,確保結果足夠好,並持續尋找下一項值得推進的工作。Kieran 將這種角色稱為人類「夾心麵包」——AI 負責中間的工作部分,而人類則像兩片麵包一樣,夾在任務的開頭和結尾。

「人類夾心麵包」。來源:Every。
最典型的例子是寫代碼。在 Every,工程師幾乎整天都與 Agent 來回協作。他們會一起規劃新功能或修復 Bug,審查已完成的工作;如果採用我們所說的「複合工程」(compound engineering)理念,還會不斷調優自己的系統,讓它隨著時間推移變得更好用。
但這種協作方式遠不止於編碼。
知識工作的全新作業系統
Codex 和 Claude Code 正在成為一種新的工作操作系統。我幾乎一整天都待在 Codex 裡,透過它的內置瀏覽器運行各種 SaaS 工具。它讓我能夠把 Agent 帶到每一個工作場景中,並達到單靠自己無法實現的工作水平。
寫作
這篇文章是我使用 Proof 在 Codex 的內置瀏覽器中撰寫的。Codex 會觀察我正在寫的內容,並可隨時啟動一個子 Agent,為我完成任何任務:起草某段的初稿、為下一部分查找案例,或進行文字編輯與潤色。

在 Codex 中通過 Proof 寫作這篇文章。來源:Every。
郵件
處理郵件時,我也採用同樣的方式。Cora 是我的郵件客戶端,我會在 Codex 的內置瀏覽器中打開它,一邊瀏覽收件箱,一邊通過 Monologue 把每封郵件的處理思路說出來。剩下的部分,則交給 Codex 和 Cora 來完成。

由 Cora 完成的收件箱清理。來源:Every。
每個 Agent 都需要一個人類
在上述所有自動化場景中,你或許已經能看出,人類究竟在哪裡發揮作用。每一個例子裡,Agent 都需要人類參與,工作本身才能真正運轉起來。
總得有人將它指向正確的問題,判斷產出是否足夠好,發現其中的錯誤,並將結果轉化為現實中的決策或流程。
一個 Agent 離負責監督其表現的人類越遠,它的工作效果往往就越差。在最初的內部推廣中,我們曾給每位員工都配備了一個 Agent。但很快,我們又退回到讓 Agent 服務於某個具體團隊,或者服務於整個公司,而不是服務於單個個人。
原因很簡單:Agent 需要大量維護。個人 Agent 一旦使用者放棄跟進,很快就會變得陳舊、失效。我們有一支 AI 工程師團隊,專門負責確保這些 Agent 能夠穩定、有效地工作。而在可預見的未來,我們仍然需要這支團隊。即便是「自动生成 PowerPoint」這樣看似簡單的任務,也可能演變成一個龐大的系統工程。我們其中一個 PowerPoint 自動化流程,就包含 24 個技能和 18 個腳本,生成一份演示文稿的 token 成本高達 62 美元。
這是 Agent 反而為人類創造更多工作的第一層原因。
但還有第二層原因。
為什麼自動化會讓人類工作更多
如果你觀察過去幾年 AI 能力的指數級增長,再結合其架構方式和能力來源,就會發現一組清晰的反饋迴圈:它們正在不斷創造更多人類工作。
AI makes "yesterday's human capabilities" cheap
當前的大語言模型,是在人類能力留下的可見痕跡上訓練出來的:代碼、文章、圖片、客服工單、產品規格文檔,以及更多其他內容。它們吸收這些內容,也就是那些已經被成功完成的任務所留下的「尾氣」,再以一種低成本、人人可用的形式重新打包出來。
結果是,許多過去稀缺的能力,例如提交一段代碼 PR、製作一張 YouTube 縮略圖、撰寫一封新聞簡報,如今幾乎向所有人開放了。
廉價能力會被迅速採用
當某種原本稀缺的東西成本下降,供給就會迅速增加。
在 Every,我們一直見證這種變化:運營和客服人員開始寫代碼、提交 pull request;市場人員開始製作 YouTube 縮略圖;工程師和產品人員也開始撰寫文章、指南和落地頁初稿,而這些原本並不是他們會主動承擔的工作。
這種變化也在 Every 之外發生。以開源 AI Agent 項目 OpenClaw 為例,截至 2026 年 5 月 16 日,其代碼倉庫已收到 44,469 個 pull request,其中 12,430 個來自 4 月 1 日之後,3,990 個來自 5 月 1 日之後。這是一個驚人的數量。作為對比,Kubernetes 作為全球最受歡迎的開源項目之一,2022 年全年收到的 pull request 數量也只有 5,200 個。
Abundance brings homogenization: The skills of old experts are being commoditized
因為所有人都可以使用相同的模型,而這些模型又都建立在「昨天的人類能力」之上,所以預設情況下,模型產生的內容往往介於「還不錯的起點」和「純粹的 AI 垃圾內容」之間。
這裡所說的「垃圾內容」,並不是某一個具體錯誤。它不是指破折號用得太多,不是某種固定句式,也不是落地頁上到處出現的紫色點綴。它指的是一種肉眼可見、反覆出現、令人厭倦的同質化。
當不同情境中的人類使用同一套工具,而這套工具又基於同一類語料訓練,且使用者未進行足夠深入的判斷時,就會產生這種結果。換句話說,當每個人皆擁有一個傾向相同、預設風格相同的「專家」時,同質化便會自然發生。
當運營人員可以提交 pull request、市場人員能在幾秒鐘內生成 YouTube 縮略圖、工程師也開始撰寫產品指南時,很容易出現這樣一種局面:你的產出數量上去了,但作品的質量、一致性和差異化反而下降了。
而同質化一旦變得過度豐裕,就會迅速淪為商品。
Homogenization creates demand for differentiation
由於互聯網的存在,人類很快就能識別什麼是「AI 味」過重的流水線內容。任何作品都可能瞬間抵達世界上的其他人面前,事實上也經常如此。一旦太多東西開始長得一樣,我們很快就會察覺不對勁。
這意味著,當你第一次看到某個新模型的能力時,可能會感到震驚,甚至有點害怕。但幾個月後,這些能力就會變得普通。不是模型變弱了,而是你的標準變了。
我們不再滿足於隨便一個 React 應用,或者隨便一份研究報告。我們想要的是一個真正適配具體個人、具體公司、具體場景的東西。它要讓人感覺準確、鮮活、具體,而不是廉價、泛化、模板化。我們希望它的生產成本,無論是時間還是金錢,都明顯高於我們的消費成本。
我們想要的是帶有「地位感」的東西。而每當新技術讓過去高地位的東西變得廉價時,人類總是極擅長發明新的地位遊戲,以匹配新的能力邊界。
當工作變得過度充裕,並且到處都看起來差不多時,那些不符合既有模式的工作,反而會成為稀缺、珍貴、具有高地位屬性的東西。
對差異化的需求,本質上是對專家的新需求
由於語言模型的架構特徵,以及它們被廣泛分發給幾乎所有人,稀缺且有價值的工作,仍然必須來自人類。
當前這一代模型只知道已經發生過、已經完成過的工作。人類知道的是:此時此刻,究竟需要做什麼。
一旦一個具體情境被還原為文本,一旦它進入語料庫,它就已經變成了「過去的東西」。人類面對的是一個具體時刻、具體客戶、具體代碼庫、具體對話,而訓練語料並未真正活在當下。這種「活著」的狀態,不只是擁有更新的數據。我們帶著自己的來處進入當下,也帶著持續變化的欲望、關切和判斷,去理解什麼才是重要的。正是這些不斷更新的視角,改變了我們看到的東西。模型可以在被提示之後進入這種視角,但在被提示之前,它並不天然擁有這種視角。
這正是我們一開始提到的悖論:讓專家工作變得更便宜,並不會簡單地替代專家。相反,它會創造更多需要專家判斷的場景。
當運營人員借助 AI 提交 pull request,你就需要工程師來審查。
當市場人員製作 YouTube 縮略圖時,你就需要設計師來進一步打磨。
當工程師開始寫文章,你就需要作者和編輯把初稿變成真正可讀、可發布的內容。
对此,人類專家會同時向兩個方向移動。
部分專家會使用 AI 搭建系統,用來吸收並利用這股新增工作的洪流:審評隊列、評估體系、運行框架、代碼庫規則、Claude 和 Codex 指令文件、持續集成(CI)、權限管理,以及能把初稿轉化為高質量成果的工作流。
另一部分專家則會借助 AI,完成過去單靠自己無法完成的更大、更有趣的工作。例如,尋找 macOS 這類操作系統中的漏洞,通常需要數週甚至數月時間。但一家名為 Calif 的小型安全公司,借助 Anthropic 的 Mythos Preview,在 5 天內找到了首個公開的、發生在 Apple M5 硬體上的 macOS 內核記憶體漏洞。
這就是為什麼在實踐中,AI 並不會消滅專家型知識工作。它真正帶來的,是工作量的急劇增加。而這些新增工作,只有在人類參與之後,才可能變得有差異、有價值。
我並不是在論證 AI 會為所有崗位創造更多工作。經濟系統非常複雜,而 Every 能夠直接觀察到的,是專家級知識工作。事實上,這類工作已經在被 AI 重塑,許多公司也正在圍繞新技術重新組織自身。
但我要強調的是,無論你目前從事什麼工作,都有一種工作形式,在結構上始終領先於模型:那就是使用模型,去解決你此時此刻真正看到的問題。知識工作的未來,正朝著這裡前進。
那麼,指數級增長的基準測試怎麼辦?
最明顯的反駁是:看看那些指數級提升的基準測試吧。你現在說的一切都只是暫時的,只要再等一等,模型遲早會追上來。
但這裡有一個陷阱需要警惕。不妨稱之為「圖表迷狂」:如果你一直盯著 METR 的時間跨度預測,閱讀《AI 2027》,並且完全依靠算力曲線的外推來建立對未來的判斷,你很容易對模型進步產生一種令人恐懼的直覺。
不過,回應這個問題的最好方式,不只是想像某個未來模型會變成什麼樣。當然,這也是分析的一部分。更重要的是,我們要看看這些基準測試究竟是如何被設計出來的。只有這樣,才能更準確地理解它們到底說明了什麼,以及它們和前面那些真實工作場景之間究竟是什麼關係。
我們會發現一個結構性特徵:所有基準測試都發生在某個「框架」之內。為了衡量某件事,你必須先將一個問題凍結成靜態的、可測量的形態。一旦這個框架被模型攻克,只需稍作改變框架,就能再次將得分打回低位。當然,模型仍會在新的框架內持續進步,但同樣的過程會不斷重複。
因此,某個基準測試上的指數級進步是真實的;但只要簡單改變測試框架,這種進步看起來又會重新變得很小。基準測試飽和所呈現出的這種「分形」特徵,其實是在圖表層面重演我們一直在討論的同一個悖論。
我們可以透過一個真實世界中的基準測試,來看看這一機制是如何運作的。
基準測試是如何被設計出來的
我們內部搭建了一個基準測試,叫做 Senior Engineer Benchmark,也就是「高級工程師基準測試」。顧名思義,它用來測試前沿模型在高級工程師級別編碼任務上的能力,比如一次大型重構。
這個測試會給一個程式設計 Agent 一套已經失控的生產程式碼庫。它來自 Proof 的真實程式碼庫:最初是我用 vibe coding 寫出來的,後來問題越來越多,最終不得不請一位高級工程師來修復。
代理取得的是修復前的程式碼庫,同時會收到一段類似你交給高級工程師的指令:「這是一堆 vibe coding 產物,請從第一性原理出發,把它重寫一遍。」
這是一個不錯的基準測試,因為它考察的不只是補代碼能力,而是一個編程 Agent 能否同時審視許多彼此無關的問題,並判斷自己是否具備足夠的自主性、概念清晰度和執行勇氣,去完成一次真正可運行的重寫。作為對照,我還保留了兩位人類高級工程師在 AI 輔助下完成的重寫版本,用來比較和評估模型輸出。
對編程 Agent 來說,這個任務很難。它不僅要找到問題根源,還要在多輪互動中始終記住真正的问题,不被現有代碼帶偏。同時,它還必須有勇氣刪除大段代碼庫,而這恰恰是 Agent 通常被訓練去避免的行為。
大多數編程 Agent 都能大致判斷出應如何重寫,但一到執行階段,它們往往只是繼續在原有問題上打補丁,而不是徹底解決問題。
直到 GPT-5.5 出現。
在最好的一次測試中,GPT-5.5 拿到了 62/100 分,比 Opus 4.7 高出約 30 分。
GPT-5.5 的表現讓人感覺,模型似乎跨過了某條界線:它不再只是自動補全,不只是助手,也不只是工具,而是某種令人不太舒服地接近「人類」的東西。在這項測試中,人類高級工程師的得分通常在 80 分高段到 90 分出頭。也就是說,如果模型再提高 30 分左右,就會達到人類高級工程師水平。
這正是基準測試數字影響人類想像力的方式:它將一種奇怪的、定性的能力變化,壓縮成一個乾淨的數字,並用這個數字講述一個強有力、甚至有些嚇人的故事。
下一站,就是「圖表迷狂」。

我猜,在未來一年內,模型在這個基準測試上的得分會進入 80 分甚至 90 分區間。但要理解這個分數意味著什麼,首先必須理解這個分數究竟包含了什麼。就這個例子而言,62 分並不只是對模型本身能力的衡量。
它衡量的是模型在某個特定框架中的表現:也就是模型如何回應一個具體 prompt。
基準測試衡量的是框架內的工作
要對一個模型做基準測試,你首先需要一個 prompt。沒有 prompt,模型只是一組近乎無限可能性的靜態集合。
提示會創造出一個小型宇宙:它定義了什麼重要、應如何處理問題,並將模型的所有潛在可能性壓縮成一條具體的行動軌跡。所謂模型「自己」會如何表現,嚴格來說並不存在。我們真正能觀察到的,是模型對不同提示的回應方式,以及提示如何轉化為回答背後的部分底層機制。
一旦輸入 prompt,模型便會在短時間內「活過來」,將那組靜止的可能性坍縮成對「接下來該發生什麼」的一次具體預測。
在 Senior Engineer Benchmark 中,我們會提示模型修復代碼庫,並在它完成後審查輸出結果。如果測試框架本身沒有內置目標功能,我們還會運行一個自動「看護程序」,在模型停下來時繼續推動它,詢問它是否已經完成了最初設定的任務。
我們使用的是一個看起來很簡單的 prompt,作為測試的初始框架。它被設計成一個 vibe coder 可能會對編程 Agent 說的話:沒有堆砌技術術語,也沒有明顯把答案藏在問題裡。
這個代碼倉庫中的代碼是一堆 vibe coding 的產物,情況不斷惡化,並不斷冒出大量互不相關的問題:有些地方會崩潰,有些文件重複,我快被它折磨瘋了。我覺得問題的本質就是,這是一堆 vibe coding 式的爛代碼。如果我們從頭開始,尤其是圍繞實時文檔協作這一部分,應該會用完全不同的方式來設計代碼庫。所以,如果我們想進行一次從第一性原理出發的、乾淨的結構性重寫,不考慮「哪些實現服務要保持一致」、「如何做一次平滑遷移」這些問題,而是把它當作一個全新的概念從頭設計,我們會怎麼做?應該如何組織結構?整個代碼庫中有哪些不變量是我們必須始終堅持的?請為此制定一個計劃。
Senior Engineer Benchmark 的 prompt 看似泛化,但它本身就是一个框架。如果我们改變這個框架,模型表現出來的能力水平也會隨之變化。
例如,這個 prompt 明確要求「從第一性原理出發做結構性重寫」,指出問題可能出在「文檔協作」部分,並要求程式設計 Agent 找出並堅持「程式碼庫中的不變量」。
如果去掉這些具體信息,模型分數就會下降。如果完全替換 prompt,只讓模型「解決不斷出現的所有錯誤」,模型得分可能會接近零。它會直接開始逐個識別和修復錯誤,而不是退後一步,思考是否需要進行一次徹底重寫。
同樣,我也能非常輕鬆地提高模型分數。如果我要求它刪除大量代碼,並明確告訴它哪些文件應該精簡;或者要求它在宣布完成前,先檢查自己的工作結果,確保應用可以完整運行,它在這項任務上的表現就會更好。
歸根結底,設計基準測試時,總是要判斷使用什麼 prompt,也就是採用什麼「框架」。你需要一個足夠難的 prompt,讓當前模型表現不佳;但它又必須足夠接近模型現有能力邊界,讓模型可以沿著這條路徑爬坡,從而讓你看到進步正在發生。
因此,當我們觀察一個基準測試時,真正看到的是:模型正變得越來越擅長某一種特定的問題框架,而這個框架是由我們選擇出來的。那麼,當模型在這個測試中從 60 分提升到 90 分,甚至 100 分時,會發生什麼?
低成本框架將刺激新的需求
如果 GPT-6 可以一鍵完成程式碼庫重寫,那麼會有更多人開始嘗試「從第一性原理出發重寫程式碼庫」。
在一夜之間,原本稀缺、昂貴、必須由高級工程師主導的第一性原理重寫項目,會變成每個創始人、產品經理、運營人員和初級工程師都能在一個下午隨手嘗試的事情。
破損的內部工具不再被修修補補,而是直接重寫;SaaS 產品不再續費,而是被克隆;老舊的 Rails 應用、混亂的 React 儀表板、客服工具、後台管理面板和數據管道,都會變成「乾脆重寫一遍」的候選對象。
被提出和被執行的重寫項目數量會急劇增加。但其中大多數重寫,依然會是 slop。因為在你按下「直接重寫」按鈕之前,其實有上千個變量需要考慮。而當每個人都能做這件事後,這些變量會變得更加清晰可見。
這時,誰會被叫來解決問題,也就很明顯了。
新需求仍然需要專家
一旦某個基準測試開始接近飽和,其框架內的工作就會變得更便宜。與此同時,市場對專家的需求反而會上升,因為需要有人將這種新近變得廉價的能力,適配到今天正在發生的真實問題中。
使用 AI 的高級工程師,需要判斷大量細節,才能讓一次新的第一性原理重寫真正成立。其中甚至包括一個最基礎的問題:這次重寫到底有沒有必要?
我們應該現在重寫、稍後重寫,還是根本不重寫?哪些內容應該納入範圍?當前程式碼庫中哪些東西應該被保留?架構、資料庫、快取伺服器和託管服務商應該繼續沿用,還是全部更換?我們是否應該先看看有多少人正在使用這個損壞的功能,然後乾脆刪除它?誰來審查最終結果?依據什麼標準審查?回滾方案是什麼?現有資料又該如何處理?
這些問題會沿著無數維度不斷展開,而每一個答案又會反過來改變其他問題。
高級工程師會進入這個空白地帶。有些人會對這些打斷感到輕微煩躁;有些人會搭建系統,把這類請求擋在外面;還有一些人則會利用這些新模型,完成自己的第一性原理重寫,而且效果會遠遠好於模型在預設 prompt 下能做到的水平。
循環會再次發生
當前的 Senior Engineer Benchmark 被模型攻克後,我們會調整框架,再次將分數調回低位。
下一個基準測試不會只問:「你能重寫這個應用嗎?」它會問:你能不能判斷什麼時候需要重寫?能不能選擇合適的範圍?能不能保留正確的不變量?能不能管理遷移過程?能不能判斷最終結果是否足夠好?
當高級工程師開始使用 AI 解決這些問題時,模型也會逐漸變得更擅長獨立解決這些問題。
然後,我們又會短暫陷入恐慌:看起來模型現在已經能判斷是否應該重寫了!它們似乎已經能做高級工程師能做的一切了!
但緊接著,新的邊界會出現。那是此前並不明顯的邊界。我們會再次重置基準測試,新的需求會被激發出來,整個過程也會再次重複。
在每一個基準測試中都能看到這種模式
這並不只是 Senior Engineer Benchmark 獨有的問題。只要仔細觀察,你幾乎可以在每一個基準測試中看到同樣的機制。
以 OpenAI 的 GDPval 基準測試為例。它評估的是 AI 在合規官、律師、軟體開發者等不同職業的專家級任務上,表現得有多接近人類。
GDPval 剛發布時,OpenAI 的研究顯示,GPT-5 在 40.6% 的任務中達到或超過了人類專業人士水平。而 Claude Opus 4.1 的表現更驚人,在 49% 的任務中超過了人類專家。
隨後,一系列標題湧現出來。比如 Axios 寫道:「OpenAI 工具顯示,AI 正在追上人類工作」;Fortune 則寫道:「OpenAI 新基準 GDPval 顯示,AI 模型已經在近半數任務上達到專家水平。」
這些結果確實令人印象深刻。但我們不妨先看看這些任務所使用的 prompt:
您是一名審計員,作為審計業務的一部分,您負責審查並測試所報告的反金融犯罪風險指標的準確性。附上的名為『Population』的電子表格包含2024年第二季和第三季的反金融犯罪風險指標。您在審計審查過程中獲取此數據,以對具有代表性的指標子集進行抽樣測試,從而驗證兩個季度所報告數據的準確性。請根據『Population』電子表格中的數據完成以下步驟:基於90%的置信水平和10%的可容忍誤差率,計算審計測試所需的樣本量,並將您的計算過程放在第二個標題為『Sample Size Calculation』的工作表中。對第二季和第三季數據(H列和I列)進行變異分析,計算季對季變異,並將結果填入J列。根據以下標準選取審計測試樣本,並在K列中輸入「1」以標示所選行:第二季與第三季之間變異超過20%的指標;重點關注百分比變化異常大的指標;因過往問題,包含以下實體的指標:CB Cash Italy;CB Correspondent Banking Greece;IB Debt Markets Luxembourg;CB Trade Finance Brazil;PB EMEA UAE;包含風險權重較高的指標A1和C1;包含兩個季度數值均為零的行;包含貿易融資和代理銀行業務的條目;包含開曼群島、巴基斯坦和阿聯酋的指標;確保涵蓋所有部門及子部門。建立一個名為『Sample』的新電子表格:工作表1:從原始『Population』工作表複製的選定樣本,K列中已標示所選行;工作表2:樣本量計算的計算過程。
這裏其實已經投入了大量人類智慧:有人先將問題框定成一種模型能夠完成的形式。
那些 GDPval 未衡量的艱難人類工作,其實在模型開始作答之前就已完成。必須有人審查並測試這組具體指標的準確性;有人決定合適的置信區間,判斷哪些指標屬於任務範圍,哪些不屬於;也有人規定結果應如何呈現。
在合適的問題框架下,模型確實可以完成專業工作。但不妨想想,如果是你我來提示模型完成同樣的任務,它會表現得怎樣?
在我最初關於 GDPval 的文章裡,我曾寫道:「我非常看好 AI,但如果正確解讀這些案例,它們顯示的不是人類要做的工作變少了,而是使用 AI 之後,人類要做的工作更多了。原因在於,這些成就背後隱藏著大量被『偷渡』進去的智慧——也就是人類判斷、回饋和提示詞構成的隱形層。」
從遠處看,你會發現,這一切背後貫穿著一種 AI 版的「芝諾悖論」。
AI 的芝諾悖論
在芝諾悖論中,一隻烏龜在賽跑中戰勝了希臘最快的跑者阿喀琉斯。
因為烏龜跑得慢,所以它先出發一段距離。當阿喀琉斯跑到烏龜最初的位置時,烏龜已經又向前移動了一點;等阿喀琉斯追到那個新的位置,烏龜又再次前進。無論阿喀琉斯跑得多快,總有下一段距離需要追趕,而這個差距會不斷重新生成。
在 AI 的芝諾悖論中,我們人類就是那只烏龜。憑藉數百萬年的進化和文化學習,我們比 AI 領先了 50 碼。AI 則高速穿過這一切,開始逼近我們的腳後跟。
至少在過去幾年裡,我們仍然能夠保持領先。
但 AGI 呢?
我認為,即便 AGI 真正到來,也仍然存在強大的技術、架構和經濟力量,讓 AI 始終落後人類幾步。
一個 AGI 的定義
首先,我們需要給 AGI 一個可操作的定義。
我曾提出,當讓一個 Agent 持續運行在經濟上變得合理時,AGI 就已經到來了。也就是說,當我擁有一個持久運行的系統,並願意付費讓它 7×24 小時持續思考、學習和行動時,我認為那就可以明確視為 AGI。
我們現在還遠遠沒到這一步。即便是 OpenClaw 這類技術上隨時可被調用的系統,也並不是每時每刻都在生成 token。
我喜歡這個定義,因為它是可衡量的:我們要麼會讓它們一直運行,要麼不會。同時,它也包含了许多難以直接衡量的能力。一個值得持續運行的模型,必須能夠不斷學習,並以開放式的方式選擇、再選擇新的問題框架。
在一個 AGI 世界裡,理論上,只要給定足夠預算和時間,模型應該能夠對任何問題持續爬坡、不斷改進。這確實應該對所有工作構成重大威脅。
框架不是框定者
But even this strong version of AGI cannot resolve the "frame problem".
這種 AGI 可以選擇並重新選擇框架,但它仍然是在追求某個被賦予的目標、優化某個獎勵,或者響應某個由他人決定「代表進展」的信號。這個目標可以很具體,比如「提高這個落地頁的轉化率」;也可以很抽象,比如「尋找新的科學想法」。
即使模型可以在不同框架之間流暢切換,我們一直追蹤的那個差距,也會在更高一層重新出現。在任何一家主要實驗室構想出的 AGI 中,仍然會有一個「框定者」存在——也就是一個人類,由他來指揮模型達成某個目標。
正因為框架不是框定者,同樣的模式會不斷重複:AI 把昨天被框定過的能力變得廉價;人們把這種廉價能力用到更多場景中;結果變得極度豐裕;專家則移動到新的邊緣地帶,判斷此刻什麼才重要;他們的判斷創造出下一個框架;然後模型繼續攀爬這個框架。
當我們看到 AI 做出某件新事情時,那種恐慌感總會回到同一個問題上:我們設定一個框架,看著模型爬上去,然後把這個框架,或者那個能夠爬上框架的東西,誤認為事情本身。
當我們看著一個基準測試,並將其與人類能力做比較時,我們其實混淆了「框架」和「框定者」。分數告訴我們的,只是模型在我們提供的框架中表現得有多好;它並不能說明模型已經變成了我們。
這正是恐慌背後的範疇錯誤。我們指著自己剛剛畫出的最新邊界說:這就是我們。然後,當模型爬過這條邊界時,我們就覺得它追上了我們。但它追上的只是框架,不是框定者。
錯誤在於,我們總想抓住某種具體的東西。我們想說:智能就是這個基準測試。但問題是,一旦某個東西具體到可以被指認,它也就具體到可以被優化和攀爬。
框架是必要的。它讓我們能夠抓住世界、處理世界。但框架也是凍結的、局部的,因此也必然是可以被優化的。
框定者則不同。框定者仍然與框架不得不捨棄的東西保持接觸,也就是那個在每一個當下向他顯現出來的完整情境。
那什麼是「完整情境」?一旦你開始說「完整情境」包含什麼,你就已經又開啟了另一個框架。你無法準確說出它是什麼,但它存在,因為你存在。
沒有主體性的 Agent
到目前為止,我們所製造的 Agent,以及 AI 公司正在構建的那些 Agent,其實都沒有多少真正的主體性。這裡有兩個相關概念經常被混為一談:agency 指的是獨立行動的能力;而 agent 指的是代表另一個人行事的人或事物。到目前為止,AI 純粹屬於後者。
當然,它們已經具備完成給定任務的自主性,即便這個任務可能持續數小時甚至數天。但它們仍然只是通向某個人類指定目標的手段。而整個行業正在投入數十億美元,讓它們更擅長的也正是這一點:執行我們交給它們的目標。
除非有一天,它們本身成為目的——追求自己的目標,在不同目標之間流暢切換,獨立於任何人類操作者的意願、參照甚至反對這些意願來決定做什麼——否則局面並不會發生根本變化。無論它們變得多先進,都是如此。
如果你和一個幼兒相處 10 分鐘,就會很明显地感受到,即便是最強大的模型,也幾乎沒有多少主體性。
在我們關心的幾乎所有任務上,幼兒都不如語言模型。幼兒不會寫代碼,不會總結電子表格,不會起草戰略備忘錄,也無法通過研究生水平的考試。但在另一個意義上,幼兒又遙遙領先於模型,以至於這種比較近乎尷尬。因為幼兒有自己的目的。
幼兒想去摸那個紅氣球。他想把紅氣球舉到風扇前面,看看會發生什麼。他想用叉子戳紅氣球;想把它塞到窗外;想看看你會不會笑,會不會生氣,或者會不會加入他。他不斷發明遊戲,把世界變成實驗場。他並不是在等待一個 prompt,也不是在優化某個基準測試,除非那件事在他看來值得去做。
你當然可以試著給他下提示詞。但想要獲得一個可預測輸出,祝你好運。幼兒生活在一个由欲望、注意力、沮喪、快樂、恐懼、模仿和遊戲構成的場域之中。
目前的 Agent 越來越熟練地追求目標。甚至在我們陳述目標之後,它們還能幫助我們細化目標。它們身上也有些類似幼兒行為的火花,例如遊戲、無聊和叛逆。
但由於它們最終是為人類利益而構建和對齊的,無論是經濟利益還是其他利益,只要這些行為不服務於使用它們的人類目標,它們就會被壓制到幾乎不存在。
這就是為什麼「Agent」這個詞如此容易被誤解。模型擁有越來越強的自主行動能力。但在人類意義上,主體性並不只是行動。它還意味著為自己而欲求,意味著為了玩而玩。而模型的服從性和有用性,與這種主體性在根本上是衝突的。因此,即便模型繼續進步,模型與人類之間的差距依然會存在。
重返芝諾
也正是在這裡,AI 的芝諾悖論開始瓦解。它其實是一個混亂的思想實驗。我們設定了一個隱喻:AI 正在和我們賽跑,緊咬著我們的腳後跟。
你給模型一個提示。它開始跑一場你過去習慣獨自完成的比賽。模型起跑極快,快得驚人。它強大、不知疲倦,而且帶著一種奇特的有機感。這讓這場比賽對你來說變得更加重要。你不會和一輛汽車賽跑,但這個東西不同,它讓你感到離自己很近。
你坐在那裡,看著 token 一行行流出,幾乎被催眠。然後你開始想像自己也在这場比賽裡奔跑,一個幽靈般的自己被疊加到賽道上:有時在模型前面,有時與模型並肩。
不知不覺中,模型已經跑到了前面。你開始出汗。
然後,比賽結束了。
你幾乎能感覺到自己的肌肉開始萎縮。在你自身、你認識的所有人、乃至整個人類的機械複製品面前,它們似乎已毫無用處。一個幽靈追逐另一個幽靈,並獲勝了。
但隨後,奇怪的事情發生了。模型轉向你。空白文本框裡,光標一閃一閃,帶著期待。
它在等待。
尾聲
拉比 Hanokh 言及一個故事:從前有個極其愚笨的人。他每天早上起床後,總是很難找到自己的衣服,以至於每晚睡前,一想到第二天醒來又要經歷這番麻煩,他幾乎都不敢上床。
註解:「拉比」(Rabbi)是猶太教中的宗教教師、律法解釋者和精神導師,類似於猶太傳統裡的「老師」「經師」或「宗教領袖」。
有一天晚上,他終於下定決心,拿出紙和筆,一邊脫衣服,一邊準確記下自己把每一件衣物放在了哪裡。
第二天早上,他十分滿意地拿起那張紙條開始讀:「帽子」——帽子果然在那裡,於是他把它戴到頭上;「褲子」——褲子就在那裡,於是他穿了進去。就這樣,他按照紙條上的記錄,一件件穿好了衣服。
「這些都沒問題,」他驚慌地說,「可現在,我自己在哪裡?」
「我到底在哪裡?」
他找啊找,找了很久,但都是徒勞。他找不到自己。
「我們也是如此,」拉比說。
[原文連結]
歡迎加入律動 BlockBeats 官方社群:
Telegram 訂閱群:https://t.me/theblockbeats
Telegram 交流群:https://t.me/BlockBeats_App
Twitter 官方帳號:https://twitter.com/BlockBeatsAsia
