編者按：當 AI 開始寫代碼、處理客服工單、審閱法律文件，一個更底層的問題正在浮現：企業真正購買的，究竟是 token、GPU 小時，還是被完成的工作？

這篇文章提出了一個值得注意的框架：AI 的商業化不應僅被理解為「算力市場」或「模型調用市場」，而是正朝向一個新的「機器勞動力市場」發展。在這個市場中，token 僅是計量單位，GPU 是投入品，模型是生產工具，真正被定價和交易的對象，是軟體直接完成的經濟性勞動。

文章的核心判斷在於，AI 定價機制將經歷從原始 token、標準化模型能力，到行業化勞動力，再到可程式化結果市場的演進。也就是說，未來企業可能不再關心某項任務由哪一個模型、哪一種 GPU 完成，而是關心它是否在規定的延遲、準確率、可靠性和成本範圍內，交付了符合標準的結果。

這也意味著，AI 對人類勞動市場的影響未必僅是簡單的替代。隨著機器承擔更多可標準化、可驗證的工作，人類的角色可能轉向複核、責任承擔、上下文管理與最終判斷。在某些情境中，最後 1% 的人類判斷反而會變得更有價值，因為它可以釋放大規模自動化的 99%。

From this perspective, the next phase of competition in the AI market may no longer be just about model capabilities or simply a computing power price war, but rather who can first standardize, verify, and price 「work」, ultimately making machine labor a new type of production factor that can be procured, settled, and traded.

以下為原文：

生產力浪潮過去總是來自為人類生產工具和軟體，以優化工作的完成方式。電子表格幫助會計和分析師，傳送帶提高吞吐量，錘子放大人的槓桿。但真正的勞動始終來自人類。

現在，AI 正在端到端地產出工作成果，直接執行勞動本身。它可以寫代碼、處理客服工單、審閱法律文件。整個技術棧的末端正在發生壓縮：舊的技術棧是支持勞動，新的技術棧則開始生產勞動。

如果你最近聽過關於 AI 金融化的討論，大概會聽到 Jensen 等人說，LLM token 和/或 GPU 小時正在成為新的大宗商品。這種直覺可以理解，因為 token 可計量、可計費，也容易畫成圖表；GPU 小時背後也有數十億美元資金流入。但 token 仍然只是計量表，GPU 小時只是投入品，沒有人是為了擁有它們本身而購買它們。人們真正想要的是把工作完成。AI 正在把技術棧本身變成勞動力來源。

定價結果

Machine labor: Work performed by software, with economic utility, and sold into the production process.

市場已朝這個方向移動。Benchmark 的 Sarah Tavel 傾向於透過外包勞動力市場，而非軟體品類，來理解這一機遇。如果某項可重複任務本來就由專門的離岸團隊或專業服務公司完成，那麼它通常也適合由 AI 交付。a16z 的 Alex Rampell 將其稱為「軟體吞噬勞動」：軟體的下一幕，是親自完成工作。Sequoia 的 Julien Bek 則從另一個角度描述了同樣的變化：服務正在變成軟體，copilot 賣的是工具，而 autopilot 賣的是工作。

定價結果

缺失的市場背後的定價結果

席位定價按訪問權限收費，token 定價按使用量收費。結果定價則是在工作完成時收費。結果定價讓我們向前邁出了一步，但它仍然沒有回答一個問題：誰來決定價格？

如果機器勞動力可以被直接購買，價格就應來自供應商之間的競爭。這些供應商必須能夠滿足同一類任務或工作完成標準，而這就需要在不同行業和任務內部建立標準化。

目前的做法是使用 LLM token，但原始 token 只是最底層。每桶石油只是一個計量單位，真正交易的是某一特定等級的石油桶，具有明確的質量、交付條款和市場價格。一桶布倫特原油和一桶高硫重質原油並不是同一種商品。LLM token 也是如此。token 只是計量單位，真正重要的是其背後的智能：模型質量、基準測試下限、延遲、上下文視窗、可靠性與交付保證。來自前沿代碼模型的 100 萬個 token，和來自廉價通用模型的 100 萬個 token，並不是同一種商品。市場需要標準化的推理等級，就像能源市場需要標準化的石油等級一樣。

Anjali Shriva 直接指出了這一點：token 並不是一個固定的成本單位。它的經濟性會隨著上下文長度、任務結構、輸入/輸出比例、重試次數、工具調用和 Agent 工作流程而變化。短提示詞裡的一個 token，和被埋在長 Agent 循環中的一個 token，並不是同一種經濟對象。

我們在人類勞動力市場中早就這樣做了。沒有人會把放射科醫生當作一種泛化的「人類小時」來僱用。人們會看培訓背景、執照認證、專業方向、從業年限、可用性、聲譽、責任承擔等。不同的人類合同規格，對應著不同的最低標準和等級預期。

人類勞動力市場本來就是依靠這些規格運轉的，只是這些規格往往混雜、定性，並充滿各種代理指標。機器勞動力會讓這些規格變得更加顯性，也更可量化。

對於 LLM 或 Agent 而言，技能、經驗、速度和可靠性這些指標，都可以直接寫入合約：基準測試分數、延遲、吞吐量、上下文視窗、最大輸出長度、工具使用準確率、正常運行時間、錯誤率。我們可以根據可量化的預期和結果來採購勞動力。

TheGrid.ai 的合約規格本質上是一個資格篩選器，再加上針對 LLM 輸出的價格競爭。供應商只要符合規格，即可參與競爭：

智能基準測試 ≥ 下限

延遲 ≤ 上限

吞吐量 ≥ 下限

正常運行時間 ≥ 下限

錯誤率 ≤ 上限

一旦供應商都達到了同樣的最低門檻，它們就开始在價格上競爭。買方要問的是：哪一個供應商能以最優價格交付所需的勞動力？

放射科醫生的招聘，在 LLM 語境下就變成了可測量的問題：哪些 LLM 能夠以高熟練度讀取 X 光片，並在明確的延遲、上下文視窗和其他基於結果的合約規格內完成任務。

結果，是買方衡量成功的方式；勞動，是被供應的經濟活動；token，則是機器在完成工作過程中消耗的燃料。

Grid 就是機器勞動力市場。

從 token 到機器勞動力市場

市場可以為技術棧的投入定價，但如果要為產出定價，就需要一個機器勞動力市場。買方並不關心 GPU 小時。模型端點本身也不穩定：它們會被重命名、棄用、包裝，或者直接退役。

用戶和流動性都討厭頻繁變化。GPU 和模型會持續演進，但穩定的單位是工作本身。

我認為，市場會沿著以下路徑演化。每往上一層，被購買的東西就越抽象、越有價值，但也越難驗證。The Grid 應該逐步沿著這條梯子向上攀升：

原始 token → 商品化 LLM 能力市場 → 商品化勞動力市場 → 可程式化結果市場

第一階段：原始 token

Claude 4.7、GPT 5.5、Kimi 2.6、DeepSeek V4、GLM 5 等。

今天，買方從推理供應商那裡購買原始模型輸出。他們發送自己的提示詞，接收推理結果，並按使用量付費。這很容易驗證，但它仍然只是原材料。買方真正想要的不是 token，而是以最佳價格獲得有用的智能。

第二階段：商品化 LLM 能力市場

例如 text/usd、code/usd、agent/usd 等。

買方不再選擇某一個具體模型，而是選擇自己需要的智能類別。買方仍然掌握工作流、提示詞、數據和應用邏輯。The Grid 只是把每一次請求路由到符合合約規格、且價格最低的合格模型。

註：這是高於原始 token 的第一個真正抽象層，也是 TheGrid.ai 目前所處的位置。

第三階段：商品化勞動力市場

例如 accounting/usd、support_agent/usd、legal/usd、healthcare/usd、radiology/usd 等。

隨著模型變得更加專業化，能力市場可以進一步演變為行業特定市場。這類似於人類在不同勞動力市場中的專業分工。

在這一層，我們銷售的是適用於特定勞動力垂直領域工作流程的推理能力。隨著細分行業模型越來越普遍，這類市場將迅速擴張。相關例子包括 Cursor 的 Composer、面向法律工作的 Harvey，以及面向醫療健康的 EvidenceOpen。

第四階段：面向 Agent 的可編程 RFQ 與結果市場

例如 support_ticket_resolved/usd、pr_merged/usd、claim_processed/usd 等。

最後一層，是 The Grid 從推理市場走向機器勞動力市場的地方。

這一層需要 RFQ（詢價請求）、託管帳戶、延遲結算、買方確認、供應商聲譽、扣回機制、爭議解決等機制。它很可能先從 RFQ 開始，而不是直接採用訂單簿。買方定義工作內容、約束條件、驗收標準和結算條款，Agent 競標完成任務。The Grid 則幫助路由、定價、驗證和結算這些工作。

這是最有價值的等級，但也是最難驗證的等級，因為結果可能延遲、主觀且容易被操縱。一個客服工單可能會重新開啟；一個 PR 可能通過了測試，但仍造成糟糕的架構。

總價 = 完成工作的成本 + 承擔風險的成本

一個工作流程不會因為智能有了市場，或者智能變得更便宜，就自動變成一個市場。有些工作高度依賴私有上下文，例如客戶歷史或內部政策。工作越依賴上下文，就越不可能在開放市場中被乾淨地清算。[@hypersoren https://hypersoren.xyz/posts/cybernetic-arbitrage/]

市場需要揭示哪些勞動力類別會擴張，哪些會收縮。

「機器勞動力 vs 人類勞動力」，還是「機器勞動力 & 人類勞動力」

Anjali Shriva 在其機制設計草稿中指出，AI 叙事太常被描述為替代。但實際上，它更像是一場協調問題：當人類和機器都參與生產時，工作、歸因、激勵和價值會如何被重新組織。

今天，企業內部許多 AI 使用仍被困住，因為員工私下使用 AI，工作流程仍鎖定在個人身上，企業無法為這些生產力提升定價，也無法規模化這些收益。

大多數可自動化的工作都可能轉移給機器。一部分工作將變成人類複核、責任承擔、訓練和上下文管理。在某些情況下，最後 1% 的人類判斷會變得更有價值，因為它可以大規模解鎖那 99% 的自動化工作。

Rachel Su Park 的《Brave New World of AI Markets》指出，AI 的 TAM 不應被簡單建模為對現有人類勞動力支出的替代，因為它同時改變了價格和數量。隨著工作成本降低，單位價格可能下降，但消費數量可能擴張，因為現有工作會被更頻繁地消費，過去不具經濟性的全新工作也會變得可行。文章將其概括為：

P × Q：市場規模 = 單位工作價格 × 被消費的工作數量

如果 AI 讓客服互動變得更便宜，公司就可以提供 24/7 全天候服務能力。這個市場不會只是舊客服勞動力市場的廉價版本，而可能變成一個規模更大的客戶互動市場。

AI 是一個擴張型市場，因為當工作成本下降時，需求並不會保持不變。

勞動力層

機器勞動力市場應從那些規格能被清晰定義的工作開始。GPU 小時包含太多投入資訊，只能告訴你什麼支撐了工作；而對完整結果定價又太複雜，過於依賴上下文。隨著驗證、聲譽和風險/保險定價逐步由機器接管，市場才會繼續走向純結果層。

機器勞動力可以變得可交易，因為買方會越來越不關心是哪一個模型或哪一種 GPU 生產了工作，而更關心工作本身是否以正確價格達到了合約規格中的最低標準和等級。Agent 對這些底層來源甚至會更不在意。

機器現在已經可以直接執行具有經濟用途的工作，而這種工作可以被定義、測量、定價、採購，並最終被交易。電力、算力、模型和 token 當然仍然重要，但它們都還處在上游。

下游才是工作真正完成的地方，而市場正在走向一個更簡單的對象：機器勞動力。