史丹佛與麻省理工研究顯示，AI 代理可因修復程式碼錯誤而耗費數百萬個標記

代碼修復

想像一下這個場景：

你讓 AI Agent 幫你修一個代碼 Bug。它打開項目，讀了 20 個文件，改了改，跑了一下測試，沒過，又改，又跑，還是沒過……來回折騰了十幾輪，終於——還是沒修好。

你關掉電腦，鬆了口氣。然後收到了 API 賬單。

上述數字可能讓你倒吸一口涼氣——AI Agent 在海外官方 API 下自主修復 Bug，單次未修復任務常耗費百萬以上 Token，費用可達幾十至一百多美元。

在 2026 年 4 月，一篇由史丹福、MIT、密歇根大學等聯合發布的研究論文，首次系統性地揭開了 AI Agent 在程式碼任務中的「消費黑箱」——錢到底花在哪裡、花得值不值、能否提前預估，答案令人震驚。

發現一：Agent 寫代碼的燒錢速度，是普通 AI 對話的 1000 倍

大家可能覺得，讓 AI 幫你寫代碼和讓 AI 與你討論代碼，花的錢應該差不多吧？

論文提供的對比顯示：

The token consumption for agentic coding tasks is approximately 1000 times that of regular code Q&A and code reasoning tasks.

相差整整三個數量級。

為什麼會這樣？論文指出了一個事實——資金並非花在「寫代碼」上，而是花在「讀代碼」上。

這裡的「讀」並非指人類閱讀代碼，而是 Agent 在運作過程中，需要不斷將整個項目的上下文、歷史操作記錄、錯誤訊息、檔案內容一股腦兒「餵」給模型。每多一輪對話，這個上下文就變長一輪；而模型是按 Token 數量計費的——你餵得越多，付得越多。

打個比方：這就像請了一位維修工，他每轉一下扳手之前，都要你從頭到尾把整棟大樓的圖紙念給他聽——念圖紙的費用，遠比擰螺絲的費用貴得多。

論文將這一現象總結為一句話：驅動 Agent 成本的是輸入 Token 的指數級增長，而非輸出 Token。

發現二：同一個 Bug，運行兩次，費用可能相差一倍——而且越貴的 Bug 越不穩定

更讓人頭疼的是隨機性。

研究者讓同一個 Agent 在同一個任務上執行了 4 次，結果發現：

在不同任務之間，最昂貴的任務比最便宜的任務多消耗約 700 萬個 Token（Figure 2a）
在同一模型、同一任務的多次運行中，最貴的一次大約是最便宜的一次的 2 倍（Figure 2b）
而如果跨模型對比同一個任務，最高消耗和最低消耗之間可以相差高達 30 倍

最後一個數字尤其值得關注：這意味著，選對模型和選錯模型之間的成本差距，不是「貴一點」，而是「貴出一個數量級」。

更扎心的是——花得多，不代表做得好。

論文發現了一條「倒 U 型」曲線：

代碼修復

成本水平準確率趨勢低成本準確率較低（可能投入不足）中等成本準確率通常最高高成本準確率不升反降，進入「飽和區間」

為什麼會這樣？論文透過分析 Agent 的具體操作給出了答案——

在高成本的運行中，Agent 大量時間花在了“重複勞動”上。

研究發現，在高成本運行中，約 50% 的文件查看和文件修改操作是重複的——也就是說，Agent 不斷讀取同一個文件、不斷修改同一行代碼，像一個人在房間裡轉圈，越轉越暈，越暈越轉。

錢沒有花在解決問題上，而是花在了“迷路”上。

發現三：模型之間的「能效比」天差地別——GPT-5 最節能，有的模型多消耗 150 萬 Token

論文在業界標準的 SWE-bench Verified（500 個真實 GitHub Issue）上，測試了 8 個前沿大模型的 Agent 表現。換算成美元，Token 效率高的模型每個任務可以多花幾十塊的區別。放到企業級應用——一天跑幾百個任務——差距就是真金白銀。

更有趣的一個發現是：Token 效率是模型的「固有性格」，而非任務使然。

研究者將所有模型都成功解決的任務（230 個）和所有模型都失敗的任務（100 個）分別拿出來比較，發現模型的相對排名幾乎沒有變化。

This indicates that some models are inherently more verbose, regardless of task difficulty.

另一個發人深省的發現是：模型缺乏「止損意識」。

在面對所有模型都無法解決的困難任務時，理想的 Agent 應該盡早放棄，而不是繼續燒錢。但現實是，模型普遍在失敗任務上消耗了更多的 Token——它們不會「認輸」，只會繼續探索、重試、重讀上下文，像一台沒有油錶警示燈的汽車，一路開到拋錨。

發現四：人類覺得難的，Agent 不一定覺得貴——難度感知完全錯位

你可能會想：那至少我可以根據任務的難易程度來預估成本吧？

論文邀請人類專家對 500 個任務的難度進行評分，然後與 Agent 的實際 Token 消耗進行對比——

Result: There is only a weak correlation between the two.

人類覺得難如登天的任務，Agent 可能輕鬆搞定且花不了多少錢；人類覺得輕而易舉的任務，Agent 卻可能燒掉大量資金，讓人懷疑人生。

這是因為人類和 AI「看到」的難度根本不是一回事：

人類看的是：邏輯複雜度、算法難度、業務理解門檻
代理關注的是：項目有多大、需要讀取多少文件、探索路徑有多長、是否會反覆修改同一個文件

人類專家認為「改一行就行」的 Bug，Agent 可能需要先理解整個代碼庫的結構才能定位到那一行——僅僅「閱讀」就需消耗大量 Token。而人類專家覺得「邏輯很繞」的演算法問題，Agent 卻可能恰好知道標準解法，三下五除二就解決了。

這就導致了一個尷尬的現實：開發者幾乎不可能憑直覺預估 Agent 的運行成本。

發現五：連模型自己都算不準自己要花多少錢

既然人算不准，那讓 AI 自己來預測呢？

研究者設計了一個精巧的實驗：讓 Agent 在真正開始修 Bug 之前，先「inspect」一下程式碼庫，然後預估自己需要消耗多少 Token——但不實際執行修復。

結果如何？

All models have been wiped out.

最佳成績是 Claude Sonnet-4.5 對輸出 Token 的預測相關性——0.39（滿分 1.0）。大多數模型的預測相關性僅在 0.05 至 0.34 之間，Gemini-3-Pro 最低，僅為 0.04——基本等同於隨機猜測。

更離譜的是：所有模型都系統性低估了自己的 Token 消耗。Figure 11 的散點圖中，幾乎所有數據點都落在「完美預測線」的下方——模型覺得自己「花不了那麼多」，實際上花了更多。而且這個低估偏差在不提供示例的情況下更加嚴重。

更具諷刺意味的是——預測本身也要花錢。

Claude Sonnet-3.7 和 Sonnet-4 的預測成本甚至高達任務本身成本的 2 倍以上。也就是說，讓它們先「估個價」，比直接幹活還貴。

論文的結論直截了當：

目前，前沿模型無法準確預測自身的 Token 用量。點擊「運行 Agent」就像開盲盒——直到帳單出來才知道花了多少。

這筆「糊塗賬」背後，藏著一個更大的行業問題

讀到這，你可能會問：這些發現對企業意味著什麼？

1. The “monthly subscription” pricing model is being cracked open by Agents

論文指出，像 ChatGPT Plus 這樣的訂閱制之所以可行，是因為普通對話的 Token 消耗相對可控、可預測。但 Agent 任務完全打破了這一假設——一個任務可能因為 Agent 陷入迴圈而耗盡巨量 Token。

這意味著，純粹的訂閱定價對於 Agent 場景可能不可持續，在相當長一段時間內，按量計費（Pay-as-you-go）仍是最現實的選擇。但按量計費的問題在於——用量本身無法預測。

2. Token 效率應成為選模型的「第三指標」

傳統上，企業選擇模型時會考慮兩個維度：能力（能不能幹）和速度（幹得快不快）。這篇論文提出了第三個同等重要的維度：能效（花多少才能幹成）。

一個能力略遜但效率高 3 倍的模型，在規模化場景下可能比「最強但最費」的模型更有經濟價值。

3. 代理需要「油表」和「剎車」

論文提到一個值得關注的未來方向——Budget-aware tool-use policies（預算感知的工具使用策略）。簡單來說，就是給 Agent 裝一個「油表」：當 Token 消耗接近預算時，強制其停止無效探索，而非一路燒到底。

目前，幾乎所有主流 Agent 框架都缺乏這種機制。

Agent 的「燒錢問題」不是 Bug，而是行業必經的陣痛

這篇論文揭示的並非某個模型的缺陷，而是整個 Agent 范式的結構性挑戰——當 AI 從「一問一答」進化到「自主規劃、多步執行、反覆調試」，Token 消耗的不可預測性幾乎是一種必然。

好消息是，這是第一次有人系統性地將這筆糊塗賬翻出來算。有了這份數據，開發者可以更明智地選擇模型、設定預算、設計止損機制；模型廠商也有了一個新的優化方向——不只是做得更強，還要做得更省。

畢竟，在 AI Agent 真正走入千行百業的生產環境之前，每一分钱花得明明白白，比每一行代碼寫得漂漂亮亮，更重要。（本文首發鈦媒體 APP，作者 | 硅谷 Tech news，編輯 | 趙虹宇）

註：本文基於 2026 年 4 月 24 日發表於 arXiv 的預印本論文 *How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks*（Bai, Huang, Wang, Sun, Mihalcea, Brynjolfsson, Pentland, Pei）撰寫。作者來自弗吉尼亞大學、史丹福大學、MIT、密歇根大學等機構。該研究尚未經同行評審。