如果把 AI 丟進一個沒有標準答案的工程現場,它還能活下來嗎?
長久以來,AI Agent 看起來無所不能,實則大多只是在已知知識庫中「翻記憶」。
但真實的工程世界是殘酷的:水下機器人的穩定性、動力電池的析鋰邊界、量子線路的噪聲控制……這些問題沒有「滿分」,只有「更逼近極限的優化」。
近期,Einsia AI 旗下 Navers lab 發布的 Agent Benchmark——Frontier-Eng Bench,正式撕掉了 AI「做題家」的標籤。

研究團隊沒有讓 AI 刷那些陳舊的代碼題,取而代之的是,給了它一套完整的「工程閉環」:提出方案、接入模擬器、吃報錯、改參數、重跑。
面對 47 個跨學科的硬核任務,AI 必須像資深工程師一樣,在功耗、安全與性能的「不可能三角」中尋找最佳解。
這不僅僅是一個測試集,它更像是一場關於 Agent「進化」的預演。
當 AI 開始學會在反饋中自我修正,那個「人類提出目標、AI 則 24 小時不間斷迭代」的 Auto Research 時代,可能比我們想像中更近了。
AI 開始接手「硬活」了
過去的大模型,更像一個超級學霸。
你提出問題,它從海量訓練數據中「翻記憶」,然後拼湊出一個看起來很合理的答案。
In this mode, large models are essentially playing a "word chain" game rather than solving real-world problems.
但 Frontier-Eng Bench 的出現,卻讓 AI 干起了「工程優化」的活兒。
流程變為讓 AI 先提出方案,再接入 simulator 執行實驗,獲取反饋和錯誤訊息,調整參數和代碼,然後繼續重新運行,直到性能持續提升。
在這種閉環系統中,AI 的身份發生了質變。
你想讓水下機器人更穩定?AI 必須開始自動調節控制器。
你想再提升機械臂的速度?AI 得自己運行模擬。
在某種程度上,AI 已經超越了單純的語義理解,開始像一名專業工程師一樣,在真實環境的反饋中持續優化。

△
Frontier-Eng Bench 最有意思的地方在於:它測的不是 AI「答對沒有」,而是 AI 到底能不能持續變強。
因為真實的工程優化,從來不是做選擇題,沒有唯一的標準答案。
以電池快充為例,目標聽起來很簡單——充得越快越好,但現實沒那麼容易。
AI 必須在溫度不能爆表、電壓不能超速、電池壽命不能掉太快,還要避免析鋰的嚴苛約束下,精準踩中性能的平衡點。
This means AI cannot pass by any clever "practice techniques"; it must demonstrate sustained evolutionary endurance through long-term feedback.
AI 能否在真實環境中進行長期優化?
從結果來看,GPT5.4 整體表現最穩,但距離把 Benchmark「做穿」,AI 們要走的路還很遠。

△
Auto Research 進入「迭代優化」時代
研究團隊在論文中提了一個非常有意思的點:
真正高級的智能,本質上都依賴長期反饋閉環。
正如 AlphaGo 能擊敗李世石,在於其每一步決策背後深不見底的海量模擬與即時反饋,而非對既定棋譜的死記硬背。
同樣地,真正的科研也不依賴單次的靈感爆發,而是不斷地提出假設、進行實驗、觀察結果、修改方案,並繼續嘗試。
工程優化也是如此,第一版往往誰都能做,真正困難的,其實是最後那1%的性能躍遷。
Frontier-Eng Bench 的意義在於:它首次開始系統性地測試 AI 的「迭代優化能力」,並總結出兩條近乎殘酷的 AI 進化規律。

△
第一個規律是:越往後,提升越難。
這篇論文發現,Agent 的改進頻率和幅度均呈現冪律衰減:
- 改進頻率 ∝ 1/迭代輪數
- 改進幅度 ∝ 1 / 改進次數
簡單來說,就是前面幾輪漲得最快,後面越來越難、越來越小。
這很像真實的研發過程,第一版 AI 能快速淘汰大量「低垂果實」,但越往後越接近瓶頸,想再擠出一點性能都得下狠功夫。
那是不是多開幾條路並行試錯,會更划算?答案藏在第二個規律裡。

△
第二個規律:寬度有用,但深度更不可或缺。
並行運行多條線路可避免卡頓,但在預算固定的情況下,每多開一條鏈就會壓低深度。
許多工程突破需要依靠持續累積與不斷修正,才會出現結構性躍遷,並非僅靠「多試幾次」就能實現。
這其實提示了我們下一代 Agent 的發展方向:不是「一次出答案」的模型,而是能在長程反饋裡持續迭代、自我進化的系統。
AI 工程師,可能真的要來了
這項研究真正的深遠意義,在於它初步勾勒出了一套開始接近真實工程迴圈的 AI 系統。

△
試想一下,當 AI 接入工業軟體、模擬環境、CAD 系統、晶片設計工具、科學計算平台……
一場生產力模態的劇變便呼之欲出。
在未來的實驗室裡,很可能會出現這樣一種分工:
人類研究員負責提出方向和目標。
例如「將這個部件的能耗降低 30%」、「將這個模型前向的 GPU 占用率壓得更低」、「讓機器人控制的穩定性再提升一點」、「讓量子線路的保真度繼續逼近極限」等等。
而 AI 負責「死磕路徑」,它們圍繞這些目標,持續優化。
例如自動運行模擬與實驗、自動讀取 verifier 與 simulator 的回饋,再繼續修改和優化,24 小時不停迭代。
這種進化邏輯,讓 AI 擺脫了「輔助工具」的身份,開始像一個真正的工程團隊那樣去解決複雜系統問題,而且不知疲倦。
而 Frontier-Eng 這一 Benchmark 揭示的問題,其實也非常直接:
當 AI 開始學會「長期優化」,它距離真正的工程智能,還有多少距離?
論文題目:Frontier-Eng:基於生成式優化的真實工程任務自演化代理基準測試
項目主頁:https://lab.einsia.ai/frontier-eng/
Arxiv: https://arxiv.org/abs/2604.12290
GitHub 倉庫:https://github.com/EinsiaLab/Frontier-Engineering
本文來自微信公眾號「量子位」,作者:允中
