外媒評論認為,圍繞 AI 編程代理的爭論,正從「能否提效」轉向「是否會拖累工程質量」。曾破解初代 iPhone 越獄和 PlayStation 3 的駭客 George Hotz 近日發文稱,軟體行業大規模採用此類工具,可能成為該領域代價極高的一次誤判。
六個月實測後給予負面評斷
Hotz 表示,他並非站在場外批評。過去六個月裡,他在真實項目中持續使用 AI 代理,包括其開源深度學習框架 tinygrad 的部分開發,以及一款 USB-PCIe 芯片固件的完整逆向工程。
他得出的結論是,這類工具往往在前期快速呈現進展,但越到後期越難收尾。表面上看,模型的輸出越來越像樣,真正的问题卻更難被及時發現。按他的說法,開發者最後仍要頻繁手動修補結果。
分歧不在效率,而在誰來兜底
文章認為,真正的風險不僅在於單次輸出是否出錯,而在於組織層面的品質控制是否會失效。Hotz 的核心判斷是,能力較強的工程師通常仍能閱讀生成的代碼,發現漏洞,並決定何時信任工具;但能力較弱的工程師未必具備同樣的校驗能力。
如果後者透過代理將產出放大至過去的數倍,團隊表面效率可能上升,但平均程式碼品質會更快下滑,而且這種下滑會被更高的提交量掩蓋。Hotz 據此警告,行業可能迎來大量「看起來能用、實際上問題密集」的程式碼。
與 Karpathy 形成鮮明對照
在這篇文章發布前不久,AI 研究員 Andrej Karpathy 剛加入 Anthropic 的預訓練團隊。報導提到,Karpathy 對 AI 代理的態度在今年出現轉變,認為新一代模型已明顯改變軟體開發方式。
Anthropic 的首席執行長 Dario Amodei 此前也表示,公司部分工程師已減少親自撰寫代碼的比例,轉而讓模型生成代碼,再由人類審核。Hotz 則提供了相反的體驗:他曾嘗試類似流程,但最終幾乎每次都需要親自修正。
隨著「vibe coding」在过去一年快速流行,主要 AI 公司都把代理式編程當作重點方向。微軟也已將 GitHub Copilot 推向更完整的代理化系統,並把這一變化描述為平台級轉向。
Hotz 認為,問題不在於程式設計師是否擔心被取代,而在於企業是否會在競爭壓力下過快推廣工具。他點名指出,若大型公司在其整個工程團隊中統一推進 AI 編碼工具,未來兩年的軟體品質未必因此改善。
