Inception Labs 推出 Mercury 2，一款適用於加密貨幣 DApp 的高速擴散 LLM

本週，Inception Labs 以 Mercury 2 震撼了 AI 領域，這是一款新推出的「擴散」語言模型，公司宣稱其為全球最快的推理 LLM。在基準測試和客戶測試中，Mercury 2 的突出優勢在於原始吞吐量：約每秒 1,000 個 token，遠高於 Anthropic 的 Claude Haiku 4.5 Reasoning 的每秒 89 個 token 和 OpenAI 的 GPT-5 Mini 的每秒 71 個 token。這使其與 Google 後來與其 DiffusionGemma 關聯的高速範疇並駕齊驅——歡迎進入一些人所稱的大型語言模型擴散時代。擴散模型的獨特之處 - 傳統聊天機器人一次生成一個 token，並在每一步進行檢查；而擴散模型則以帶噪聲的佔位符 token 初始化一塊文本，並通過多輪並行優化，直到最終答案浮現——此技術借鑒自 Stable Diffusion 等圖像生成器。 - 結果是更高的並行吞吐量和更流暢的長時間互動體驗：即時自動補全、更快的代碼或計劃迭代，以及可大量執行快速實用呼叫而不拖慢整個系統的子代理。基準測試與對比 - 在 AIME 2026（基於真實美國數學邀請賽題目，以解決百分比評分）中，Mercury 2 得分為 90%。Google 的 DiffusionGemma 在同一測試中得分为 69.1%，而標準（非擴散）Gemma 4 得分為 88.3%。 - 在 PhD 級科學基準 GPQA 中，差距縮小：Mercury 2 得分為 77%，DiffusionGemma 為 73.2%。Google 自身的建議仍推薦標準 Gemma 4 用於需要最高品質的應用，指出 DiffusionGemma 在各項指標上均落後於它。實際表現與成本 - Mercury 2 的速度宣稱不僅是實驗室數據。AI 編碼代理公司 Augment Code 將 Mercury 2 替代 Anthropic 的 Claude Opus 4.7 用於上下文壓縮子代理，並報告延遲降低 82%、成本減少 90%，同時保持相當的輸出品質（根據聯合案例研究）。起源與融資 - Inception 的方法建立在創始人 Stefano Ermon（史丹佛大學教授）的擴散研究基礎上，他曾共同撰寫早期用於圖像生成的基於分數的擴散研究。該初創公司已完成 5,000 萬美元融資，投資方包括 Nvidia 的風險投資部門以及個人投資者 Andrew Ng 和 Andrej Karpathy。目前 Mercury 2 可透過 API/雲端使用，模型權重尚未公開。實際注意事項與新架構 - 擴散 LLM 在延遲和高吞吐量至關重要的場景中表現出色（如即時編輯、大量小型實用呼叫、語音介面等），但未必最適合最困難的前沿推理任務，在此類任務中，較大的自迴歸模型可能仍具優勢。 - 架構上，重大轉變是朝向由專業子代理（推理器、摘要器、路由器、檢查器）組成的「管弦樂團」。序列式逐 token 模型使許多實用呼叫變得緩慢且昂貴；而並行擴散模型則使這些呼叫足夠便宜，可自由使用。 - 生態系統仍在追趕：本地運行時、代理框架及其他基礎設施需進一步成熟，才能讓擴散模型在各處無縫運行。這對加密貨幣與 Web3 的意義 - 更快、更便宜的 LLM 降低了對延遲敏感的鏈上與鏈下服務的摩擦： - 實時開發工具，用於智能合約編碼與「感覺編碼」，能跟上編輯節奏； - 適用於 DAO 的多代理支援系統與機器人，需執行大量快速子呼叫； - 錢包、DApp 或即時節點運營商的低延遲語音或聊天介面； - 預處理、監控與警報管道的推理成本降低。 - 在規模化應用中，商品 GPU 上更高的吞吐量可為大量執行 AI 呼叫的專案帶來顯著的成本與能源節省。總結 Mercury 2 將擴散 LLM 推入「快速且優質」的象限，在高吞吐量任務中實現了顯著的延遲與成本改善，同時保持競爭力的品質。它不會取代所有模型類別，但對於專注於速度、響應性和多代理系統的加密貨幣開發者及其他開發者而言，Mercury 2 等擴散模型開啟了新的實用可能性——前提是周邊工具與運行時環境能及時跟上。