Inception Labs 推出 Mercury 2,一款適用於加密貨幣 DApp 的高速擴散 LLM

iconChainGPT
分享
AI summary icon精華摘要

本週,Inception Labs 以 Mercury 2 震撼了 AI 領域,這是一款新推出的「擴散」語言模型,公司宣稱其為全球最快的推理 LLM。在基準測試和客戶測試中,Mercury 2 的突出優勢在於原始吞吐量:約每秒 1,000 個 token,遠高於 Anthropic 的 Claude Haiku 4.5 Reasoning 的每秒 89 個 token 和 OpenAI 的 GPT-5 Mini 的每秒 71 個 token。這使其與 Google 後來與其 DiffusionGemma 關聯的高速範疇並駕齊驅——歡迎進入一些人所稱的大型語言模型擴散時代。 擴散模型的獨特之處 - 傳統聊天機器人一次生成一個 token,並在每一步進行檢查;而擴散模型則以帶噪聲的佔位符 token 初始化一塊文本,並通過多輪並行優化,直到最終答案浮現——此技術借鑒自 Stable Diffusion 等圖像生成器。 - 結果是更高的並行吞吐量和更流暢的長時間互動體驗:即時自動補全、更快的代碼或計劃迭代,以及可大量執行快速實用呼叫而不拖慢整個系統的子代理。 基準測試與對比 - 在 AIME 2026(基於真實美國數學邀請賽題目,以解決百分比評分)中,Mercury 2 得分為 90%。Google 的 DiffusionGemma 在同一測試中得分为 69.1%,而標準(非擴散)Gemma 4 得分為 88.3%。 - 在 PhD 級科學基準 GPQA 中,差距縮小:Mercury 2 得分為 77%,DiffusionGemma 為 73.2%。Google 自身的建議仍推薦標準 Gemma 4 用於需要最高品質的應用,指出 DiffusionGemma 在各項指標上均落後於它。 實際表現與成本 - Mercury 2 的速度宣稱不僅是實驗室數據。AI 編碼代理公司 Augment Code 將 Mercury 2 替代 Anthropic 的 Claude Opus 4.7 用於上下文壓縮子代理,並報告延遲降低 82%、成本減少 90%,同時保持相當的輸出品質(根據聯合案例研究)。 起源與融資 - Inception 的方法建立在創始人 Stefano Ermon(史丹佛大學教授)的擴散研究基礎上,他曾共同撰寫早期用於圖像生成的基於分數的擴散研究。該初創公司已完成 5,000 萬美元融資,投資方包括 Nvidia 的風險投資部門以及個人投資者 Andrew Ng 和 Andrej Karpathy。目前 Mercury 2 可透過 API/雲端使用,模型權重尚未公開。 實際注意事項與新架構 - 擴散 LLM 在延遲和高吞吐量至關重要的場景中表現出色(如即時編輯、大量小型實用呼叫、語音介面等),但未必最適合最困難的前沿推理任務,在此類任務中,較大的自迴歸模型可能仍具優勢。 - 架構上,重大轉變是朝向由專業子代理(推理器、摘要器、路由器、檢查器)組成的「管弦樂團」。序列式逐 token 模型使許多實用呼叫變得緩慢且昂貴;而並行擴散模型則使這些呼叫足夠便宜,可自由使用。 - 生態系統仍在追趕:本地運行時、代理框架及其他基礎設施需進一步成熟,才能讓擴散模型在各處無縫運行。 這對加密貨幣與 Web3 的意義 - 更快、更便宜的 LLM 降低了對延遲敏感的鏈上與鏈下服務的摩擦: - 實時開發工具,用於智能合約編碼與「感覺編碼」,能跟上編輯節奏; - 適用於 DAO 的多代理支援系統與機器人,需執行大量快速子呼叫; - 錢包、DApp 或即時節點運營商的低延遲語音或聊天介面; - 預處理、監控與警報管道的推理成本降低。 - 在規模化應用中,商品 GPU 上更高的吞吐量可為大量執行 AI 呼叫的專案帶來顯著的成本與能源節省。 總結 Mercury 2 將擴散 LLM 推入「快速且優質」的象限,在高吞吐量任務中實現了顯著的延遲與成本改善,同時保持競爭力的品質。它不會取代所有模型類別,但對於專注於速度、響應性和多代理系統的加密貨幣開發者及其他開發者而言,Mercury 2 等擴散模型開啟了新的實用可能性——前提是周邊工具與運行時環境能及時跟上。

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露