多年來,大型語言模型的運作方式就像一位極快的打字員:一次只輸出一個詞,從左到右,從不回頭。DiffusionGemma 完全拋棄了這種傳統做法。這個開源模型採用擴散技術,同時生成完整的文字塊,生成速度比傳統自回歸模型快達四倍。
DiffusionGemma 如何實際運作
傳統的語言模型依序生成文字。每個標記(大致為一個詞或詞的一部分)逐一產生,每個新標記都依賴於其之前的所有內容。
DiffusionGemma 借鑑了徹底改變圖像生成的同一系列技術。擴散模型通過從噪聲開始,逐步將其優化為連貫的輸出來運作。應用於文本時,這意味著模型可以同時處理回應的多個部分,而無需等待每個詞語確定後才進行下一個。
在評估中,DiffusionGemma 的採樣速度達到約 1,479 個詞元每秒。這 4 倍的速度提升並非理論上限,而是實測基準。
由於擴散模型是透過迭代方式優化輸出,而非永久確定每個詞元,DiffusionGemma 可在生成過程中調整並修正錯誤。傳統模型則不具备這種優勢;一旦生成某個詞語,便無法更改,後續的錯誤會逐級累積。
硬體角度與 Google DeepMind 的關聯
DiffusionGemma 借鑒了 Google DeepMind 的 Gemini Diffusion,後者率先採用了基於擴散的高效文本生成方法。
DiffusionGemma 專為 NVIDIA 平台(包括 RTX PRO 和 DGX 系統)進行了優化,意味著開發者可以本地運行該模型,並獲得加速性能,而無需完全依賴雲端 API。
基準評估顯示,DiffusionGemma 在保持速度優勢的同時,表現與較大型模型相當。作為參考,Gemini Diffusion 在評估基準上的得分為 30.9%,而 Gemini 2.0 Flash-Lite 的得分為 28.5%。
這對人工智慧領域和投資者意味著什麼
對於依賴快速文字生成的企業而言,影響十分明確。內容創作流程、客戶服務自動化、程式碼生成工具,以及任何對延遲敏感的應用,都能從 4 倍的速度提升中受益。更快的推論速度也意味著每筆查詢的運算成本更低,這直接影響了大規模部署 AI 的經濟效益。
主要風險在於採用率。一個模型即使在受控評估中表現出色,仍可能難以應對現實部署中雜亂且不可預測的需求。幸好該模型是開放的,並針對廣泛可用的 NVIDIA 硬體進行優化,至少消除了兩個常見的障礙。
