DiffusionGemma 利用擴散技術實現 4 倍更快的文本生成

多年來，大型語言模型的運作方式就像一位極快的打字員：一次只輸出一個詞，從左到右，從不回頭。DiffusionGemma 完全拋棄了這種傳統做法。這個開源模型採用擴散技術，同時生成完整的文字塊，生成速度比傳統自回歸模型快達四倍。

DiffusionGemma 如何實際運作

傳統的語言模型依序生成文字。每個標記（大致為一個詞或詞的一部分）逐一產生，每個新標記都依賴於其之前的所有內容。

DiffusionGemma 借鑑了徹底改變圖像生成的同一系列技術。擴散模型通過從噪聲開始，逐步將其優化為連貫的輸出來運作。應用於文本時，這意味著模型可以同時處理回應的多個部分，而無需等待每個詞語確定後才進行下一個。

在評估中，DiffusionGemma 的採樣速度達到約 1,479 個詞元每秒。這 4 倍的速度提升並非理論上限，而是實測基準。

由於擴散模型是透過迭代方式優化輸出，而非永久確定每個詞元，DiffusionGemma 可在生成過程中調整並修正錯誤。傳統模型則不具备這種優勢；一旦生成某個詞語，便無法更改，後續的錯誤會逐級累積。

DiffusionGemma 借鑒了 Google DeepMind 的 Gemini Diffusion，後者率先採用了基於擴散的高效文本生成方法。

DiffusionGemma 專為 NVIDIA 平台（包括 RTX PRO 和 DGX 系統）進行了優化，意味著開發者可以本地運行該模型，並獲得加速性能，而無需完全依賴雲端 API。

基準評估顯示，DiffusionGemma 在保持速度優勢的同時，表現與較大型模型相當。作為參考，Gemini Diffusion 在評估基準上的得分為 30.9%，而 Gemini 2.0 Flash-Lite 的得分為 28.5%。

對於依賴快速文字生成的企業而言，影響十分明確。內容創作流程、客戶服務自動化、程式碼生成工具，以及任何對延遲敏感的應用，都能從 4 倍的速度提升中受益。更快的推論速度也意味著每筆查詢的運算成本更低，這直接影響了大規模部署 AI 的經濟效益。

主要風險在於採用率。一個模型即使在受控評估中表現出色，仍可能難以應對現實部署中雜亂且不可預測的需求。幸好該模型是開放的，並針對廣泛可用的 NVIDIA 硬體進行優化，至少消除了兩個常見的障礙。