一個擁有兆級參數的 AI 模型剛剛在大多數玩家視為中階的顯卡上運行。
中國 AI 愛好者 APFrisco 展示了 Moonshot AI 的 Kimi K2.5 模型,這是一個總參數達 1 兆的專家混合(MoE)大型語言模型,運行於單一 Nvidia RTX 3060 GPU 搭配 768 GB Intel Optane 持久記憶體的配置上。該設置實現了約每秒四個 token 的速度,雖按生產標準來看較慢,但在所使用的硬體條件下卻令人驚嘆。
中階 GPU 如何處理兆級參數
Kimi K2.5 並不會同時啟用全部 1 兆個參數。在生成每個 token 時,僅啟用 320 億個參數,其餘參數則處於閒置狀態,等待輪到自己。
即使使用了那項效率技巧,這個模型依然龐大。完整的 Kimi K2.5 體積約為 630 GB。經過量化的版本雖然壓縮了模型的精確度以降低記憶體需求,但仍高達約 381 GB。這就是為什麼 APFrisco 需要 768 GB 的 Intel Optane 持久記憶體:沒有任何標準的消費級 RAM 設置能接近處理如此龐大的體積。
Optane PMem DIMM 是一個有趣的選擇。英特爾已停產 Optane 產品線,意味著這些模組如今基本上是流落在二手市場的遺留硬體。它們比傳統 DRAM 要慢,但每 GB 的成本卻低得多,因此對於載入原本需要企業級基礎設施的大型模型來說,這是一種非傳統卻出人意料地實用的解決方案。
RTX 3060 於 2021 年初推出,配備 12 GB VRAM,專為 1080p 遊戲和輕量創意工作負載設計,而非運行前沿 AI 模型。
Kimi K2.5 的典型部署方式是什麼
Kimi K2.5 的高性能推理通常針對最多配備 8 個高端 GPU 的配置。這些設置的運算速度可達每秒 10 至 300 個以上的 token。
該示範於 Reddit 的 r/LocalLLaMA 社群中分享,並隨後被 Tom’s Hardware 報導。
Kimi K2.5 由 Moonshot AI 於 2026 年 1 月 27 日發布,具備多模態功能,並使用約 15 兆個混合視覺與文字標記進行訓練。這是一個開放權重模型,意味著任何人都可以下載並運行它,這正是 APFrisco 的實驗得以實現的原因。
