中國愛好者在 RTX 3060 上運行 1 兆參數的 Kimi K2.5，配備 768GB Intel Optane 記憶體

一個擁有兆級參數的 AI 模型剛剛在大多數玩家視為中階的顯卡上運行。

中國 AI 愛好者 APFrisco 展示了 Moonshot AI 的 Kimi K2.5 模型，這是一個總參數達 1 兆的專家混合（MoE）大型語言模型，運行於單一 Nvidia RTX 3060 GPU 搭配 768 GB Intel Optane 持久記憶體的配置上。該設置實現了約每秒四個 token 的速度，雖按生產標準來看較慢，但在所使用的硬體條件下卻令人驚嘆。

中階 GPU 如何處理兆級參數

Kimi K2.5 並不會同時啟用全部 1 兆個參數。在生成每個 token 時，僅啟用 320 億個參數，其餘參數則處於閒置狀態，等待輪到自己。

即使使用了那項效率技巧，這個模型依然龐大。完整的 Kimi K2.5 體積約為 630 GB。經過量化的版本雖然壓縮了模型的精確度以降低記憶體需求，但仍高達約 381 GB。這就是為什麼 APFrisco 需要 768 GB 的 Intel Optane 持久記憶體：沒有任何標準的消費級 RAM 設置能接近處理如此龐大的體積。

Optane PMem DIMM 是一個有趣的選擇。英特爾已停產 Optane 產品線，意味著這些模組如今基本上是流落在二手市場的遺留硬體。它們比傳統 DRAM 要慢，但每 GB 的成本卻低得多，因此對於載入原本需要企業級基礎設施的大型模型來說，這是一種非傳統卻出人意料地實用的解決方案。

RTX 3060 於 2021 年初推出，配備 12 GB VRAM，專為 1080p 遊戲和輕量創意工作負載設計，而非運行前沿 AI 模型。

Kimi K2.5 的典型部署方式是什麼

Kimi K2.5 的高性能推理通常針對最多配備 8 個高端 GPU 的配置。這些設置的運算速度可達每秒 10 至 300 個以上的 token。

該示範於 Reddit 的 r/LocalLLaMA 社群中分享，並隨後被 Tom’s Hardware 報導。

Kimi K2.5 由 Moonshot AI 於 2026 年 1 月 27 日發布，具備多模態功能，並使用約 15 兆個混合視覺與文字標記進行訓練。這是一個開放權重模型，意味著任何人都可以下載並運行它，這正是 APFrisco 的實驗得以實現的原因。