中國愛好者在 RTX 3060 上運行 1 兆參數的 Kimi K2.5,配備 768GB Intel Optane 記憶體

iconCryptoBriefing
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
中國AI愛好者APFrisco展示了Moonshot AI的Kimi K2.5,這是一個擁有1萬億參數的MoE模型,運行在單一RTX 3060 GPU與768GB Intel Optane記憶體上。該設置每秒處理約四個token。這項AI與加密貨幣新聞突顯了一項重大鏈上新聞突破,因為該模型大小超過630GB,而硬體僅為中階,使此表現尤為突出。

一個擁有兆級參數的 AI 模型剛剛在大多數玩家視為中階的顯卡上運行。

中國 AI 愛好者 APFrisco 展示了 Moonshot AI 的 Kimi K2.5 模型,這是一個總參數達 1 兆的專家混合(MoE)大型語言模型,運行於單一 Nvidia RTX 3060 GPU 搭配 768 GB Intel Optane 持久記憶體的配置上。該設置實現了約每秒四個 token 的速度,雖按生產標準來看較慢,但在所使用的硬體條件下卻令人驚嘆。

中階 GPU 如何處理兆級參數

Kimi K2.5 並不會同時啟用全部 1 兆個參數。在生成每個 token 時,僅啟用 320 億個參數,其餘參數則處於閒置狀態,等待輪到自己。

廣告

即使使用了那項效率技巧,這個模型依然龐大。完整的 Kimi K2.5 體積約為 630 GB。經過量化的版本雖然壓縮了模型的精確度以降低記憶體需求,但仍高達約 381 GB。這就是為什麼 APFrisco 需要 768 GB 的 Intel Optane 持久記憶體:沒有任何標準的消費級 RAM 設置能接近處理如此龐大的體積。

Optane PMem DIMM 是一個有趣的選擇。英特爾已停產 Optane 產品線,意味著這些模組如今基本上是流落在二手市場的遺留硬體。它們比傳統 DRAM 要慢,但每 GB 的成本卻低得多,因此對於載入原本需要企業級基礎設施的大型模型來說,這是一種非傳統卻出人意料地實用的解決方案。

RTX 3060 於 2021 年初推出,配備 12 GB VRAM,專為 1080p 遊戲和輕量創意工作負載設計,而非運行前沿 AI 模型。

Kimi K2.5 的典型部署方式是什麼

Kimi K2.5 的高性能推理通常針對最多配備 8 個高端 GPU 的配置。這些設置的運算速度可達每秒 10 至 300 個以上的 token。

該示範於 Reddit 的 r/LocalLLaMA 社群中分享,並隨後被 Tom’s Hardware 報導。

Kimi K2.5 由 Moonshot AI 於 2026 年 1 月 27 日發布,具備多模態功能,並使用約 15 兆個混合視覺與文字標記進行訓練。這是一個開放權重模型,意味著任何人都可以下載並運行它,這正是 APFrisco 的實驗得以實現的原因。

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露