中国の愛好家が、RTX 3060と768GBのIntel Optaneメモリで、1兆パラメータのKimi K2.5を実行

1兆パラメータのAIモデルが、多くのゲーマーが中級と見なすグラフィックカード上で動作しました。

中国のAI愛好家であるAPFriscoが、Moonshot AIのKimi K2.5モデルをデモした。このモデルは、合計1兆パラメータを有するMixture-of-Experts（MoE）大規模言語モデルであり、Nvidia RTX 3060 GPUと768 GBのIntel Optaneパーシステントメモリで動作している。この設定では約4トークン/秒の速度を達成したが、製品基準では遅いものの、使用されたハードウェアを考えると驚異的である。

中級GPUが兆単位のパラメータを処理する方法

Kimi K2.5は、1兆個のパラメーターをすべて同時に起動するわけではありません。1つのトークンを生成するごとに、320億個のパラメーターのみが活性化されます。残りのパラメーターは、順番を待ってアイドル状態になっています。

その効率化テクニックを用いても、モデルは非常に巨大です。完全なKimi K2.5のサイズは約630GBです。メモリ要件を削減するためにモデルの精度を圧縮した量子化バージョンでも、約381GBに達します。そのため、APFriscoは768GBのIntel Optane永続メモリを必要としています。標準的な消費者向けRAMセットアップでは、この規模のメモリフットプリントを処理することは不可能です。

Optane PMem DIMMは興味深い選択肢です。IntelはOptaneラインを終了したため、これらのモジュールは現在、中古市場に流通するレガシーハードウェアとなっています。従来のDRAMよりも遅いですが、1GBあたりのコストがはるかに安価であり、エンタープライズグレードのインフラを必要とするような大規模モデルのロードに、非伝統的ながら意外に実用的な解決策を提供します。

RTX 3060は2021年初頭に12GBのVRAMを搭載して発売されました。これは1080pゲームや軽いクリエイティブなワークロード向けに設計されており、最先端のAIモデルを実行することを目的としていません。

Kimi K2.5の一般的なデプロイメントの形は次の通りです

Kimi K2.5の高性能推論は、最大8台のハイエンドGPUを搭載した構成を対象としています。これらの設定では、毎秒10〜300トークン以上の速度を実現します。

デモはRedditのr/LocalLLaMAコミュニティで共有され、その後Tom’s Hardwareによって報じられました。

Kimi K2.5は、Moonshot AIによって2026年1月27日にリリースされました。このモデルはマルチモーダル機能を備えており、約15兆個の画像とテキストのトークンで学習されています。オープンウェイトモデルであるため、誰でもダウンロードして実行することが可能で、正是この点がAPFriscoの実験を可能にしました。