AIモデルが大規模な応用に移行した後、推論計算リソースに対する需要は引き続き上昇している。トレーニング段階とは異なり、モデルがオンラインで回答を生成したりエージェントタスクを実行したりする際には、チップアーキテクチャ、遅延、デプロイコストに対する要件が異なる。TechCrunchは、推論クラウドサービスプロバイダーのGeneral Computeが、より軽量なデプロイソリューションでこの分野に参入しようとしていると報じている。
General Computeは、先日1500万ドルのシードラウンドを完了し、投資後評価額は6000万ドルとなった。本ラウンドはFUSE VCが主導し、Carya Venture PartnersおよびVillage Global Venturesが参投した。同社は「推論neocloud」として位置づけられ、主にモデルの推論段階に必要なAI処理能力をレンタルしている。
SambaNova 推論チップに賭ける
AIインフラ市場では、GPUが依然として主流だが、推論用途に特化したチップに注目する企業が増えてきている。報道によると、General Computeは、より需給が逼迫するGPUリソースを直接追求するのではなく、SambaNovaと提携することを選んだ。
SambaNovaはインテルの支援を受けるチップ企業で、長年にわたり推論計算に焦点を当ててきました。General Computeの共同創業者によると、SambaNovaは今年、推論時により高いコンテキスト記憶能力を提供し、アーキテクチャも柔軟性が向上した新チップを発表する予定です。同社の説明によると、新チップの速度は秒間600〜700トークンに達し、GPUは約秒間250トークンです。
General Computeは、価値3億ドルのSambaNova SN50チップを注文し、このチップを最初に導入するneocloud企業となります。
現在の機械室に直接デプロイ可能です
チップ供給に加え、AI計算能力の拡張におけるもう一つの課題は、データセンターの設置です。多くの高性能AIチップは液体冷却と更高電力設定を必要とし、これによりデータセンターの改修コストが上昇し、稼働までの期間が長くなります。
General Computeの提案は、風冷で消費電力が低い推論チップを使用することです。これにより、大規模なインフラ整備を事前に行うことなく、既存のデータセンターに直接装置を設置できます。新規で推論クラウド市場に参入する企業にとって、これは迅速に賃貸可能な計算リソースを構築できることを意味します。
同社は現在、自社のハードウェアをサードパーティの施設に設置するための託送協力を推進しており、従来のデータセンターオペレーターだけでなく、転換を図る暗号通貨鉱業企業も含んでいる。報道によると、一部の時期にはビットコインの生産コストが市場価格を上回り、一部の鉱山が新たなインフラ用途を探している。
推論クラウドの競争は速度とコストにシフトしている
General Computeは先週、クラウドサービスをリリースし、オープンソースの大規模モデルMiniMax 2.7を実行する際に速度でリードしていると発表しました。同社は、元々1時間かかっていたコーディングエージェントタスクを5〜10分に短縮することを目的としており、カスタマーサポートの音声エージェントなどのリアルタイムシナリオにおける推論コストの削減も目指しています。
投資家のJoe Hasslemanは、この提携が、CoreWeaveがNvidiaと提携して計算能力を拡大した初期の段階と類似していると考えている。SambaNovaにとって、General Computeは、そのチップが高成長シーンに進出するための重要なチャネルである。
報道は、推論クラウドが「マルチモデル・マルチエージェント」が共存する市場に賭けていると評価している。今後、単一のモデルプロバイダーが長期的に独占しない場合、推論速度と単位コストがより直接的な競争指標となるだろう。最近、OpenRouterが1億1300万ドルのBラウンド資金調達を完了したことは、マルチモデル対応とトークンコスト最適化に対する市場の需要が高まっていることを示している。

