隨著 AI 模型進入大規模應用,市場對推理算力的需求持續上升。與訓練階段相比,模型在線生成回答、執行代理任務時,對晶片架構、延遲和部署成本的要求並不相同。TechCrunch 報導稱,推理雲服務商 General Compute 正試圖以一套更輕量的部署方案切入這一賽道。
General Compute 近日完成 1500 萬美元種子輪融資,投後估值為 6000 萬美元。本輪由 FUSE VC 領投,Carya Venture Partners 和 Village Global Ventures 參投。公司定位為「推理 neocloud」,主要出租模型運行階段所需的 AI 處理能力。
賭注 SambaNova 推理晶片
在 AI 基礎設施市場,GPU 仍是主流選擇,但越來越多公司開始押注專門面向推理場景的晶片。報導提到,General Compute 選擇與 SambaNova 合作,而不是直接追逐更緊張的 GPU 資源。
SambaNova 是一家獲得英特爾支持的晶片公司,長期專注於推理計算。General Compute 的聯合創始人表示,SambaNova 今年將推出的新晶片在推理時可提供更高的上下文儲存能力,架構也更靈活。根據公司說法,新晶片的速度可達每秒 600 至 700 個 token,而 GPU 約為每秒 250 個 token。
General Compute 表示,已下單價值 3 億美元的 SambaNova SN50 芯片,並將成為首家部署這批芯片的 neocloud 公司。
現有機房可直接部署
除了晶片供應外,AI 算力擴張的另一項難題是機房落地。許多高性能 AI 晶片需要液冷和更高的電力配置,這會推高資料中心改造成本,也拉長上線週期。
General Compute 提出的方案是使用風冷、功耗更低的推理晶片。這樣一來,設備可直接安裝於現有資料中心,無需先進行大規模基礎設施升級。對一家新進入市場的推理雲公司而言,這意味著能更快形成可出租的算力。
公司目前正推進托管合作,將自有硬體置入第三方設施中。合作對象不僅包括傳統數據中心運營商,也包括希望轉型的加密礦企。報導指出,在部分時期,比特幣生產成本高於市場價格,促使一些礦場尋找新的基礎設施用途。
推理雲競爭轉向速度與成本
General Compute 上週已推出雲服務,並稱其在運行開源大模型 MiniMax 2.7 時速度領先。公司希望將原本需要一小時的編碼代理任務壓縮至 5 至 10 分鐘,也希望降低客服語音代理等實時場景的推理成本。
投資人 Joe Hassleman 認為,這種合作關係與早期 CoreWeave 借助 Nvidia 擴張算力有相似之處。對 SambaNova 來說,General Compute 也是其晶片進入高增長場景的重要渠道。
報導認為,推理雲本質上是在押注一個「多模型、多代理」並存的市場。若未來沒有單一模型供應商長期壟斷,推理速度和單位成本就會成為更直接的競爭指標。近期 OpenRouter 完成 1.13 億美元 B 輪融資,也反映出市場對多模型接入和 token 成本優化的需求正在上升。

