General Compute levanta US$15 milhões em financiamento semente para nuvem de inferência de IA

Relatório do CoinNews:

Após os modelos de IA entrarem em aplicação em larga escala, a demanda por capacidade de inferência no mercado continua a aumentar. Em comparação com a fase de treinamento, os requisitos para arquitetura de chip, latência e custo de implantação diferem quando os modelos geram respostas em tempo real ou executam tarefas de agente. A TechCrunch relatou que o provedor de nuvem de inferência General Compute está tentando entrar nesse mercado com uma solução de implantação mais leve.

General Compute recentemente concluiu um financiamento semente de US$ 15 milhões, com uma avaliação pós-investimento de US$ 60 milhões. Esta rodada foi liderada pela FUSE VC, com participação da Carya Venture Partners e da Village Global Ventures. A empresa se posiciona como um "推理 neocloud", alugando principalmente a capacidade de processamento de IA necessária durante a fase de inferência de modelos.

Apostar no chip de inferência da SambaNova

No mercado de infraestrutura de IA, as GPU ainda são a escolha dominante, mas cada vez mais empresas estão apostando em chips especializados para cenários de inferência. O relatório menciona que a General Compute optou por colaborar com a SambaNova, em vez de buscar diretamente recursos de GPU mais escassos.

A SambaNova é uma empresa de chips apoiada pela Intel, com foco de longo prazo no cálculo de inferência. O cofundador da General Compute afirmou que o novo chip da SambaNova, a ser lançado este ano, oferecerá maior capacidade de memória de contexto durante a inferência e uma arquitetura mais flexível. Segundo a empresa, o novo chip pode alcançar velocidades de 600 a 700 tokens por segundo, enquanto as GPUs ficam em torno de 250 tokens por segundo.

General Compute anunciou que encomendou chips SambaNova SN50 no valor de 300 milhões de dólares e se tornará a primeira empresa neocloud a implantar esses chips.

A infraestrutura atual pode ser implantada diretamente

Além da oferta de chips, outro desafio para a expansão da capacidade de IA é a implementação de data centers. Muitos chips de IA de alto desempenho exigem refrigeração líquida e configurações de energia mais elevadas, o que aumenta os custos de reforma dos data centers e alonga o ciclo de lançamento.

A solução proposta pela General Compute é utilizar chips de inferência com refrigeração por ar e menor consumo de energia. Dessa forma, os dispositivos podem ser instalados diretamente nos data centers existentes, sem a necessidade de atualizações de infraestrutura em grande escala. Para uma nova empresa de nuvem de inferência no mercado, isso significa uma formação mais rápida de capacidade de processamento disponível para locação.

A empresa atualmente está avançando em parcerias de custódia, instalando seu próprio hardware em instalações de terceiros. Os parceiros incluem não apenas operadores de data centers tradicionais, mas também empresas de mineração de criptomoedas que desejam se transformar. O relatório aponta que, em certos períodos, o custo de produção de bitcoin superou o preço de mercado, levando algumas minas a buscar novos usos para sua infraestrutura.

A competição na nuvem de raciocínio passa para velocidade e custo

O General Compute lançou o serviço em nuvem na semana passada, afirmando que possui a maior velocidade ao executar o modelo de linguagem de código aberto MiniMax 2.7. A empresa deseja reduzir tarefas de agente de codificação que antes levavam uma hora para 5 a 10 minutos, além de diminuir os custos de inferência em cenários em tempo real, como agentes de voz para atendimento ao cliente.

O investidor Joe Hassleman acredita que essa parceria é semelhante à expansão da CoreWeave de sua capacidade de computação com a Nvidia no início. Para a SambaNova, o General Compute também é um canal importante para seus chips entrarem em cenários de alto crescimento.

A report sugere que a nuvem de inferência está, essencialmente, apostando em um mercado onde múltiplos modelos e múltiplos agentes coexistem. Se, no futuro, nenhum único fornecedor de modelo dominar o mercado a longo prazo, a velocidade de inferência e o custo por unidade se tornarão indicadores de competição mais diretos. O recente fechamento da rodada B de US$ 113 milhões pela OpenRouter também reflete o aumento da demanda do mercado por acesso a múltiplos modelos e otimização de custos por token.