Después de que los modelos de IA entraran en aplicación a gran escala, la demanda de capacidad de inferencia en el mercado continuó aumentando. En comparación con la fase de entrenamiento, los requisitos para la arquitectura de chips, la latencia y los costos de despliegue difieren cuando los modelos generan respuestas en línea o ejecutan tareas de agentes. TechCrunch informó que el proveedor de nube de inferencia General Compute está intentando ingresar a este mercado con una solución de despliegue más ligera.
General Compute recientemente completó una ronda de financiación semilla de 15 millones de dólares, con una valoración posterior a la ronda de 60 millones de dólares. Esta ronda fue liderada por FUSE VC, con participación de Carya Venture Partners y Village Global Ventures. La empresa se posiciona como un "neocloud de inferencia", principalmente alquilando la capacidad de procesamiento de IA necesaria durante la fase de ejecución de modelos.
Apuesta por el chip de inferencia de SambaNova
En el mercado de infraestructura de IA, las GPU siguen siendo la opción principal, pero cada vez más empresas están apostando por chips diseñados específicamente para escenarios de inferencia. El informe menciona que General Compute optó por colaborar con SambaNova en lugar de competir directamente por los recursos de GPU más limitados.
SambaNova es una empresa de chips respaldada por Intel, enfocada desde hace tiempo en el cálculo de inferencia. El cofundador de General Compute afirmó que el nuevo chip que SambaNova lanzará este año ofrecerá una mayor capacidad de memoria contextual durante la inferencia y una arquitectura más flexible. Según la empresa, el nuevo chip puede alcanzar velocidades de 600 a 700 tokens por segundo, mientras que las GPU alcanzan aproximadamente 250 tokens por segundo.
General Compute indica que ha realizado un pedido de chips SambaNova SN50 por un valor de 300 millones de dólares y se convertirá en la primera empresa neocloud en implementar estos chips.
Las instalaciones actuales pueden desplegarse directamente
Además de la oferta de chips, otro desafío para la expansión de la capacidad de IA es la implementación de centros de datos. Muchos chips de IA de alto rendimiento requieren refrigeración líquida y configuraciones eléctricas más elevadas, lo que aumenta los costos de modificación de los centros de datos y prolonga los plazos de puesta en marcha.
La propuesta de General Compute consiste en utilizar chips de inferencia con refrigeración por aire y menor consumo de energía. De esta manera, los equipos pueden instalarse directamente en los centros de datos existentes sin necesidad de realizar primero una actualización masiva de la infraestructura. Para una empresa nueva en el mercado de la nube de inferencia, esto significa una formación más rápida de capacidad de cómputo disponible para alquilar.
La empresa actualmente está avanzando en colaboraciones de custodia, instalando su propio hardware en instalaciones de terceros. Los socios incluyen no solo operadores de centros de datos tradicionales, sino también empresas de minería de criptomonedas que buscan transformarse. El informe señala que, en algunos períodos, el costo de producción de Bitcoin superó el precio de mercado, lo que impulsó a algunas minas a buscar nuevos usos para su infraestructura.
La competencia en la nube de inferencia se desplaza hacia la velocidad y el costo
General Compute lanzó su servicio en la nube la semana pasada y afirmó que lidera en velocidad al ejecutar el modelo de lenguaje de código abierto MiniMax 2.7. La empresa busca reducir tareas de agentes de codificación que anteriormente requerían una hora a entre 5 y 10 minutos, así como disminuir los costos de inferencia en escenarios en tiempo real como agentes de voz para atención al cliente.
El inversionista Joe Hassleman considera que esta asociación es similar a la expansión de capacidad de cómputo de CoreWeave en su etapa inicial mediante Nvidia. Para SambaNova, General Compute también es un canal importante para que sus chips accedan a escenarios de alto crecimiento.
El informe sostiene que la nube de inferencia está apostando fundamentalmente por un mercado donde coexistan múltiples modelos y agentes. Si en el futuro no existe un proveedor único de modelos que mantenga un monopolio duradero, la velocidad de inferencia y el costo por unidad se convertirán en indicadores de competencia más directos. La reciente financiación de la ronda B de OpenRouter por 113 millones de dólares también refleja un creciente interés del mercado por el acceso a múltiples modelos y la optimización del costo por token.

