После масштабного внедрения моделей ИИ спрос на вычислительные мощности для вывода продолжает расти. В отличие от этапа обучения, при онлайн-генерации ответов и выполнении агентских задач требования к архитектуре чипов, задержкам и стоимости развертывания отличаются. По сообщению TechCrunch, облачный провайдер вычислительных ресурсов для вывода General Compute пытается войти в этот сегмент с более легкой схемой развертывания.
General Compute недавно завершила семя-финансирование на 15 миллионов долларов США, после чего ее оценка составила 60 миллионов долларов США. Круг инвестиций возглавил FUSE VC, а также участвовали Carya Venture Partners и Village Global Ventures. Компания позиционирует себя как «推理 neocloud», основной деятельностью которой является аренда вычислительных мощностей, необходимых для работы моделей на этапе вывода.
Ставка на чипы SambaNova для вывода
На рынке инфраструктуры ИИ GPU остаются основным выбором, но все больше компаний начинают делать ставку на чипы, специально ориентированные на сценарии вывода. В статье отмечается, что General Compute выбрал сотрудничество с SambaNova, вместо того чтобы напрямую конкурировать за дефицитные ресурсы GPU.
SambaNova — это компания по производству чипов, поддерживаемая Intel, которая долгое время сосредоточена на вычислениях для вывода. Сооснователь General Compute заявил, что новая чип-платформа SambaNova, которая будет запущена в этом году, обеспечит более высокую емкость контекстной памяти при выводе и более гибкую архитектуру. По данным компании, новая чип-платформа способна обрабатывать от 600 до 700 токенов в секунду, в то время как GPU — около 250 токенов в секунду.
General Compute сообщила, что заказала чипы SambaNova SN50 на сумму 300 миллионов долларов США и станет первой neocloud-компанией, внедрившей эти чипы.
Существующие серверные помещения можно развернуть напрямую
Помимо обеспечения чипов, еще одной трудностью расширения вычислительных мощностей ИИ является развертывание серверных помещений. Многие высокопроизводительные ИИ-чипы требуют жидкостного охлаждения и более высокой мощности электропитания, что увеличивает стоимость модернизации центров обработки данных и удлиняет сроки вывода на рынок.
General Compute предлагает решение с использованием охлаждаемых воздухом чипов для инференса с более низким энергопотреблением. Это позволяет установить оборудование непосредственно в существующие центры обработки данных без предварительной масштабной модернизации инфраструктуры. Для новой компании на рынке облачного инференса это означает более быстрое формирование доступной для аренды вычислительной мощности.
Компания в настоящее время продвигает партнерство по хостингу, размещая собственное оборудование в объектах третьих сторон. Партнерами являются не только традиционные операторы центров обработки данных, но и криптомайнеры, стремящиеся к трансформации. Согласно отчету, в некоторые периоды стоимость производства биткоина превышала рыночную цену, что побудило некоторые майнинговые фермы искать новые применения для своей инфраструктуры.
Конкуренция в облачных вычислениях смещается в сторону скорости и стоимости
General Compute запустила облачные услуги на прошлой неделе, заявив, что она демонстрирует лучшую производительность при запуске открытой большой модели MiniMax 2.7. Компания стремится сократить время выполнения задач для кодирующих агентов с одного часа до 5–10 минут, а также снизить затраты на вывод в реальном времени, например, для голосовых агентов службы поддержки.
Инвестор Джо Хасслман считает, что это партнерство похоже на раннее расширение вычислительных мощностей CoreWeave за счет Nvidia. Для SambaNova General Compute также является важным каналом вывода их чипов на высокорастущие сегменты.
Согласно отчету, облачные вычисления для вывода по сути делают ставку на рынок, где сосуществуют несколько моделей и агентов. Если в будущем ни один поставщик моделей не будет доминировать долгосрочно, скорость вывода и стоимость на единицу станут более прямыми показателями конкуренции. Недавнее завершение OpenRouter B-раунда финансирования на сумму 113 миллионов долларов также отражает растущий спрос на поддержку нескольких моделей и оптимизацию стоимости токенов.

