Після масового впровадження моделей ШІ попит на обчислювальну потужність для висновків продовжує зростати. У порівнянні з етапом навчання, під час он-лайн генерації відповідей та виконання агентських завдань моделі вимагають інших вимог до архітектури чіпів, затримки та витрат на розгортання. За повідомленням TechCrunch, провайдер хмарних послуг для висновків General Compute намагається увійти на цей ринок за допомогою більш легкого рішення для розгортання.
General Compute недавно завершила семінарне фінансування на 15 мільйонів доларів США, після чого її оцінка склала 60 мільйонів доларів США. У циклі лідером була FUSE VC, а участь взяли Carya Venture Partners і Village Global Ventures. Компанія позиціонує себе як «推理 neocloud» і здійснює оренду AI-обчислювальних потужностей, необхідних для етапу виконання моделей.
Ставка на інференс-чіпи SambaNova
На ринку інфраструктури для ШІ GPU залишається основним вибором, але все більше компаній починають робити ставку на чіпи, спеціалізовані для сценаріїв висновку. У матеріалі зазначається, що General Compute обрав співпрацю з SambaNova, а не безпосередньо боротьбу за обмежені ресурси GPU.
SambaNova — це компанія з виробництва чіпів, яку підтримує Intel, і яка довгий час спеціалізується на обчисленнях для висновків. Співзасновник General Compute зазначив, що новий чіп, який SambaNova планує випустити цього року, забезпечить більшу пам’ять для контексту під час висновків і більш гнучку архітектуру. За даними компанії, швидкість нового чіпа становить 600–700 токенів на секунду, тоді як у GPU — приблизно 250 токенів на секунду.
General Compute повідомила, що замовила чіпи SambaNova SN50 на суму 300 мільйонів доларів США і стане першою neocloud-компанією, яка впровадить ці чіпи.
Існуючі серверні можна безпосередньо використовувати для розгортання
Крім постачання чіпів, іншою складністю розширення AI-обчислювальних потужностей є впровадження серверних. Багато високопродуктивних AI-чіпів вимагають рідинного охолодження та більш високої потужності живлення, що збільшує витрати на модернізацію центрів обробки даних і продовжує терміни запуску.
Рішення General Compute передбачає використання охолоджуваних повітрям, менш енергомістких чіпів для висновків. Це дозволяє встановлювати обладнання безпосередньо в існуючих центрах обробки даних, не вимагаючи попереднього масштабного оновлення інфраструктури. Для нової компанії на ринку хмарних обчислень для висновків це означає швидше формування обчислювальних потужностей, які можна здавати в оренду.
Компанія зараз розширює партнерство зі зберіганням, розміщуючи власне обладнання у сторонніх об’єктах. Партнерами є не лише традиційні оператори центрів обробки даних, а й криптомайнінгові компанії, які прагнуть трансформуватися. За повідомленням, у певні періоди вартість виробництва біткойнів перевищувала ринкову ціну, що спонукало деякі майнінг-фарми шукати нові застосування для інфраструктури.
Конкуренція в інфраструктурі для виведення моделей зміщується на швидкість і витрати
General Compute на минулому тижні запустила хмарні сервіси, стверджуючи, що вони мають найвищу швидкість при запуску відкритих великих моделей MiniMax 2.7. Компанія прагне зменшити час виконання завдань кодування з одного години до 5–10 хвилин, а також знизити витрати на висновки у реальному часі, наприклад, для голосових агентів служби підтримки.
Інвестор Джо Хасслман вважає, що ця партнерська угода схожа на ранній розвиток CoreWeave за допомогою Nvidia для розширення обчислювальних потужностей. Для SambaNova General Compute є важливим каналом для входу їхніх чіпів у високоростучі сценарії.
Стаття вважає, що інференс-хмарна інфраструктура в основному робить ставку на ринок, де співіснують кілька моделей та агентів. Якщо в майбутньому жоден постачальник моделей не зможе довгостроково монополізувати ринок, швидкість інференсу та вартість на один токен стануть більш прямими показниками конкуренції. Недавнє завершення OpenRouter B-раунду фінансування на 113 мільйонів доларів США також свідчить про зростання попиту на підтримку багатьох моделей та оптимізацію вартості токенів.

