В этой статье будет проведён глубокий анализ текущего состояния разработки собственных ИИ-чипов крупнейшими мировыми компаниями, с точки зрения экономики и базовых технических логик будет обосновано, почему значительные инвестиции в собственные чипы являются неизбежным выбором для технологических гигантов, а также будут рассмотрены вызовы, с которыми они сталкиваются, и возможная итоговая картина вычислительных мощностей в будущем.

Автор статьи, источник: 0x9999in1, ME News

Введение

С момента всплеска генеративного ИИ в конце 2022 года глобальная технологическая отрасль вступила в новую волну гонки вооружений, основанную на крупных моделях. В этой гонке вычислительные мощности стали фундаментальной инфраструктурой, определяющей успех или провал. NVIDIA, благодаря длительному опыту в области универсальных графических процессоров (GPU) и абсолютному доминированию экосистемы CUDA, захватила самую большую прибыль от этой волны ИИ. Однако маржа свыше 70% и дефицит производственных мощностей заставили глобальных провайдеров облачных услуг (CSP) и технологических гигантов ИИ испытывать «вычислительную тревогу» — ощущение, будто они работают на NVIDIA.

На этом фоне «ME News Think Tank» отмечает, что ведущие мировые технологические гиганты ускоряют смещение стратегического фокуса в сторону базового аппаратного обеспечения, вызвав беспрецедентную волну «разработки собственных ИИ-чипов». От таких компаний Северной Америки, как Google, Amazon, Microsoft и Meta, до китайских Huawei, Baidu, Alibaba и ByteDance — создание собственных чипов перешло от ранней «пробы сил» к стратегии, определяющей выживание компаний. В этой статье глубоко анализируется текущее состояние разработки собственных ИИ-чипов мировыми гигантами, с точки зрения экономики и базовых технических логик объясняется, почему крупные инвестиции в собственную разработку чипов являются неизбежным выбором для технологических гигантов, а также прогнозируются стоящие перед ними вызовы и окончательная структура вычислительных мощностей в будущем.

Текущее состояние разработки собственных ИИ-чипов ведущими мировыми технологическими гигантами

В настоящее время собственные ИИ-чипы крупных мировых компаний сосредоточены преимущественно в облаке (центры обработки данных) и делятся на две основные сферы применения: обучение (Training) и вывод (Inference). В отличие от подхода NVIDIA, ориентированного на универсальность, крупные компании чаще используют архитектуру специализированных интегральных схем (ASIC), жертвуя частью универсальности ради достижения максимальной энергоэффективности в конкретных внутренних бизнес-сценариях.

Тройственное равновесие североамериканских облачных провайдеров и новатор

Североамериканские четыре крупнейших облачных оператора (четыре гипермасштабируемых провайдера) действуют с временным сдвигом в разработке собственных чипов, но сейчас полностью вошли в игру, сформировав «хедж-пул» для снижения зависимости от вычислительных мощностей NVIDIA.

Google: абсолютный пионер и эталон собственного пути

Google была первой из крупных компаний, осознавшей, что глубокое обучение требует совершенно новых подходов к базовому оборудованию. Еще в 2015 году Google внедрила в своей инфраструктуре первый поколение тензорных процессоров (TPU). После почти десятилетия итераций нынешние TPU достигли шестого поколения (Trillium).

Преимущество Google заключается в его замкнутой экосистеме: от базового оборудования TPU до промежуточного компилятора XLA и фреймворка JAX, а также до верхнеуровневой большой модели Gemini. Такая комплексная интеграция программного и аппаратного обеспечения позволяет Google обучать передовые мультимодальные большие модели, не полагаясь на кластеры GPU от NVIDIA. Значительное повышение пропускной способности взаимосвязи и высокоскоростной памяти (HBM) в TPU v5p и Trillium демонстрирует, что Google обладает способностью к построению сверхмасштабных кластеров, способной конкурировать с NVLink от NVIDIA.

Amazon (AWS): с акцентом на стоимость и выбор клиентов

История AWS в создании чипов началась в 2015 году с приобретения Annapurna Labs. В области ИИ AWS разработала две линейки продуктов: Trainium (для обучения) и Inferentia (для вывода). Стратегия AWS отличается крайним прагматизмом: она не стремится полностью заменить GPU собственными чипами, а предлагает клиентам облака AWS высокопроизводительные и экономически выгодные варианты вычислений. Согласно официальным данным AWS, использование чипа Inferentia2 для вывода больших моделей обеспечивает на 50% более высокую производительность на ватт по сравнению с аналогичными экземплярами Amazon EC2.

Microsoft и Meta: от пассивной оплаты к активному прорыву

Microsoft и Meta были крупнейшими покупателями чипов NVIDIA H100/A100 ранее. Для поддержки обучения OpenAI и собственного бизнеса Copilot Microsoft официально выпустила собственный AI-beschleuniger Azure Maia 100 в конце 2023 года. Этот чип изготовлен по технологии TSMC 5 нм и специально разработан для облачного обучения и вывода.

Путь Meta тесно связан с его собственным бизнесом. Чип MTIA (Meta Training and Inference Accelerator), выпущенный компанией, изначально разрабатывался специально для моделей глубокого обучения для рекомендаций (DLRM) с целью оптимизации рекламных рассылок на Facebook и Instagram. С ростом популярности открытых крупных моделей серии Llama, новое поколение чипов MTIA значительно улучшило поддержку инференса генеративного ИИ, чтобы снизить огромные затраты на инференс, связанные с сотнями миллиардов вызовов.

Китайские крупные компании: отечественная замена и прорыв в экосистеме

В отличие от крупных североамериканских компаний, стремящихся к снижению затрат и повышению эффективности, китайские технологические гиганты в условиях ограничений на экспорт американских высокотехнологичных ИИ-чипов придают самостоятельной разработке ИИ-чипов стратегический характер, направленный на «защиту на минимальном уровне» и «обеспечение безопасности цепочки поставок».

Huawei: Китайский столп вычислительных мощностей

Серия Huawei Ascend — единственный отечественный продукт, способный заменить NVIDIA A100/H20 при обучении на сверхмасштабных кластерах. Ascend 910B использует архитектуру Da Vinci и глубоко интегрирован с отечественными фреймворками, такими как CANN (Compute Architecture for Neural Networks) и MindSpore. В настоящее время более половины ведущих отечественных крупных моделей (таких как Xinghuo от iFlytek и Zhipu AI) завершили или正在进行 адаптацию и обучение на основе вычислительной платформы Ascend.

Практичный подход крупных интернет-компаний: Baidu, Alibaba и ByteDance

Байду Kunlun — одна из первых в Китае саморазработанных ИИ-чипов крупных интернет-компаний, уже перешедшая на третье поколение и полностью поддерживающая вывод и частную тонкую настройку крупной модели Wenxin Yiyan. Alibaba Pingtouge Semiconductor выпустила чип Hanguang 800, ориентированный в основном на высоконагруженные сценарии вывода, такие как электронная коммерция и поиск, а также распознавание изображений внутри Alibaba. ByteDance, как компания с крупнейшим в мире спросом на вычислительные мощности для рекомендательных алгоритмов, хотя и вошла в отрасль позже, активно сотрудничает с такими гигантами в области проектирования и производства чипов, как TSMC и Broadcom, для создания специализированных ИИ-ASIC-чипов, чтобы справиться с огромными ежедневными потребностями в выводе для своих моделей DouBao, TikTok и Douyin.

Таблица 1: Обзор развертывания ИИ-чипов крупнейшими мировыми технологическими гигантами

Глубокий анализ: почему крупным компаниям необходимо серьезно инвестировать в разработку собственных ИИ-чипов?

Разработка AI-чипа с использованием передовых технологических процессов (например, 5 нм/3 нм) требует затрат в десятки миллионов долларов на производство, а также содержания крупной команды по проектированию чипов и верификации программного обеспечения. Несмотря на такие высокие барьеры для входа, технологические гиганты продолжают активно вкладываться в эту область. «ME News Интеллектуальный центр» считает, что за этим стоят четкая бизнес-логика,博弈 в цепочке поставок и фундаментальные технологические закономерности.

Высокая стоимость вычислительной мощности и неустойчивость бизнес-модели

Сейчас бизнес-модели генеративного ИИ сталкиваются с серьезным риском инверсии. Обучение большой модели уровня GPT-4 с триллионами параметров требует работы нескольких десятков тысяч GPU H100 в течение нескольких месяцев, причем только капитальные затраты (CapEx) на оборудование составляют сотни миллионов долларов. После развертывания модели постоянные расходы на вывод (Inference) становятся бесконечной ямой.

NVIDIA имеет рыночную капитализацию более триллиона долларов, потому что фактически взимает высокую «налог на вычислительные мощности» со всей индустрии ИИ. Универсальные GPU должны обеспечивать такие функции, как графическая визуализация (Graphics) и операции с двойной точностью (FP64), которые занимают огромную площадь транзисторов на чипе, но совершенно бесполезны в чисто глубоком обучении (в основном зависящем от FP16, FP8 и даже INT8). Крупные компании, покупающие GPU, фактически платят за эти неиспользуемые «темные участки (Dark Silicon)».

Используя собственные специализированные ASIC-чипы, крупные компании могут исключить все лишние функции и полностью использовать каждую единицу площади кремния для оптимизации тензорных вычислений и пропускной способности памяти. По оценкам отрасли, в определенных сценариях масштабного вывода стоимость одной операции (TCO) для собственных ASIC-чипов составляет лишь 1/3–1/5 от стоимости аналогичной операции на универсальных GPU. Для таких компаний, как Meta и ByteDance, которым ежедневно требуется выполнить сотни миллиардов вызовов вывода, масштабное развертывание собственных чипов позволит ежегодно сэкономить миллиарды долларов в виде операционных расходов (OpEx). Вложение нескольких сотен миллионов долларов в разработку чипов ради экономии десятков миллиардов — это чрезвычайно надежная экономическая сделка.

Хеджирование рисков безопасности цепочки поставок и геополитических рисков

Помимо стоимости, уязвимость цепочки поставок — это меч Дамоклес, нависший над технологическими гигантами. NVIDIA обладает абсолютным влиянием на распределение мощностей, и сроки поставки ключевых графических процессоров, таких как H100/B200, часто длятся несколько месяцев. Без вычислительной мощности прогресс AI-бизнеса крупных компаний останавливается.

Разработка собственных чипов по сути повышает «переговорную силу» по отношению к NVIDIA. Даже если крупные компании не могут полностью отказаться от NVIDIA в обучении самых передовых моделей, использование собственных чипов на стороне вывода и в рекомендательных системах значительно снижает абсолютную зависимость от внешних универсальных GPU, тем самым увеличивая их переговорные позиции при закупках.

Для китайских предприятий разработка собственных чипов — это неизбежная и обязательная необходимость. Из-за экспортных ограничений BIS Министерства торговли США компании внутри страны не могут получать коммерческие чипы с наивысшей плотностью вычислительной мощности и пропускной способностью соединений. Создание автономной и контролируемой вычислительной базы за счет собственной разработки и использования отечественных или неамериканских полупроводниковых производственных систем — единственный путь обеспечения национального суверенитета в области ИИ и продолжения бизнеса центров обработки данных компаний.

Совместная оптимизация программного и аппаратного обеспечения и дифференцированные барьеры для конкуренции

Сегодня, когда закон Мура постепенно замедляется, прирост производительности, обусловленный исключительно улучшением технологического процесса чипов (например, переход с 5 нм на 3 нм, а затем на 2 нм), становится все менее значимым. Будущие прорывы в вычислительной мощности все больше зависят от концепции «программно определяемого оборудования» и «совместного проектирования программного и аппаратного обеспечения (Hardware-Software Co-design)».

Общие GPU должны быть совместимы с тысячами различных приложений и алгоритмов, поэтому их архитектура должна быть нейтральной. В то время как крупные компании могут разрабатывать собственные чипы, полностью оптимизируя их под типы данных, характеристики разреженности и модели связи своих ключевых крупных моделей.

Например, если основной фокус крупной компании направлен на вывод больших языковых моделей с очень длинным контекстом, их собственные чипы могут быть спроектированы с максимальным увеличением объема SRAM на чипе или пропускной способности памяти HBM, а не слепой гонкой за пиковыми вычислительными мощностями (FLOPS). Такая способность «вписать» собственные алгоритмы ИИ в нижележащий кремний позволяет создать опыт производительности, который конкуренты не могут легко скопировать, и построить глубокий защитный барьер.

Реальные вызовы и пути преодоления для собственных ИИ-чипов

Хотя стратегическая ценность собственной разработки ИИ-чипов очевидна, это далеко не легкий путь. Слепое производство чипов может не только привести к огромным финансовым потерям, но и замедлить итерации собственного ИИ-бизнеса.

Преодоление экосистемных барьеров: насколько глубок ров защиты CUDA?

Самым серьезным барьером для NVIDIA является не производительность оборудования, а экосистема программного обеспечения CUDA, которую она развивает уже почти двадцать лет. В настоящее время подавляющее большинство разработчиков ИИ и ведущие библиотеки алгоритмов ИИ (такие как нижележащие операторы PyTorch) тесно интегрированы с CUDA.

Главная проблема, с которой сталкиваются крупные компании при разработке собственных чипов, — это «легко создать, но сложно использовать». Даже если производство чипа прошло успешно, если разработчикам требуется несколько месяцев на переписывание нижележащего кода для адаптации к новому компилятору чипа, этот чип не сможет быть внедрен внутри компании.

Чтобы разорвать ситуацию, отрасль инициирует «окружение» CUDA. С одной стороны, крупные компании активно разрабатывают собственные компиляторы (например, XLA от Google); с другой стороны, открытый язык программирования Triton, представленный OpenAI, вызывает большие надежды. Triton призван предоставить язык с более высоким уровнем абстракции, чем CUDA: разработчики пишут код один раз, а компилятор Triton преобразует его в машинный код, адаптированный для различных нижележащих аппаратных платформ (таких как Nvidia GPU, AMD GPU и даже ASIC от различных производителей). Как только Triton или подобная экосистема промежуточного уровня станет зрелой, период эксплуатации CUDA будет значительно сокращен, а затраты на миграцию собственных чипов крупных компаний значительно снизятся.

Соперничество между огромными затратами на исследования и разработки и эффектом масштаба

Отрасль чипов — это рынок, где побеждает тот, кто обладает масштабом, и победитель забирает всё. NVIDIA может распределить свои огромные расходы на исследования и разработку на миллионы единиц GPU, отгружаемых по всему миру. В то время как собственные чипы крупных компаний, как правило, используются исключительно внутри компании или для собственных облачных клиентов, и их объем отгрузки может составлять лишь десятки тысяч единиц.

Если не удастся достичь достаточного масштаба, стоимость на единицу собственного чипа будет намного выше, чем прямая покупка универсальных GPU. Следовательно, разработка собственных ИИ-чипов обречена быть «игрой для смельчаков, доступной лишь немногим гигантам». Для технологических компаний со средним и низким уровнем дохода попытка разработки базовых ИИ-чипов не только финансово неустойчива, но и не позволяет успевать за темпами технологического развития таких специализированных производителей чипов, как NVIDIA. Более разумным выбором является использование готовых облачных сервисов для вычислений.

Таблица 2: Сравнение преимуществ и недостатков коммерческих универсальных GPU и ASIC-чипов, разработанных крупными компаниями

Анализ: Финальная эволюция будущей структуры вычислительной мощности

На основе вышеизложенного анализа «ME News Think Tank» делает следующие выводы о глобальной архитектуре вычислительных мощностей ИИ на ближайшие 3–5 лет:

От «одного доминирующего и многих сильных» к «вертикальному разделению»: GPU доминирует в обучении, ASIC захватывает вывод

NVIDIA в течение длительного времени останется незаменимым лидером в исследовании границ передовых ИИ-моделей (Frontier Models), поскольку при чрезвычайно сложных тренировках с огромным количеством параметров алгоритмы по-прежнему обладают высокой неопределенностью, и на этом этапе особенно необходимы универсальность GPU и гибкость, а также возможность исправления ошибок в экосистеме CUDA.

Однако на этапе вывода (Inference) после зрелости модели, а также при повседневном развертывании в масштабных интернет-приложениях (таких как рекомендации коротких видео, переписывание поисковых систем), высокая стоимость универсальных GPU заставит компании полностью перейти на собственные специализированные ASIC. Будущие центры обработки данных будут гетерогенными: небольшое количество чрезвычайно дорогих кластеров GPU будет использоваться для «варки» (обучения следующего поколения крупных моделей), тогда как огромные кластеры собственных ASIC будут обрабатывать миллиарды запросов от конечных пользователей ежедневно.

Кастомные чипы (Custom Silicon) становятся стандартом для облачных сервисов

Как сегодня крупные центры обработки данных проектируют собственные материнские платы и системы охлаждения, глубокая кастомизация на уровне чипов станет стандартом для ведущих облачных провайдеров (CSP). Способность разрабатывать собственные чипы станет ключевым конкурентным преимуществом облачных провайдеров при продаже AI-услуг клиентам. Облачные провайдеры, не обладающие возможностью разработки базового оборудования, в будущей ценовой войне полностью потеряют маржинальность и превратятся в чистых «вторичных арендодателей серверных помещений».

В целом, крупные компании, разрабатывающие собственные ИИ-чипы, не стремятся полностью «уничтожить» NVIDIA, а ведут борьбу за право распределения прибыли в эпоху ИИ. За счет обеспечения независимости вычислительных мощностей на стороне инференса и в ключевых внутренних бизнес-процессах технологические гиганты возвращают себе контроль над технологическими ресурсами и коммерческой прибылью. В рамках этого глубокого изменения, основанного на синергии программного и аппаратного обеспечения, вычислительные мощности больше не являются просто товарами, которые можно купить, а превращаются в самый важный стратегический актив компании.

Источник:

Semianalysis. (2024). Экономика инференса ИИ: GPU против специализированного кремния.
Stanford University HAI. (2024). Artificial Intelligence Index Report 2024.
Bloomberg Technology. (2023). Microsoft представит собственный ИИ-чип, чтобы уменьшить зависимость от Nvidia.
Patterson, D., et al. (2021). Выбросы углерода и обучение крупных нейронных сетей. arXiv preprint.
AWS Официальный блог. (2023). Amazon EC2 Inf2 Instances для недорогих и высокопроизводительных генеративных ИИ.