Ця стаття глибоко аналізує поточний стан розробки власних ШІ-чіпів світовими корпораціями, обґрунтовуючи з економічної та базової технічної точок зору, чому масові інвестиції у власні чіпи є необхідним вибором для технологічних гігантів, а також робить прогноз щодо викликів, з якими вони стикаються, і фінальної структури обчислювальних потужностей у майбутньому.

Автор статті, джерело: 0x9999in1, ME News

Вступ

З моменту вибуху генеративного ІІ наприкінці 2022 року глобальна технологічна галузь увійшла у новий етап змагань, заснований на великих моделях. У цьому змаганні обчислювальні потужності стали фундаментальною інфраструктурою, що визначає перемогу або поразку. Nvidia, завдяки довголітньому досвіду у сфері універсальних графічних процесорів (GPU) та абсолютній домінуванню екосистеми CUDA, отримала найбільші прибутки від цієї хвилі ІІ. Однак маржа прибутку вище 70% та дефіцит виробничих потужностей змусили глобальних постачальників хмарних послуг (CSP) та великих технологічних компаній у сфері ІІ відчути «анксієтет обчислювальних потужностей» — вони працюють на Nvidia.

На цьому тлі «ME News Think Tank» зафіксував, що світові лідери технологічної галузі прискорюють перенесення стратегічного акценту на нижчі рівні апаратного забезпечення, запустивши безпрецедентну хвилю «розробки власних AI-чіпів». Від північноамериканських Google, Amazon, Microsoft, Meta до китайських Huawei, Baidu, Alibaba та ByteDance — велика компанія з власним чіпом вже перетворилася з початкового «експерименту» на стратегію, що вирішує долю компанії. У цій статті глибоко проаналізовано поточний стан розробки власних AI-чіпів світовими гігантами, з економічної та базової технічної точок зору доведено, чому інвестування великих коштів у власні чіпи є необхідним вибором для технологічних гігантів, а також передбачено виклики, з якими вони стикаються, та фінальний стан майбутньої архітектури обчислювальних потужностей.

Стан розробки власних AI-чіпів провідними світовими технологічними гігантами

Наразі саморозроблені AI-чіпи великих світових компаній зосереджені в хмарі (центри обробки даних) і поділяються на дві основні сценарії: навчання (Training) та висновок (Inference). Відмінно від стратегії NVIDIA, спрямованої на універсальність, великі компанії частіше використовують архітектуру спеціалізованих інтегральних схем (ASIC), жертвуючи частковою універсальністю для досягнення максимального співвідношення ефективності до споживаної енергії у конкретних внутрішніх бізнес-сценаріях.

Три великі хмари Північної Америки та новатор

Чотири величезних хмарних провайдери Північної Америки (чотири гіперскалери) мають різницю у термінах розробки власних чіпів, але зараз вони повністю вступили у гру, створивши «хедж-пул» для зменшення залежності від обчислювальних потужностей NVIDIA.

Google: абсолютний піонер і стандарт саморозробленого напрямку

Google була першою великою компанією у світі, яка усвідомила, що глибоке навчання вимагає нових підходів до базової апаратної частини. Ще в 2015 році Google запустила перше покоління тензорних процесорів (TPU) у внутрішньому використанні. Після майже десяти років ітерацій сьогоднішні TPU досягли шостого покоління (Trillium).

Перевага Google полягає в його замкненій екосистемі: від нижчого рівня апаратного забезпечення TPU до середнього рівня компілятора XLA та фреймворку JAX, і до верхнього рівня великої моделі Gemini. Така цілісна співпраця програмного та апаратного забезпечення дозволяє Google навчати найкращі у світі багатомодальні великі моделі без залежності від GPU-кластерів NVIDIA. Значне підвищення пропускної здатності взаємозв’язку та пам’яті з високою пропускною здатністю (HBM) у TPU v5p та Trillium підтверджує, що Google має здатність побудови надвеликих кластерів, яка може конкурувати з NVLink від NVIDIA.

Amazon (AWS): з акцентом на вартість і вибір клієнта

Історія AWS у виробництві чіпів почалася в 2015 році з придбання Annapurna Labs. У сфері ШІ AWS розробляє дві лінійки продуктів: Trainium (для навчання) та Inferentia (для висновків). Стратегія AWS має чітко практичний підхід: вона не намагається повністю замінити GPU власними чіпами, а надає клієнтам хмари AWS ефективні за витратами варіанти обчислювальних ресурсів. За даними AWS, при використанні чіпа Inferentia2 для висновків великих моделей його ефективність на ват потужності на 50% вища, ніж у аналогічних екземплярів Amazon EC2.

Microsoft та Meta: від пасивного сплати до активного прориву

Microsoft та Meta були найбільшими покупцями H100/A100 від NVIDIA. Щоб підтримати навчання OpenAI та власний бізнес Copilot, Microsoft у кінці 2023 року офіційно представила власний AI-прискорювач Azure Maia 100. Цей чіп виготовлений за технологією TSMC 5 нм і розроблений спеціально для хмарного навчання та висновку.

Шлях Meta тісно пов’язаний зі своїм бізнесом. Чіп MTIA (Meta Training and Inference Accelerator), запущений ним, спочатку був розроблений виключно для глибокого навчання рекомендаційних моделей (DLRM) з метою оптимізації реклами на Facebook та Instagram. З поширенням відкритих великих моделей серії Llama, нове покоління чіпів MTIA значно підвищило підтримку інференсу генеративного ІІ, щоб знизити надзвичайно високі витрати на інференс при мільярдах викликів.

Китайські великі компанії: власна альтернатива та прорив у екосистемі

На відміну від логіки північноамериканських великих компаній, які шукають «зниження витрат та підвищення ефективності», китайські технологічні гіганти у контексті обмежень на експорт американських високотехнологічних AI-чіпів розробляють власні AI-чіпи з більш стратегічним акцентом на «захист на мінімальному рівні» та «безпеку ланцюга поставок».

Huawei: краєвою опорою китайських обчислювальних потужностей

Серія Huawei Ascend — це єдиний наразі в Китаї продукт, здатний замінити NVIDIA A100/H20 у навчанні на надвеликих кластерах. Ascend 910B використовує архітектуру Da Vinci і глибоко інтегрований з китайськими фреймворками, такими як CANN (Compute Architecture for Neural Networks) і MindSpore. Наразі більше половини провідних великих моделей в Китаї (наприклад, Xinghuo від iFlytek, Zhipu AI тощо) вже завершили або перебувають у процесі адаптації та навчання на базі обчислювальних ресурсів Ascend.

Практичний підхід інтернет-гігантів: Baidu, Alibaba та ByteDance

Кунлуньсін від Baidu є одним із перших саморозроблених AI-чіпів, що були впроваджені в інтернет-гігантах Китаю. На даний момент він досяг третього покоління і повністю підтримує висновки та часткове доналаштування великої моделі Wenxin Yiyi. Alibaba Pingtouge Semiconductor випустила чіп Hangguang 800, який зосереджений переважно на високонавантажених сценаріях висновків, таких як пошук у електронній комерції та розпізнавання зображень всередині Alibaba. ByteDance, як глобальний лідер із найбільшою потребою у обчислювальній потужності для рекомендаційних алгоритмів, хоча й увійшла на ринок пізніше, активно співпрацює з такими гігантами у сфері проектування та виробництва чіпів, як TSMC і Broadcom, щоб розробити спеціалізовані AI-ASIC-чіпи для задоволення величезних щоденних потреб у висновках моделей DouBao, TikTok та Douyin.

Таблиця 1: Огляд розташування AI-чіпів головними світовими технологічними гігантами

Глибокий аналіз: чому великий бізнес повинен інвестувати значні кошти у розробку власних AI-чіпів?

Розробка AI-чіпа з використанням передових технологій (наприклад, 5 нм/3 нм) вимагає витрат у кілька десятків мільйонів доларів на виробництво, а також необхідність утримувати величезну команду інженерів з проектування чіпів та верифікації програмного забезпечення. Незважаючи на такі високі бар’єри, технологічні гіганти продовжують активно вкладати кошти — «ME News Інтелектуальний центр» вважає, що це визначається чіткою комерційною логікою, грою в ланцюжку постачання та фундаментальними технологічними закономірностями.

Висока вартість обчислювальних потужностей та непостійність бізнес-моделі

Сьогодні бізнес-моделі генеративного ШІ стикаються з серйозним ризиком «інверсії». Навчання великої моделі рівня GPT-4 з трильйоном параметрів вимагає тисячі GPU H100, що працюють кілька місяців, і лише капітальні витрати (CapEx) на обладнання сягають сотень мільйонів доларів США. Після розгортання моделі витрати на безперервне виведення (Inference) стають бездонною ямою.

Те, що NVIDIA має ринкову капіталізацію понад трильйон доларів США, по суті означає, що вона стягує високий «податок на обчислювальну потужність» з усього AI-індустрії. Універсальні GPU повинні забезпечувати такі функції, як графічна візуалізація (Graphics) та операції з подвійною точністю (FP64), що займає велику кількість транзисторів на чипі, але є безкорисними в чисто глибокому навчанні (яке здебільшого залежить від FP16, FP8 або навіть INT8). Коли великі компанії купують GPU, вони фактично платять за ці невикористовувані «темні ділянки (Dark Silicon)».

Використовуючи власні спеціалізовані ASIC-чіпи, великі компанії можуть виключити всі зайві функції та використовувати кожен квадратний міліметр площі кремнію для оптимізації тензорних обчислень та пропускної здатності пам’яті. За оцінками галузі, у специфічних сценаріях масштабного висновку вартість однієї операції (TCO) для власних ASIC становить лише 1/3–1/5 від вартості для універсальних GPU. Для таких компаній, як Meta та ByteDance, які щодня виконують сотні мільярдів запитів на висновок, масштабне розгортання власних чіпів дозволить щороку економити мільярди доларів США на операційних витратах (OpEx). Інвестування кількох сотень мільйонів доларів США у розробку чіпів для отримання десятків мільярдів доларів США економії — це надзвичайно певна економічна угода.

Хеджування ризиків безпеки ланцюга поставок та геополітичних ризиків

Крім витрат, хрупкість ланцюга поставок — це меч Дамоклеса, що висить над величезними технологічними гігантами. NVIDIA має абсолютний вплив на розподіл виробничих потужностей, і терміни поставки ключових графічних процесорів, таких як H100/B200, часто сягають кількох місяців. Без обчислювальних потужностей розвиток AI-бізнесу великих компаній зупиняється.

Розробка власних чіпів суттєво підвищує «угодову здатність» щодо NVIDIA. Навіть якщо великі компанії не зможуть повністю відмовитися від NVIDIA у найпередовіших завданнях навчання моделей, використання власних чіпів у сфері висновків та рекомендаційних систем дозволить значно зменшити абсолютну залежність від зовнішніх універсальних GPU, отримавши більше ваги під час переговорів щодо закупівель.

Для китайських компаній розробка власних чіпів є невідворотною необхідністю. Внаслідок обмежень на експорт, встановлених Бюро промисловості та безпеки Міністерства торгівлі США, внутрішні підприємства не можуть отримати комерційні чіпи з найвищою щільністю обчислювальних потужностей та пропускною здатністю з’єднань. Створення самостійної та контролюваної бази обчислювальних потужностей шляхом розробки власних чіпів та використання внутрішньої або неамериканської напівпровідникової виробничої системи — єдиний шлях забезпечення національного суверенітету в галузі ШІ та продовження бізнесу дата-центрів компаній.

Спільна оптимізація програмного та апаратного забезпечення та диференційовані бар’єри для конкуренції

Сьогодні, коли закон Мура поступово повільняється, додатковий приріст продуктивності, що досягається лише за рахунок покращення технологічного процесу чіпів (наприклад, від 5 нм до 3 нм, а потім до 2 нм), зменшується. Майбутні прориви в обчислювальній потужності все більше залежатимуть від «програмного визначення апаратного забезпечення» та «спільного проектування програмного та апаратного забезпечення (Hardware-Software Co-design)».

Загальні GPU повинні бути сумісні з тисячами різних додатків та алгоритмів, тому їх архітектура повинна бути універсальною. Натомість чіпи, розроблені великими компаніями власноруч, можуть бути цілеспрямовано оптимізовані під типи даних, характеристики розрідженості та комунікаційні шаблони їхніх основних великих моделей.

Наприклад, якщо основна увага великої компанії зосереджена на висновку великих мовних моделей з наддовгим контекстом, її власні чіпи можуть бути спроектовані з максимальним збільшенням об’єму SRAM на кристалі або пропускної здатності пам’яті HBM, а не сліпою погонею за піковою обчислювальною потужністю (FLOPS). Така здатність «випалювати» власні алгоритми ШІ в нижчий рівень кремнію дозволяє створити досвід продуктивності, який конкуренти важко копіювати, і побудувати глибокий захист.

Реальні виклики та шляхи подолання для власних AI-чіпів

Хоча стратегічна цінність власного AI-чіпу очевидна, це далеко не простий шлях. Сліпу розробку чіпів може призвести до втрати величезних коштів і сповільнити ітерації власного AI-бізнесу.

Подолання екосистемних бар’єрів: наскільки глибокий рів CUDA?

Найбільшою перешкодою для NVIDIA є не продуктивність апаратного забезпечення, а її екосистема CUDA, яка розвивалася майже двадцять років. Наразі більшість розробників ШІ по всьому світу та провідні бібліотеки алгоритмів ШІ (наприклад, нижчі рівні операцій PyTorch) глибоко прив’язані до CUDA.

Найбільшою проблемою для великих компаній, що розробляють власні чіпи, є «легко виробляти, важко використовувати». Навіть якщо чіп успішно пройшов процес виробництва, але розробникам потрібно витратити кілька місяців на переписування нижчого рівня коду для адаптації до нового компілятора, цей чіп не зможе отримати поширення всередині компанії.

Щоб подолати цю ситуацію, галузь починає обходити CUDA з усіх боків. З одного боку, великі компанії активно розробляють власні компілятори (наприклад, XLA від Google); з іншого боку, величезні сподівання покладаються на Triton — відкриту мову програмування, запущену OpenAI. Triton має за мету надати мову з більш високим рівнем абстракції, ніж CUDA: розробники пишуть код лише один раз, а компілятор Triton перетворює його на машинний код, сумісний з різними нижчими апаратними платформами, такими як Nvidia GPU, AMD GPU та навіть ASIC від різних виробників. Коли Triton або подібна проміжна екосистема дозріє, період залежності від CUDA значно скоротиться, а витрати на міграцію на власні чіпи великих компаній суттєво зменшаться.

Великі витрати на дослідження та розробки проти ефекту масштабу

Індустрия чіпів — це ринок, де домінує ефект масштабу, і переможець отримує все. NVIDIA може розподілити свої великі витрати на дослідження та розробку на мільйони проданих GPU по всьому світу. Натомість саморозроблені чіпи великих компаній зазвичай використовуються лише всередині або для власних хмарних клієнтів, і їх обсяги поставок можуть становити лише десятки тисяч.

Якщо не вдасться досягти достатнього масштабу, вартість розподілу на одну інтегральну схему власно розробленого чіпу буде значно вищою, ніж пряме придбання універсальних GPU. Тому власна розробка AI-чіпів обов’язково стане «грою для сміливців, доступною лише небагатьом гігантам». Для середніх та дрібних технологічних компаній спроби розробляти базові AI-чіпи не лише фінансово непостійні, а й неможливі з точки зору темпів технологічного розвитку порівняно з професійними виробниками чіпів, такими як NVIDIA. Більш розумним вибором є прийняття готових хмарних сервісів для обчислень.

Таблиця 2: Порівняння переваг і недоліків комерційних загальноприйнятих GPU та ASIC-чіпів, розроблених великими компаніями

Аналіз: Фінальна еволюція структури обчислювальних потужностей у майбутньому

На основі наведеного аналізу «ME News Think Tank» робить такі висновки щодо глобальної архітектури обчислювальних потужностей ШІ на наступні 3–5 років:

Від «один домінує, багато сильних» до «вертикального розділення»: GPU домінує в навчанні, ASIC захоплює висновки

Невід’ємним лідером у дослідженні меж передових моделей ШІ (Frontier Models) на довгий час залишиться NVIDIA, оскільки під час неймовірно складного навчання з надвеликими параметрами алгоритми залишаються дуже невизначеними, і на цьому етапі критично важлива універсальність GPU та гнучкість та можливості виправлення помилок екосистеми CUDA.

Однак на етапі висновку (Inference) після дозрівання моделі та при повсякденному розгортанні масштабних інтернет-застосунків (наприклад, рекомендацій відео короткого формату, переписування пошукових систем) висока вартість універсальних GPU змусить компанії повністю перейти на власні спеціалізовані ASIC. Майбутні центри обробки даних будуть гетерогенними: невелика кількість надзвичайно дорогих кластерів GPU буде використовуватися для «варіння» (навчання наступного покоління великих моделей), тоді як мільйони власних ASIC-кластерів будуть обслуговувати мільярди запитів від кінцевих користувачів щодня.

Кастомні чіпи (Custom Silicon) стають стандартом для хмарних сервісів

Як сьогодні великі центри обробки даних самостійно розробляють материнські плати та системи охолодження серверів, глибока кастомізація на рівні чіпів стане стандартом для провідних хмарних провайдерів (CSP). Здатність до розробки власних чіпів стане ключовою конкурентною перевагою хмарних провайдерів при продажу AI-послуг клієнтам. Хмарні сервіси, що не мають можливості розробляти нижчий рівень апаратного забезпечення, в майбутньому повністю втратять простір для маржі у ціновій війні і перетворяться на чистих «підлісних орендарів».

Загалом, величезні компанії розробляють власні AI-чіпи не для того, щоб повністю «знищити» NVIDIA, а для боротьби за розподіл прибутків у епоху AI. Шляхом досягнення незалежності в обчислювальних потужностях на стороні висновків та у внутрішніх ключових бізнес-процесах технологічні гіганти відновлюють контроль над технологічними основами та комерційними прибутками. У цьому глибокому перетворенні, що поєднує програмне та апаратне забезпечення, обчислювальні потужності більше не є просто товаром, який можна купити — вони стали найважливішим стратегічним активом компанії.

Джерело:

Semianalysis. (2024). AI Inference Economics: GPUs vs Custom Silicon.
Stanford University HAI. (2024). Artificial Intelligence Index Report 2024.
Bloomberg Technology. (2023). Microsoft представить власний чіп ШІ, щоб зменшити залежність від Nvidia.
Patterson, D., et al. (2021). Викидів вуглецю та навчання великих нейронних мереж. arXiv preprint.
AWS Офіційний блог. (2023). Amazon EC2 Inf2 Інстанси для низьковартісного, високопродуктивного генеративного ІІ.