Вузькі місця в ланцюжку постачання AI-обчислень зміщуються з GPU на енергопостачання та охолодження

Автор: qinbafrank

У лютому у статті «Що означає ця війна капітальних витрат?» ми обговорювали, що ключові ланки ланцюга постачання обчислювальних потужностей все ще можуть отримувати найбільшу вартість: чіпси, упаковка та тестування, сховище, оптичні модулі тощо — ті, чия виробнича потужність важко швидко розширюється, або мають дуже високий бар’єр для входу, отримають переваги від масштабних капітальних витрат;

Простір для оптимізації ефективності все ще великий: дистиляція, квантування, MoE, спеціалізовані чіпи, рідинне охолодження, термоядерний синтез (перспективно) тощо можуть знизити споживання енергії та витрати на одиницю обчислювальної потужності ще в 10–100 разів. Слід шукати можливості саме в цих сферах.

Останнім часом кілька інвестиційних банків — Morgan Stanley, JPMorgan Chase, Bank of America, Goldman Sachs, UBS, Citigroup, Bernstein, HSBC — опублікували оновлені звіти щодо ШІ/напівпровідників/електроенергії/зберігання. Обмеження в галузі апаратного забезпечення ШІ вже розширилися з єдиного аспекту «дефіцит GPU» на загальний дефіцит у п’яти напрямках: електроенергія, чіпси, зберігання, обладнання та матеріали.

Попит на ШІ вже перевищив усі прогнозовані діапазони традиційного планування електропостачання, виробничих потужностей напівпровідникового обладнання, моделей цін на сховища та припущень щодо встановлення роботів.

Глобальний огляд тематичних досліджень Morgan Stanley вказує, що щотижневе споживання токенів глобальних великих мовних моделей за три місяці зросло з 6,4 трильйона до 22,7 трильйона, що становить зростання на 2,5 рази; дефіцит електроенергії для центрів обробки даних у США у 2025–2028 роках становить 55 ГВт; JPMorgan у першому огляді облігацій на фінансування проектів високопродуктивних обчислень у центрах обробки даних вказав дефіцит у розмірі «122 ГВт, що потребують фінансування за наступні 5 років»; план електроенергії США за 5 років зрос з 101 ГВт до 230 ГВт, причому 44% нових проектів чекають підключення більше 4 років; у останньому звіті Bank of America з цільовою ціною для Alphabet капітальні витрати на 2026 рік були підвищені до 181,5 млрд доларів США — це подвоєння порівняно з попереднім роком, а вільний грошовий потік знизився на 62%. Ці три набори даних не є результатом однієї й тієї ж методології, а є незалежними оцінками трьох різних інституцій, отриманими в рамках різних дослідницьких підходів.

Обмеження ланцюга поставок напівпровідників (зокрема в сфері AI-обчислень) еволюціонували чіткою послідовністю: «обчислення (GPU) → зберігання (HBM тощо) → оптична взаємопов’язаність → електроживлення/рідинне охолодження». Це є узгодженою думкою галузі на 2025–2026 роки: з розширенням AI-кластерів для навчання/висновків від одного стелажу (десятки GPU) до надвеликих масштабів (тисячі до десятків тисяч GPU) кожне вирішення обмеження відразу виявляє наступне фізичне чи ланцюгове обмеження, формуючи «леонтьєвські» комплементарні обмеження (без будь-якого з них продукцію не можна випустити).

Оптичний модуль

Варто зрозуміти, чому відбулася така еволюція, яким є поточний стан та фізичні/інженерні причини, що її спричинили:

1. Обмеження першого етапу: GPU-обчислення (домінувало у 2022–2024 рр.) Основне обмеження:

Власна виробнича потужність відтисків для високопродуктивних GPU (наприклад, NVIDIA Hopper H100 → Blackwell B200 → Rubin) + передові методи упаковки.

Чому це ставало обмеженням: великі моделі ШІ вимагають масштабних паралельних обчислень, і виробництво логічних технологій TSMC 4 нм/3 нм/2 нм разом із CoWoS (2.5D/3D упаковка) на певний момент стало найбільшим обмеженням. Навіть якщо вистачало вихідних виробів, здатність заднього етапу з’єднувати логічні чіпи з HBM у стопці не встигала за темпами — і повна GPU не могла бути виготовлена.

Зняття напруги: TSMC активно розширює CoWoS (виробничі потужності подвоюються у 2024–2025 роках), NVIDIA Blackwell вже масово відправляється. Але це лише розблокування «обчислювального» етапу, після чого одразу виявляються нові проблеми.

2. Другий етап обмеження: зберігання (HBM — високопропускна пам’ять, найбільш дефіцитна у 2024–2025 роках)

Основний обмежуючий фактор: виробнича потужність HBM3/HBM3e/HBM4.

Чому стрибок став обмеженням: потужність GPU зросла, але параметри моделей експоненційно збільшилися (трильйони або навіть десятки трильйонів параметрів), і пересування даних (пропускна здатність пам’яті) перетворилося на «стіну пам’яті». HBM може передавати кілька ТБ даних на секунду, що вище за 20 разів швидше, ніж звичайна пам’ять DDR. Оскільки HBM розташована близько до логічного чіпу, дані не потрібно передавати на велику відстань, що дозволяє зекономити енергію.

Для однієї GPU B200 потрібно 192 ГБ+ HBM3e, загальний обсяг HBM в одному стелажі (NVL72) досягає 30–40 ТБ, а вимоги до пропускної здатності значно перевищують традиційну DRAM.

Стан ланцюга поставок: лише SK Hynix, Samsung і Micron можуть масово виробляти HBM; технологія складна (через отвори кремнію TSV + стекування); усі обсяги на 2025 рік вже продані, а на 2026 рік попит все ще перевищує пропозицію, ціни зросли на 246% порівняно з попереднім роком. Навіть якщо GPU-чіпи готові, без HBM їх не можна зібрати та доставити, що призводить до затримок у розгортанні всіх AI-кластерів.

Результат: зберігання перетворилося з «товару» у стратегічно критичний обмежуючий етап, частка витрат на капітал у сфері зберігання може досягати 30%.

3. Обмеження третього етапу: оптичні з’єднання (перехід відбувається у 2025–2026 роках)

Основні обмеження: фізичні ліміти мідних кабелів (NVLink/NVSwitch) щодо пропускної здатності, відстані, споживання енергії та ваги.

Чому обов’язково перехід на оптику: у одному стойці (72 GPU) ще можна використовувати мідні кабелі, але при розширенні на кілька стойків і навіть зв’язуванні тисяч GPU мідні кабелі мають серйозне загасання (ефективна відстань менше 1 метра при пропускній здатності 1,8 ТБ/с), маса стає неприйнятною (у стойці NVL72 мідних кабелів понад 5 000, загальна вага 1,36 тонни), а споживання енергії високе (заміна мідних кабелів на витягувані оптичні модулі додасть ще 20 кВт). Цілісність сигналу, затримка та відведення тепла не можуть підтримувати більші кластери.

Рішення: перехід на оптичні інтерконнекти (CPO — спільно упакована оптика + фотоніка на кремнії). Прямо упаковувати оптичний двигун поруч із GPU/ASIC, використовуючи оптичні волокна для масштабування, що забезпечує більшу щільність пропускної здатності, нижчу споживану потужність на біт та більшу відстань.

Оптичний модуль

NVIDIA робить велику ставку на GTC 2026, інвестувавши у оптичні компанії, що призвело до стрімкого зростання попиту на оптичні модулі 800G/1.6T. Лідери нової хвилі — Lite, Broadcom, Coherent, Ayar Labs.

Поточний прогрес: мідні кабелі досягли своєї межі, оптичні з’єднання переходять із «додаткової» у «обов’язкову» категорію, долаючи стінку продуктивності AI-центру обробки даних.

4. Обмеження четвертого етапу (поточний передовий рівень): електроенергія + рідкісне охолодження (з 2026 року стають остаточними фізичними обмеженнями). Основні обмеження: стіна потужності + стіна відведення тепла + підключення до електромережі.

Чому це фінальний обмеження: потужність кожної GPU зростає з 300 Вт до 700–1200 Вт, потужність одного серверного шафу з 10–20 кВт (епоха CPU) стрімко зростає до 120–200 кВт і навіть вище. Традиційна повітряна система охолодження має фізичну межу лише 20–50 кВт; шум, об’єм повітря та споживання енергії неприйнятні.

З боку електропостачання: центри обробки даних потребують електропостачання на рівні ГВт, черга на підключення до мережі може тривати кілька років, терміни поставки обладнання, такого як трансформатори та твердотільні трансформатори, подовжуються до 100 тижнів. Генеральний директор Microsoft відкрито сказав: «Є GPU, але немає розетки».

Бічне рідинне охолодження: необхідно перейти на Direct-to-Chip (прямий рідинний охолодження чіпа) або рідинне охолодження шляхом занурення, поєднуючи технології мікрофлюїдіки, холодильних пластин тощо. TSMC вже продемонструвала рідинне охолодження на основі кремнію на платформі CoWoS, підтримуючи TDP більше 2,6 кВт. Такі виробники рідинного охолодження та теплового менеджменту, як Vertiv (VRT), стають новим ядром інфраструктури.

Ланцюгова реакція: вимоги до PUE (ефективність використання електроенергії) <1,2 роблять відновлення тепла та підключення ядерної енергії/нових джерел енергії новими темами. Навіть якщо всі попередні етапи вирішені, без електроенергії та охолодження серверні стелажі не можуть бути встановлені та запущені.

Оптичний модуль

Сутність логіки зміни обмежень у ланцюжку постачання AI-обчислювальних потужностей: AI-обчислювальні потужності — це не «одинична» проблема, а системна функція виробництва Леонтьєва — GPU, HBM, з’єднання, електроживлення та охолодження повинні бути збалансовані за найслабшим ланцюжком. Кожного разу, коли гіперскейлери (Google, Microsoft, Meta тощо) вирішують одну проблему, вони миттєво перенаправляють капітал та інновації на наступний етап.

Наразі (2026 рік) ми перебуваємо в перехідний період «прискореного впровадження оптичних з’єднань + масштабної комерційної реалізації електроживлення/рідинного охолодження». У майбутньому можуть виникнути нові обмеження (наприклад, лазери, матеріали для оптичних волокон або трансформатори електромережі), але ланцюжок «обчислення → зберігання → оптика → електроживлення/охолодження» вже визнано галуззю як стандартний шлях.

Це також пояснює, чому інвестиційна логіка змістилася з NVIDIA/TSMC на трійку лідерів HBM (SK Hynix тощо), оптичні компанії (Lumentum, Coherent), системи рідкісного охолодження та енергетичну інфраструктуру (Vertiv, пов’язані компанії з живленням).

Кожен перенос обмеження перерозподіляє цінність у всьому ланцюжку поставок напівпровідників та центрів обробки даних.