Узкие места в цепочке поставок AI-вычислений смещаются с GPU на электропитание и охлаждение

Автор: qinbafrank

В феврале в статье «Что означает эта война капитальных затрат?» мы обсуждали, что ключевые звенья цепочки создания вычислительной мощности по-прежнему могут извлекать наибольшую стоимость: чипы, упаковка и тестирование, хранилища, оптические модули и т.д.; те производственные мощности, которые невозможно быстро расширить, и те, которые обладают крайне высоким конкурентным барьером, получат выгоду от огромных капитальных затрат;

Пространство для оптимизации эффективности по-прежнему велико: методы дистилляции, квантизации, MoE, специализированные чипы, жидкостное охлаждение, термоядерный синтез (перспективно) могут снизить энергопотребление и стоимость единицы вычислительной мощности еще в 10–100 раз. Следует искать возможности в этих областях.

Недавно несколько инвестиционных банков — Morgan Stanley, JPMorgan Chase, Bank of America, Goldman Sachs, UBS, Citigroup, Bernstein, HSBC — опубликовали обновленные отчеты по темам ИИ, полупроводников, электроэнергии и хранения данных. Узкое место в аппаратном обеспечении ИИ уже расширилось с единичного ограничения по поставкам GPU на совокупное напряжение по пяти направлениям: электроэнергия, чипы, хранение данных, оборудование и материалы.

Спрос на ИИ уже превысил все прогнозируемые диапазоны традиционного планирования энергоснабжения, производственных мощностей полупроводникового оборудования, моделей цен на хранилища и предположений по установке роботов.

Обзор глобальных тематических исследований Morgan Stanley показывает, что еженедельное потребление токенов крупных языковых моделей по всему миру за три месяца выросло с 6,4 трлн до 22,7 трлн, что составляет рост в 2,5 раза; дефицит электроэнергии для центров обработки данных в США в период 2025–2028 годов составит 55 ГВт; JPMorgan впервые оценил долговые обязательства по проектам высокопроизводительных вычислений в центрах обработки данных и напрямую указал дефицит в размере 122 ГВт за следующие пять лет; планы по электроэнергии в США за пять лет выросли с 101 ГВт до 230 ГВт, причем 44% новых проектов ожидают подключения к сети более четырех лет; в последнем отчете Bank of America с целевой ценой для Alphabet капитальные затраты на 2026 год были повышены до 181,5 млрд долларов США — вдвое больше, чем ранее, а свободный денежный поток снизился на 62%. Эти три набора данных не являются результатом одной и той же методологии, а представляют собой независимые оценки трех разных организаций, проведенные по различным исследовательским путям.

Узкие места в цепочке поставок полупроводников (особенно в области ИИ-вычислений) эволюционируют по четкой последовательности: «вычисления (GPU) → память (HBM и др.) → оптические интерконнекты → электропитание/жидкостное охлаждение». Это общепринятая точка зрения отрасли на 2025–2026 годы. По мере масштабирования обучающих/выводных кластеров ИИ от одного стойки (десятки GPU) до сверхмасштабных (тысячи и десятки тысяч GPU) каждое устранение узкого места немедленно раскрывает следующее физическое или цепочечное ограничение, создавая «леонтьевские» взаимозависимые ограничения (отсутствие любого из компонентов препятствует отгрузке).

Оптический модуль

Необходимо понять, почему произошла такая эволюция, каково текущее состояние и физические/инженерные причины этого:

1. Ограничение первого этапа: GPU-вычисления (доминировали в 2022–2024 гг.) Основное ограничение:

Производственные мощности в виде Wafer для высокопроизводительных GPU (таких как NVIDIA Hopper H100 → Blackwell B200 → Rubin) + передовые методы упаковки.

Почему это узкое место: крупные модели ИИ требуют огромного объема параллельных вычислений, и мощности TSMC по логическим технологиям 4 нм/3 нм/2 нм + CoWoS (упаковка 2.5D/3D) в какой-то момент стали самым большим ограничением. Даже если в переднем цикле достаточно вайферов, задний цикл не успевает справляться с упаковкой и стеканием логических чипов и HBM, в результате вся GPU не может быть произведена.

Ситуация с смягчением: TSMC активно расширяет производство CoWoS (удвоение мощностей в 2024–2025 годах), NVIDIA Blackwell уже массово поставляется. Однако это лишь разблокировка этапа «вычислений», за которым немедленно возникают новые проблемы.

2. Второй этап узкого места: хранение (HBM — высокополосная память, станет наиболее дефицитной в 2024–2025 годах)

Основное ограничение: производственные мощности HBM3/HBM3e/HBM4.

Почему передача данных стала узким местом: мощность GPU выросла, но параметры моделей взрывно увеличились (триллионы и даже десятки триллионов параметров), и перемещение данных (пропускная способность памяти) стало «памятной стеной». HBM может передавать несколько ТБ данных в секунду, что в более чем 20 раз быстрее, чем обычная память DDR. Поскольку HBM расположен рядом с логическим чипом, данные не нужно передавать на большие расстояния, что позволяет сэкономить энергию.

Один GPU B200 требует 192 ГБ и более HBM3e; общий объем HBM в одном стойке (NVL72) уже достигает 30–40 ТБ, а потребность в пропускной способности значительно превышает традиционную DRAM.

Текущее состояние цепочки поставок: только SK Hynix, Samsung и Micron могут масштабно производить HBM; технология сложная (сквозные кремниевые переходы TSV + стекирование); все объемы на 2025 год уже распроданы, дефицит сохранится и в 2026 году, цены выросли на 246% в годовом выражении. Даже если чипы GPU готовы, без HBM невозможно собрать и поставить продукт, что приводит к задержкам развертывания всей AI-кластерной инфраструктуры.

Результат: хранение данных превратилось из «товара» в стратегически критичный узкий участок, и доля расходов на хранение данных в капитальных затратах может достигать 30%.

3. Третий этап узкого места: оптические интерфейсы (переход происходит в 2025–2026 годах)

Основные ограничения: физические пределы медных кабелей (NVLink/NVSwitch) по пропускной способности, расстоянию, энергопотреблению и весу.

Почему переход на оптику неизбежен: в одном стойке (72 GPU) можно еще использовать медные кабели, но при масштабировании до нескольких стоек и соединении тысяч GPU медные кабели сильно ослабляют сигнал (действующее расстояние менее 1 метра при пропускной способности 1,8 ТБ/с), их вес становится чрезмерным (в стойке NVL72 более 5000 медных кабелей, общий вес 1,36 тонны), а энергопотребление высоко (замена медных кабелей на съемные оптические модули добавляет еще 20 кВт). Целостность сигнала, задержка и теплоотвод не могут обеспечить работу более крупных кластеров.

Решение: перейти на оптические интерфейсы (CPO — совместная упаковка оптики и кремниевая фотоника). Установите оптический модуль непосредственно рядом с GPU/ASIC и используйте оптоволокно для масштабирования, что обеспечит более высокую плотность пропускной способности, более низкое энергопотребление на бит и большее расстояние передачи.

Оптический модуль

NVIDIA сделала крупную ставку на GTC 2026, инвестировав в оптические компании, спрос на оптические модули 800G/1.6T резко вырос. Лидерами стали lite, Broadcom, Coherent, Ayar Labs и другие.

Текущий прогресс: медные кабели достигли предела, оптические соединения переходят из «опциональных» в «обязательные» и преодолевают потолок производительности AI-центров обработки данных.

4. Четвертый этап ограничений (современный передовой уровень): электропитание + жидкостное охлаждение (с 2026 года становятся окончательными физическими ограничениями). Основные ограничения: потолок потребления энергии + потолок теплоотвода + подключение к электросети.

Почему это финальный узкий место: мощность каждой GPU увеличилась с 300 Вт до 700–1200 Вт, а мощность одного серверного шкафа выросла с 10–20 кВт (эпоха CPU) до 120–200 кВт и выше. Физический предел традиционного воздушного охлаждения составляет всего 20–50 кВт; шум, объем воздуха и энергопотребление становятся неприемлемыми.

Со стороны электроснабжения: центры обработки данных требуют мощности на уровне ГВт, очередь на подключение к сети может достигать нескольких лет, а сроки поставки оборудования, такого как трансформаторы и твердотельные трансформаторы, увеличиваются до 100 недель. Генеральный директор Microsoft ранее прямо заявил: «Есть GPU, но нет розетки».

Жидкостное охлаждение: необходимо перейти на прямое охлаждение чипов (Direct-to-Chip) или погружное жидкостное охлаждение в сочетании с технологиями микроканального охлаждения, холодными пластинами и т.д. TSMC уже продемонстрировала жидкостное охлаждение на основе кремния на платформе CoWoS, поддерживающей TDP более 2,6 кВт. Производители систем жидкостного охлаждения и теплового менеджмента, такие как Vertiv (VRT), становятся новым ядром инфраструктуры.

Цепная реакция: требования к PUE (коэффициенту использования энергии) менее 1,2, утилизация избыточного тепла, подключение атомной энергии/новых источников энергии стали новыми темами. Даже если все предыдущие этапы решены, без электричества и охлаждения стойки не могут быть установлены и запущены.

Оптический модуль

Сущностная логика смещения узких мест в цепочке создания мощностей ИИ: вычислительные мощности ИИ — это не «точечная» проблема, а системная функция производства Леонтьева — GPU, HBM, интерконнекты, электропитание и охлаждение должны быть сбалансированы по самому слабому звену. Каждый раз, когда хайперскейлеры (Google, Microsoft, Meta и др.) решают одну проблему, они немедленно перенаправляют капитал и инновации на следующий этап.

Сейчас (2026 год) происходит переходный период «ускоренного внедрения оптических соединений + масштабной коммерческой эксплуатации электропитания/жидкостного охлаждения». В будущем могут возникнуть новые узкие места (например, лазеры, материалы для оптоволокна или трансформаторы электросети), но цепочка «вычисления → хранение → оптика → электропитание/охлаждение» уже признана отраслью как стандартный путь.

Это также объясняет, почему инвестиционная логика сместилась с NVIDIA/TSMC на трех крупнейших производителей HBM (SK Hynix и др.), оптических производителей (Lumentum, Coherent), а также инфраструктуры жидкостного охлаждения и электропитания (Vertiv, соответствующие компании-производители источников питания).

Каждый сдвиг в узком месте перераспределяет ценность в всей цепочке создания стоимости полупроводников и центров обработки данных.