ЦП становится новым узким местом в эпоху ИИ, поскольку спрос превышает фокус на ГПУ

За эти годы бурного развития ИИ индустрия почти полностью подчинялась одной логике: вычислительная мощность определяет верхний предел, а GPU является ядром вычислительной мощности.

Однако с наступлением 2026 года эта логика начала меняться: вывод модели больше не является единственным узким местом; производительность системы все больше зависит от способностей выполнения и планирования. GPU по-прежнему важны, но ключевой фактор, определяющий, «сможет ли ИИ запуститься», постепенно смещается в сторону CPU, который долгое время игнорировался.

9 апреля по американскому времени Google и Intel заключили многолетнее соглашение о масштабном развертывании процессоров Intel Xeon в глобальных центрах обработки данных для ИИ, чтобы преодолеть именно этот узкий момент. Генеральный директор Intel Чэнь Ливу прямо заявил, что ИИ работает на всей системе, и именно CPU и IPU являются ключом к производительности, эффективности и гибкости. Другими словами, CPU, который последние два года рассматривали как «второстепенный элемент», сейчас сдерживает масштабирование ИИ.

Google

Генеральный директор Intel Чэнь Лиу заявил в социальных сетях, что Intel углубляет сотрудничество с Google, расширяясь от традиционных CPU до инфраструктуры ИИ (например, IPU) для совместного продвижения развития возможностей ИИ и облачных вычислений.

ЦП больше не является просто пассивным компонентом, а становится одним из ключевых факторов в инфраструктуре ИИ.

01 Тихий кризис предложения

Пока все следят за сроками поставок GPU, напряженность на рынке CPU уже достигла максимума.

Согласно последним отчетам нескольких IT-дистрибьюторов, в четвертом квартале 2025 года средняя цена серверных процессоров выросла примерно на 30%. Такой рост в относительно зрелом рынке процессоров крайне редок.

Форрест Норрод, руководитель подразделения серверных процессоров AMD, сообщил, что за последние три квартала рост спроса на ЦП превзошел все ожидания. В настоящее время сроки поставок AMD увеличились с восьми до более чем десяти недель, а для некоторых моделей задержки достигают шести месяцев.

Этот дефицит в основном вызван вытеснением ресурсов из-за «вторичных эффектов». По словам отраслевых экспертов, из-за чрезвычайно высокой загрузки производственной линии TSMC по технологии 3 нм, объемы вайферов, изначально выделенные для CPU, постоянно вытесняются заказами на более прибыльные GPU. Это привело к крайне ироничной ситуации: лаборатории ИИ обладают достаточным количеством GPU, но не могут найти на рынке достаточное количество топовых CPU для их «запуска».

В этой волне распродажи CPU также участвует Илон Маск.

Генеральный директор Intel Чэнь Лиу подтвердил в социальных сетях, что Маск поручил Intel спроектировать и произвести специализированные чипы для своего проекта «Terafab» в Техасе. Этот масштабный проект направлен на создание единой вычислительной базы для xAI, SpaceX и Tesla.

Доверие Маска к Intel во многом обусловлено тем, что Intel пытается встроить себя во все уровни — от наземных центров обработки данных до вычислений на орбите.

Google

Для Intel это, безусловно, мощный стимул. Хотя отраслевые аналитики прогнозируют, что доля доходов AMD на рынке серверных CPU превысит долю Intel к 2026 году, глубокая инерция и производственные возможности Intel в экосистеме x86 остаются важным преимуществом, которым такие крупные клиенты, как Маск, не могут пренебречь.

Такая глубокая интеграция через отрасли превращает конкуренцию на рынке CPU из простого сравнения параметров в борьбу за экосистему и стабильность цепочек поставок.

02 Почему ЦП становится «узким местом»?

ЦП внезапно стал узким местом, поскольку объем работы, которую он должен выполнять, кардинально изменился в эпоху агентов.

В традиционной модели чат-ботов CPU отвечает за планирование и обработку данных, а GPU выполняет основные вычисления для вывода. Поскольку вычислительно интенсивные этапы сосредоточены на стороне GPU, общая задержка обычно определяется GPU, и CPU редко становится узким местом производительности.

Но рабочие нагрузки агентов совершенно иные. Агенту необходимо выполнять многошаговые рассуждения, вызывать API, читать и записывать данные в базы данных, оркестрировать сложные бизнес-процессы и интегрировать промежуточные результаты в финальный вывод. Задачи, такие как поиск, вызовы API, выполнение кода, ввод-вывод файлов и оркестрация результатов, в основном возлагаются на CPU и систему хоста. GPU отвечает за генерацию токенов (то есть «мышление»), а CPU преобразует результаты «мышления» в конкретные действия.

В статье «A CPU-Centric Perspective on Agentic AI», опубликованной исследователями Джорджийского технологического института в ноябре 2025 года, проведен количественный анализ распределения задержек в рабочих нагрузках агентов. Исследование показало, что время, затрачиваемое на обработку инструментов на стороне CPU, составляет от 50% до 90,6% общей задержки. В некоторых сценариях GPU уже готов обработать следующую партию задач, в то время как CPU все еще ожидает возврата вызова инструмента.

Еще одним ключевым фактором является быстрое расширение контекстного окна. В 2024 году основные модели поддерживали от 128K до 200K токенов. В 2025 году такие модели, как Gemini 2.5 Pro, GPT-4.1 и Llama 4 Maverick, начали поддерживать более 1 миллиона токенов. KV-кэш (Key-Value Cache, используемый для ускорения процесса вывода моделей Transformers) растет линейно с количеством токенов и при 1 миллионе токенов составляет около 200 ГБ, что значительно превышает объем памяти в 80 ГБ одной видеокарты H100.

Одним из решений для таких проблем является частичная выгрузка KV-кэша в оперативную память CPU. Это означает, что CPU должен не только управлять оркестрацией и вызовами инструментов, но и помогать хранить данные, которые не помещаются в память GPU. Емкость оперативной памяти CPU, пропускная способность памяти и скорость соединения между CPU и GPU становятся ключевыми факторами производительности системы.

Таким образом, для эпохи агентов процессору необходимы низкая задержка, согласованное доступ к памяти и более высокая способность к системной координации, а не просто увеличение масштаба отдельных ядер.

03 Что делают производители? Кто-то захватывает рынок, кто-то меняет дизайн

В ответ на внезапный всплеск спроса на ЦП, крупные компании выбрали совершенно разные стратегии.

Intel — лидер традиционного рынка серверных CPU. Данные Mercury Research показывают, что в четвертом квартале 2025 года Intel сохранила долю в 60% на рынке серверных CPU, AMD — 24,3%, NVIDIA — 6,2%. Однако все эти годы Intel активно догоняла новые технологии, и этот всплеск спроса на CPU стал для них как возможностью, так и испытанием.

Сейчас стратегия Intel основана на двух направлениях. С одной стороны, она продолжает продавать процессоры Xeon, тесно интегрируясь с такими гипермасштабными клиентами, как Google; с другой — сотрудничает с SambaNova, предлагая комбинированное решение на базе процессоров Xeon и собственных ускорителей RDU, акцентируя преимущества «выполнения инференса агентов без использования GPU». Планы развития процессоров Xeon 6 Granite Rapids и технологии 18A станут ключевым тестом для оценки способности Intel восстановиться.

AMD стала одним из главных受益ителей в этом всплеске спроса на ЦП. В четвертом квартале 2025 года доход AMD от центров обработки данных составил 5,4 млрд долларов США, что на 39% больше по сравнению с предыдущим годом. Пятая серия EPYC Turin обеспечила более половины дохода от серверных ЦП, а развертывание облачных инстансов на базе EPYC выросло более чем на 50% в годовом исчислении. Доля дохода AMD от серверных ЦП впервые превысила 40%.

Генеральный директор AMD Лиса Су (Lisa Su) напрямую связала рост с развитием агентов — рабочие нагрузки агентов возвращают задачи обратно на традиционные задачи CPU.

В феврале 2026 года AMD также объявила о потенциальной сделке с Meta на сумму более 100 миллиардов долларов США по поставке GPU MI450 и CPU Venice EPYC.

Однако AMD по-прежнему имеет потенциал для улучшения системного взаимодействия, так как ей не хватает зрелых высокоскоростных интерфейсов между CPU и GPU, подобных NVLink C2C. По мере роста требований к эффективности обмена данными и координации в системах агентов (Agent) важность этого аспекта постепенно возрастает.

Подход NVIDIA к проектированию CPU полностью отличается от подхода Intel и AMD.

У процессора NVIDIA Grace всего 72 ядра, тогда как у AMD EPYC и Intel Xeon обычно 128. Дайон Харрис, руководитель инфраструктуры ИИ NVIDIA, объяснил: «Если вы крупный масштабируемый бизнес, вы хотите максимизировать количество ядер на один CPU, что в основном снижает стоимость — стоимость в долларах за ядро. Это бизнес-модель».

Другими словами, в системе вычислительных мощностей ИИ роль CPU больше не является основной для универсальных вычислений, а заключается в том, чтобы выступать в качестве «центра управления» для GPU. Если CPU не успевает, дорогие GPU вынуждены ждать, и общая эффективность снижается.

Поэтому NVIDIA при проектировании уделяет приоритетное внимание эффективному взаимодействию между CPU и GPU. Например, с помощью NVLink C2C интерфейса пропускная способность между CPU и GPU повышена до примерно 1,8 ТБ/с, что значительно превышает традиционный PCIe, и CPU может напрямую обращаться к памяти GPU, что значительно упрощает управление KV-кэшем.

Сейчас NVIDIA продает Vera CPU как отдельный продукт. CoreWeave является первым клиентом. Сделка с Meta еще более масштабна — это их первое крупномасштабное «чистое развертывание Grace», то есть массовое самостоятельное развертывание CPU без пары с GPU.

Главный аналитик исследовательской компании Creative Strategies Бен Баджарин отмечает, что в условиях интенсивной системной координации мощность CPU должна соответствовать скорости итераций ускорителей. Даже задержка в один процент в канале передачи данных существенно снижает экономическую эффективность всей AI-кластерной системы. Эта стремление к максимальной системной эффективности заставляет все крупные компании пересмотреть показатели производительности CPU.

Хольгер Мюллер, вице-президент и главный аналитик Constellation Research, заявил, что с переходом рабочих нагрузок ИИ на архитектуры, управляемые агентами, роль CPU становится все более центральной. Он отметил: «В мире агентов агенты должны вызывать API и различные бизнес-приложения, и эти задачи лучше всего выполняются CPU».

Он также добавил: «На данный момент нет однозначного ответа, какой процессор — GPU или CPU — лучше подходит для выполнения задач вывода. GPU имеет преимущество в обучении моделей, а такие специализированные ASIC, как TPU, также обладают своими сильными сторонами. Но одно ясно точно: Google должен использовать гибридную архитектуру процессоров. Поэтому логично, что Google выбрал сотрудничество с Intel».

04 Заключение: Эпоха агентов — весы вычислительной мощности возвращаются в равновесие

В последнем отраслевом обзоре необходимо обратить внимание на одну цифру. В официальном соглашении между Amazon AWS и OpenAI на сумму до 38 миллиардов долларов США прямо упоминается масштаб расширения «десятки миллионов CPU».

В последние годы обычно отраслевое внимание сосредоточивалось на «десятки тысяч GPU». Однако передовые лаборатории, такие как OpenAI, сознательно включили масштаб CPU в качестве важного планируемого параметра, отправив ясный сигнал: масштабирование рабочих нагрузок агентов должно основываться на огромной инфраструктуре CPU.

Банк Америки прогнозирует, что к 2030 году глобальный рынок ЦП вырастет с текущих 27 миллиардов долларов до 60 миллиардов долларов. Почти весь этот рост будет обусловлен ИИ.

Мы наблюдаем начало расширения совершенно новой инфраструктуры: крупные компании больше не ограничиваются просто увеличением количества GPU, а одновременно развивают целый уровень «инфраструктуры планирования CPU», специально предназначенный для поддержки работы AI-агентов.

Сотрудничество Intel и Google, а также значительные инвестиции Маска в пользовательские чипы подтверждают один факт: ключевым преимуществом в гонке ИИ становится всё более ранний этап. Когда вычислительные мощности перестают быть дефицитом, тот, кто первым решит системные «узкие места», сможет одержать победу в этой игре на триллионы.

Специальный переводчик Jinlu также внес свой вклад в эту статью.

Эта статья взята из официального аккаунта WeChat «Tencent Technology», автор: Ли Хэлэн, редактор: Сюй Цинъян