La CPU se convierte en el nuevo cuello de botella en la era de la IA, ya que la demanda supera el enfoque en las GPU

Durante estos años de auge de la IA, la industria ha estado casi dominada por una lógica: el poder de cómputo determina el límite superior, y la GPU es el núcleo del poder de cómputo.

Sin embargo, al entrar en 2026, esta lógica comenzó a cambiar: la inferencia del modelo ya no es el único cuello de botella; el rendimiento del sistema depende cada vez más de la capacidad de ejecución y programación. Las GPU siguen siendo importantes, pero lo que determina si la IA "puede funcionar" está pasando gradualmente a la CPU, durante mucho tiempo ignorada.

El 9 de abril, hora de Estados Unidos, Google y Intel alcanzaron un acuerdo de varios años para implementar a gran escala los procesadores "Xeon" de Intel en centros de datos de IA a nivel mundial, precisamente para superar este cuello de botella. El CEO de Intel, Chen Liwu, afirmó directamente que la IA opera en todo el sistema, y que la CPU y la IPU son clave para el rendimiento, la eficiencia y la flexibilidad. En otras palabras, la CPU, que durante los últimos dos años se ha considerado un "personaje secundario", está obstaculizando el cuello de botella en la expansión de la IA.

Google

El CEO de Intel, Chen Lihwu, declaró en redes sociales: Intel está profundizando su colaboración con Google, ampliando su enfoque desde CPUs tradicionales hasta infraestructura de IA (como IPU), para impulsar conjuntamente el desarrollo de capacidades de IA y nube.

La CPU ya no es solo un componente pasivo de soporte, sino que se está convirtiendo en una de las variables clave de la infraestructura de IA.

01 Una crisis de oferta "silenciosa"

Mientras todos se enfocan en los plazos de entrega de las GPU, la tensión en el mercado de CPU ya ha alcanzado su punto máximo.

Según los últimos informes de varios distribuidores de TI, en el cuarto trimestre de 2025, el precio promedio de venta de CPUs para servidores aumentó aproximadamente un 30%. Este aumento es muy raro en un mercado de CPUs relativamente maduro.

Forrest Norrod, director de datos de AMD, reveló que durante los últimos tres trimestres, el crecimiento de la demanda de CPU superó todas las expectativas. Actualmente, los plazos de entrega de AMD se han extendido de ocho semanas a más de diez semanas, y algunos modelos enfrentan retrasos de hasta seis meses.

Esta escasez se debe principalmente a una corrida de recursos provocada por “efectos secundarios”. Algunos expertos del sector indican que, debido a la extrema tensión en la línea de producción de 3 nm de TSMC, la capacidad de obleas originalmente asignada a las CPU está siendo constantemente desplazada por órdenes de GPU más rentables. Esto ha generado una situación altamente irónica: los laboratorios de IA cuentan con suficientes GPU, pero descubren que no pueden comprar suficientes CPU de gama alta para “alimentar” estas tarjetas gráficas.

En esta ola de compra de CPU, también está Elon Musk.

El CEO de Intel, Chen Lihwu, confirmó en las redes sociales que Musk ha encargado a Intel diseñar y fabricar chips personalizados para su proyecto "Terafab" en Texas. Este ambicioso proyecto tiene como objetivo proporcionar una base de cómputo unificada para xAI, SpaceX y Tesla.

La confianza de Musk en Intel se debe en gran medida a que Intel está tratando de integrarse en cada nivel, desde los centros de datos terrestres hasta el cómputo en órbita espacial.

Google

Para Intel, esto sin duda es un impulso. Aunque algunos analistas de la industria predicen que AMD superará a Intel en cuota de ingresos en el mercado de CPUs de servidores para 2026, la profunda inercia y capacidad de fabricación de Intel dentro del ecosistema x86 siguen siendo factores que clientes importantes como Musk no pueden ignorar.

Este vínculo profundo entre industrias está elevando la competencia en el mercado de CPU desde una simple comparación de especificaciones hasta una batalla por la estabilidad del ecosistema y la cadena de suministro.

02 ¿Por qué la CPU se convierte en el "cuello de botella"?

La CPU se convirtió repentinamente en un cuello de botella porque la naturaleza del trabajo que debe realizar ha cambiado fundamentalmente en la era de los agentes.

En el modelo tradicional de chatbot, la CPU se encarga principalmente de la programación y el procesamiento de datos, mientras que la GPU realiza los cálculos de inferencia principales. Debido a que las etapas intensivas en cálculo se concentran en el lado de la GPU, la latencia general suele estar dominada por la GPU, y la CPU rara vez se convierte en un cuello de botella de rendimiento.

Pero la carga de trabajo del agente es completamente diferente. Un agente debe realizar razonamiento en múltiples pasos, llamar a API, leer y escribir en bases de datos, orquestar flujos de negocio complejos y integrar los resultados intermedios en una salida final. Tareas como búsqueda, llamadas a API, ejecución de código, E/S de archivos y orquestación de resultados recaen principalmente en la CPU y el sistema anfitrión. La GPU se encarga de la generación de tokens (es decir, "pensar"), mientras que la CPU transforma los resultados del "pensamiento" en acciones concretas.

En el artículo titulado "A CPU-Centric Perspective on Agentic AI", publicado en noviembre de 2025 por académicos del Georgia Institute of Technology, se realizó un análisis cuantitativo de la distribución de la latencia en las cargas de trabajo de agentes. El estudio descubrió que el tiempo dedicado al procesamiento de herramientas en la CPU representa entre el 50% y el 90,6% de la latencia total. En algunos escenarios, la GPU ya está lista para procesar el siguiente lote de tareas, mientras que la CPU aún espera la respuesta de la llamada a la herramienta.

Otro factor clave es la rápida expansión de la ventana de contexto. En 2024, los modelos principales generalmente admitían entre 128K y 200K tokens. Al entrar en 2025, modelos como Gemini 2.5 Pro, GPT-4.1 y Llama 4 Maverick comenzaron a admitir más de 1 millón de tokens. La caché KV (Key-Value Cache, utilizada para acelerar el proceso de inferencia de modelos Transformers) crece linealmente con el número de tokens, alcanzando aproximadamente 200 GB con 1 millón de tokens, mucho más allá de la capacidad de memoria GPU de 80 GB de una sola H100.

Una de las soluciones para este tipo de problemas es descargar parte del caché KV a la memoria CPU. Esto significa que la CPU no solo debe gestionar la orquestación y las llamadas a herramientas, sino también ayudar a alojar los datos que no caben en la memoria GPU. La capacidad de la memoria CPU, el ancho de banda de memoria y la velocidad de interconexión entre la CPU y la GPU se convierten así en factores clave del rendimiento del sistema.

Por lo tanto, el CPU adecuado para la era de los agentes requiere mayor capacidad de acceso a memoria de baja latencia y consistente, así como una mejor capacidad de cooperación a nivel de sistema, en lugar de un simple aumento del tamaño del núcleo.

03 ¿Qué están haciendo los fabricantes? Algunos se apoderan de territorios, otros modifican diseños.

Ante esta repentina explosión de demanda de CPU, varias grandes empresas han adoptado enfoques completamente diferentes.

Intel es el líder tradicional en CPUs para servidores. Según datos de Mercury Research, en el cuarto trimestre de 2025, Intel aún representó el 60% del mercado de CPUs para servidores, AMD el 24,3% y NVIDIA el 6,2%. Sin embargo, Intel ha estado persiguiendo constantemente nuevas tecnologías durante estos años, y esta explosión en la demanda de CPUs representa tanto una oportunidad como un desafío para ellos.

La estrategia actual de Intel es avanzar con dos piernas. Por un lado, continúa vendiendo procesadores Xeon, estableciendo vínculos profundos con clientes de gran escala como Google; por otro, colabora con SambaNova para lanzar una solución combinada basada en procesadores Xeon y su acelerador RDU de desarrollo propio, destacando como ventaja principal "ejecutar inferencia de agentes sin necesidad de GPU". La hoja de ruta de los Xeon 6 Granite Rapids y el proceso 18A será clave para determinar si Intel puede dar la vuelta.

AMD fue uno de los mayores beneficiados en esta explosión de demanda de CPUs. En el cuarto trimestre de 2025, los ingresos de AMD en centros de datos alcanzaron 5.400 millones de dólares, un aumento del 39% interanual. La quinta generación de EPYC Turin representó más de la mitad de los ingresos de CPUs para servidores, y la implementación de instancias en la nube que ejecutan EPYC creció más del 50% interanual. La cuota de ingresos de AMD en CPUs para servidores superó por primera vez el 40%.

El CEO de AMD, Lisa Su, atribuyó directamente el crecimiento al desarrollo de "agentes inteligentes": las cargas de trabajo de agentes están reasignando tareas de vuelta a las funciones tradicionales de CPU.

En febrero de 2026, AMD también anunció una posible transacción con Meta, valorada en más de 100 mil millones de dólares, para suministrar GPU MI450 y CPU Venice EPYC.

Sin embargo, AMD aún tiene margen de mejora en la cooperación a nivel de sistema, careciendo de capacidades de interconexión CPU-GPU de alta velocidad maduras como NVLink C2C. A medida que los sistemas de agentes exigen cada vez más eficiencia en la interacción y cooperación de datos, la importancia de este componente va en aumento.

La forma en que NVIDIA diseña sus CPU es completamente diferente a la de Intel y AMD.

La CPU Grace de NVIDIA tiene solo 72 núcleos, mientras que AMD EPYC e Intel Xeon suelen tener 128. Dion Harris, director de infraestructura de IA de NVIDIA, explicó: "Si eres una empresa de gran escala, deseas maximizar la cantidad de núcleos por CPU, lo que básicamente reduce los costos, es decir, el costo en dólares por núcleo. Por lo tanto, se trata de un modelo de negocio."

En otras palabras, en el sistema de capacidad de cómputo de IA, el papel de la CPU ya no es el de principal unidad de cómputo general, sino el de "centro de coordinación" que sirve a la GPU. Si la CPU no acompaña el ritmo, la costosa GPU se verá obligada a esperar, reduciendo así la eficiencia general.

Por lo tanto, NVIDIA está diseñada para priorizar la colaboración eficiente entre la CPU y la GPU. Por ejemplo, mediante la interconexión NVLink C2C, se aumenta el ancho de banda entre la CPU y la GPU hasta aproximadamente 1.8 TB/s, mucho más alto que el PCIe tradicional, permitiendo que la CPU acceda directamente a la memoria de la GPU, lo que simplifica enormemente la gestión del caché KV.

Actualmente, NVIDIA ha lanzado el Vera CPU como producto independiente. CoreWeave es el primer cliente. La transacción con Meta es aún más significativa, ya que representa su primera gran "implementación pura de Grace", es decir, la implementación independiente a gran escala del CPU sin emparejarlo con GPU.

El analista principal de la institución de investigación Creative Strategies, Ben Bajarin, señala que en la colaboración intensiva de sistemas, la capacidad de procesamiento de la CPU debe poder acompanar la velocidad de iteración de los aceleradores. Si existe incluso un retraso del uno por ciento en los canales de datos, la rentabilidad económica de todo el clúster de IA se verá gravemente afectada. Esta búsqueda de eficiencia sistémica extrema está obligando a todas las grandes empresas a reevaluar los indicadores de rendimiento de la CPU.

Holger Mueller, vicepresidente y analista principal de Constellation Research, afirmó que, a medida que las cargas de trabajo de IA se desplazan hacia arquitecturas impulsadas por agentes, la posición de la CPU se vuelve cada vez más central. Señaló: “En el mundo de los agentes, los agentes necesitan invocar API y diversas aplicaciones empresariales, tareas que son más adecuadas para ser realizadas por la CPU.”

Él también añadió: "Actualmente, no hay consenso sobre si las GPU o las CPU son más adecuadas para tareas de inferencia. Las GPU tienen ventaja en el entrenamiento de modelos, y ASIC personalizados como los TPU también tienen sus fortalezas. Pero un punto es claro: Google necesita adoptar una arquitectura de procesadores híbrida. Por lo tanto, es razonable que Google haya optado por colaborar con Intel".

04 Conclusión: En la era de los agentes inteligentes, la balanza de potencia de cómputo se reequilibra

En la última observación de la industria, hay un dato que debemos tener en cuenta. En el acuerdo de colaboración entre Amazon AWS y OpenAI por hasta 38.000 millones de dólares, su oficial también mencionó explícitamente una escala de expansión de "decenas de millones de CPU".

En los últimos años, habitualmente, el foco de atención de la industria siempre ha sido los “decenas de miles de GPU”. Sin embargo, laboratorios pioneros como OpenAI han incorporado activamente la escala de CPU como una variable de planificación importante, transmitiendo una señal clara al exterior: la expansión de la carga de trabajo de agentes debe basarse en una infraestructura masiva de CPU.

Bank of America predice que para 2030, el mercado global de CPUs podría duplicarse desde los 27.000 millones de dólares actuales hasta los 60.000 millones de dólares. Esta nueva cuota provendrá casi en su totalidad de la IA.

Estamos presenciando cómo comienza a expandirse una nueva infraestructura: las grandes empresas ya no solo acumulan GPU, sino que también amplían simultáneamente una capa completa de "infraestructura de programación de CPU", diseñada específicamente para proporcionar soporte operativo a agentes de IA.

La alianza entre Intel y Google, junto con la fuerte inversión de Musk en chips personalizados, demuestran un hecho: el punto decisivo de la competencia en IA se está desplazando hacia adelante. Cuando la potencia de cómputo ya no sea escasa, solo quien resuelva primero los cuellos de botella a nivel de sistema podrá salir victorioso en este juego de billones.

*El traductor especializado Jinlu también contribuyó a este artículo.

Este artículo proviene del número de WeChat "Tencent Technology", autor: Li Helen, editor: Xu Qingyang