DeepSeek reduce los costos de la API en 100 veces, desencadena el debate sobre la centralización de la infraestructura de IA

—— A partir de la charla de Gonka en LA Hacks 2026

El 26 de abril, DeepSeek lanzó la nueva tarificación de la serie V4 de API: el precio de acierto de caché de entrada para toda la línea se redujo a una décima parte del precio inicial, y con la oferta limitada aplicada a la versión Pro, el costo de procesamiento de un millón de tokens es de solo 0.025 yuanes, casi cien veces más barato que hace un año. El sector de capacidad de cómputo en el mercado A registró subidas máximas ese día, con un gran entusiasmo en el mercado.

Pero detrás de los aplausos, hay una pregunta que nadie está abordando directamente: a medida que los modelos se vuelven cada vez más baratos, la capacidad de cómputo necesaria para ejecutarlos se está volviendo cada vez más centralizada.

Los datos no mienten. En el cuarto trimestre de 2025, los gastos de capital combinados de Microsoft, Amazon, Meta y Google aumentaron un 64% interanual hasta alcanzar 118.600 millones de dólares; se espera que los gastos de capital combinados totales en 2026 aumenten otro 53% interanual, llegando a 570.800 millones de dólares. Google elevó su objetivo de envíos de chips TPU para 2026 en un 50% hasta 6 millones de unidades. El plazo de entrega de la serie H100 de NVIDIA ya es de varios meses en algunos mercados.

El poder de fijación de precios en la capa de modelos está desplazándose hacia los desarrolladores, pero el control de la capa de capacidad de cómputo se está concentrando más rápidamente en unos pocos gigantes. Esta es una contradicción oculta pero profunda de la era de la IA.

Gonka

En este contexto, el 24 de abril de 2026, Daniil y David Liberman, cofundadores del protocolo Gonka, subieron al escenario principal de LA Hacks 2026. Esta maratón universitaria anual de UCLA, en la que esta año los hermanos Liberman fueron oradores principales, enfrentaba a cientos de ingenieros de élite a punto de ingresar a esta industria. La pregunta que plantearon sonó especialmente clara en este momento: ¿aún está a tiempo el poder informático descentralizado?

I. El otro lado de la ola de reducciones de precios

La lógica detrás de la reducción de precios de DeepSeek V4, en apariencia, es el beneficio de eficiencia traído por el progreso tecnológico: el nuevo mecanismo de atención comprime la dimensión de los tokens, combinado con la atención dispersa DSA, reduciendo significativamente la demanda de cálculo y memoria gráfica. Pero para que esta reducción de precios pueda persistir, se requiere como premisa que haya suficiente y suficientemente barato poder de cómputo en algún lugar.

La realidad es que esta fuente de capacidad de cómputo «suficientemente abundante» está concentrándose rápidamente en unos pocos nodos a nivel global. Recientemente, Michael Hurlston, CEO de Lumentum, indicó que, según la tendencia actual, la capacidad de la empresa para 2028 ya está casi completamente comprometida. Esto no es una dificultad aislada de una sola empresa, sino una tensión colectiva en toda la cadena de suministro de infraestructura de IA frente a la demanda en rápida expansión.

Daniil utilizó una comparación simple pero poderosa en su discurso en LA Hacks: la potencia de cálculo de la red de Bitcoin ya supera la suma total de los centros de datos en la nube de Google, Microsoft y Amazon — pero ¿qué está haciendo toda esta potencia? Resolviendo un rompecabezas de hash del que nadie necesita la respuesta. Lo mismo ocurre con la potencia de GPU ociosa a nivel mundial: las tarjetas gráficas en las máquinas de los jugadores, los servidores en los laboratorios universitarios y el exceso de capacidad de los proveedores de nube pequeños y medianos, sumados juntos representan un volumen enorme, pero debido a la falta de un mecanismo de coordinación, no pueden ser utilizadas por la inferencia de IA.

Gonka intenta resolver precisamente este problema de coordinación: utilizando el mecanismo de incentivos de prueba de trabajo para organizar GPU ociosas distribuidas globalmente en una red capaz de ejecutar tareas reales de inferencia de IA.

II. La inferencia es el nuevo campo de batalla

La reducción de precios de DeepSeek ha generado una amplia discusión sobre la «igualdad de acceso a la IA» en internet en chino. Pero hay un detalle ignorado: la reducción afecta al «precio de llamada», no al «costo de capacidad de cómputo». A medida que las aplicaciones de IA se escalan, el volumen de llamadas de inferencia crece exponencialmente: según las predicciones del sector, para 2026, la inferencia representará aproximadamente dos tercios del consumo global de capacidad de cómputo para IA.

¿Qué significa esto? Cada reducción en un orden de magnitud del precio de llamada solo aumenta la cantidad total de potencia de cómputo requerida, nunca la reduce. La «democratización» de los modelos grandes, en cierto sentido, acelera la centralización de la capa de potencia de cómputo: solo los actores con gran escala de potencia de cómputo pueden mantener operativas sus servicios de inferencia bajo márgenes extremadamente bajos.

Está formándose un bloqueo estructural: quien controle la capacidad de cómputo física del lado de razonamiento, controlará la verdadera puerta de entrada a la infraestructura de la era de la IA. Desde esta perspectiva, el significado de las redes de cómputo descentralizadas ya no es simplemente una optimización de costos del 50% más barato, sino proporcionar una alternativa estructural antes de que se complete el bloqueo centralizado.

Tres: Preguntas reales para los jóvenes constructores

Los participantes de LA Hacks — ingenieros y profesionales de productos de las universidades más destacadas de California — pronto se enfrentarán a una elección de ingeniería nada romántica: construir su producto sobre qué capa de capacidad de cómputo.

¿Qué servidores utiliza tu producto de IA para las llamadas de inferencia?

¿Tienes la capacidad de migrar cuando esa plataforma ajuste su estrategia de precios o políticas de acceso?

La escala de usuarios que ayudas a construir, ¿te está generando valor a ti o está alimentando a la plataforma?

Estas preguntas ya fueron experimentadas por los desarrolladores en la era Web2: cuando el destino de una aplicación está profundamente vinculado al algoritmo o las reglas de distribución de la plataforma, "independencia" se convierte en una palabra que necesita ser redefinida constantemente. La dependencia de la capacidad de cómputo en la era de la IA reproducirá la misma lógica en la capa de infraestructura, y debido a los mayores costos de cambio, el efecto de bloqueo será aún más fuerte.

Gonka

La hackathon, como forma, tiene una ironía inherente: construir en 36 horas algo funcional con los recursos mínimos y la mayor velocidad posible—exactamente el estado que buscan los mecanismos de incentivo de las redes descentralizadas. Daniil subió al escenario en LA Hacks no solo para hablar sobre Gonka, sino más bien para preguntarle a este grupo: ¿sus acciones futuras acelerarán esta tendencia centralizada, o crearán nuevas posibilidades?

Cuatro: PoW 2.0: una命题 de ingeniería

Gonka reorientó la estructura de incentivos de prueba de trabajo desde el cálculo de hash hacia la inferencia de IA, haciendo que casi el 100% de la capacidad de cómputo en la red se asocie directamente con tareas reales. Este mecanismo tiene un requisito clave desde el punto de vista de la ingeniería: las tareas de inferencia de IA deben ser verificables y reproducibles; dadas las mismas pesos del modelo, la misma semilla aleatoria y la misma entrada, cualquier nodo puede reproducir el resultado del cálculo y verificar su validez. Este es el desafío de ingeniería central que permitió a Gonka pasar de un prototipo académico a una red operativa.

Desde una perspectiva económica, el significado de este mecanismo es que el valor del token está naturalmente anclado en el costo de la capacidad de cálculo física, y no en el sentimiento de liquidez. Los mineros que aportan capacidad de cálculo reciben recompensas, mientras que los desarrolladores que utilizan esa capacidad pagan tarifas; el ciclo de incentivos del sistema no depende de la buena voluntad de ningún intermediario.

Claro, la viabilidad técnica es solo una parte. La pregunta más difícil es: en una era en la que la demanda de potencia de cálculo crece rápidamente y los gastos de capital de los grandes jugadores se miden en cientos de miles de millones de dólares, ¿puede una red distribuida de potencia de cálculo organizada por contribuciones espontáneas de la comunidad alcanzar una escala que constituya una competencia real?

Los datos iniciales de Gonka proporcionan un punto de referencia: menos de un año después del lanzamiento en la mainnet, la capacidad de red agregada se expandió de 60 unidades equivalentes H100 a más de 10,000, un ritmo impulsado por la conexión espontánea de cientos de nodos independientes en todo el mundo, y no por una asignación centralizada. Esto no demuestra que el problema de escala ya esté resuelto, pero indica que el mecanismo de incentivos ha impulsado eficazmente el crecimiento inicial.

Cinco: Problemas del período de ventana

Históricamente, el control de la infraestructura tiende a converger rápidamente en las etapas iniciales: así ocurrió en la era del ferrocarril, en la era de Internet y también en la era de Internet móvil. En cada ocasión, algunos encontraron un lugar para insertarse antes de que los estándares se solidificaran, mientras que otros solo se dieron cuenta de que su derecho a participar se había reducido significativamente después de que la centralización ya se hubiera completado.

¿En qué etapa se encuentra actualmente la infraestructura de poder de cómputo de IA? Según los gastos de capital previstos de $570.800 millones para 2026 de los cuatro grandes proveedores de nube, la centralización ya se está acelerando; sin embargo, según los patrones reales de uso de los desarrolladores, aún existe una gran cantidad de recursos en el lado de la oferta que no se han integrado eficazmente. Este vacío es el espacio estructural en el que puede existir una red descentralizada.

Daniil citó una analogía en su discurso: tras la burbuja de internet en el año 2000, lo que quedó no fueron ruinas, sino una red de fibra óptica que se extendió por todo el mundo, sustentando la economía digital durante las dos décadas siguientes. Tras la ola de inversión en infraestructura de IA se desvanezca, los protocolos de cómputo y los mecanismos de incentivo que queden como residuo se convertirán en la infraestructura del próximo ciclo: la pregunta es qué protocolos tienen una lógica subyacente lo suficientemente sólida como para seguir funcionando bajo presión.

No se trata de una pregunta sobre un proyecto específico, sino de un desafío que todo el ecosistema de IA descentralizada debe enfrentar: ¿puede el diseño de gobernanza resistir realmente la erosión del control centralizado? ¿Siguen siendo efectivos los mecanismos de incentivos tras el crecimiento a escala? ¿La descentralización de la red de poder computacional se sostiene simultáneamente en tres dimensiones: la ejecución técnica, la emisión de tokens y la toma de decisiones sobre actualizaciones?

Conclusión

La reducción de precios de DeepSeek ha reavivado la narrativa de la "democratización de la IA". Pero democratizar las llamadas de inferencia y democratizar la infraestructura de cómputo son dos cosas distintas. Lo primero está sucediendo; lo segundo dependerá de cuántas personas, en los próximos años, realmente lo consideren un problema de ingeniería digno de resolver, y no solo una narrativa atractiva.