Nota del editor: Los laboratorios de IA de China están convirtiéndose en una fuerza cada vez más difícil de ignorar en la competencia global de modelos grandes. Sus ventajas no solo radican en la gran cantidad de talento, la sólida ingeniería y la rápida iteración, sino también en un enfoque organizacional muy práctico: hablar menos de conceptos y hacer más modelos; enfatizar menos a las estrellas individuales y más en la ejecución del equipo; depender menos de servicios externos y preferir controlar internamente la pila tecnológica clave.

Después de visitar varios de los principales laboratorios de IA en China, el autor Nathan Lambert descubrió que el ecosistema de IA en China no es idéntico al de Estados Unidos. Estados Unidos se enfoca más en paradigmas originales, inversión de capital e influencia personal de científicos de élite; en cambio, China destaca por su capacidad para avanzar rápidamente en direcciones ya establecidas, impulsando las capacidades de los modelos hasta la vanguardia mediante código abierto, optimización de ingeniería y la intensa participación de numerosos investigadores jóvenes.

Lo más relevante no es si la IA china ya ha superado a la estadounidense, sino que se están formando dos caminos de desarrollo distintos: Estados Unidos parece más una competencia de vanguardia impulsada por capital y laboratorios estelares, mientras que China parece más una competencia industrial impulsada por capacidad de ingeniería, ecosistema de código abierto y conciencia de autodominio tecnológico.

Esto significa que, en el futuro, la competencia en IA no será solo una batalla por los rankings de modelos, sino también por la capacidad organizativa, el ecosistema de desarrolladores y la ejecución industrial. El verdadero cambio en la IA china radica en que ya no solo copia a Silicon Valley, sino que participa en la vanguardia global a su propia manera.

A continuación se encuentra el texto original:

Sentado en el tren de alta velocidad moderno que va de Hangzhou a Shanghái, miro por la ventana y veo crestas montañosas bien definidas, adornadas con turbinas eólicas que forman siluetas bajo la luz del atardecer. Las montañas sirven de fondo, mientras que frente a mí se extienden extensos campos y bloques de edificios altos entrelazados.

Regreso de China con una profunda humildad. Ir a un lugar tan desconocido y ser recibido con tal calidez fue una experiencia profundamente cálida y profundamente humana. Tuve el privilegio de conocer a muchas personas del ecosistema de IA que antes solo conocía de lejos; y ellas me recibieron con sonrisas brillantes y entusiasmo, recordándome una vez más que mi trabajo, y todo el ecosistema de IA en sí, son globales.

La mentalidad de los investigadores chinos

Las empresas chinas que están desarrollando modelos de lenguaje pueden considerarse muy adecuadas para actuar como «seguidores rápidos» de esta tecnología. Se basan en la larga tradición cultural china en educación y trabajo, y también emplean formas ligeramente distintas de construir empresas tecnológicas en comparación con Occidente.

Si se observa solo la producción, es decir, los modelos más recientes y más grandes, así como los flujos de trabajo basados en agentes que estos modelos respaldan; y se consideran los factores de entrada, como científicos excelentes, grandes conjuntos de datos y recursos de cómputo acelerados, los laboratorios chinos y estadounidenses parecen en gran medida similares. Las diferencias verdaderamente persistentes surgen en cómo se organizan y moldean estos elementos.

Siempre he creído que una razón por la que los laboratorios chinos son tan buenos para alcanzar y mantenerse cerca de la vanguardia es que su cultura encaja muy bien con esta tarea. Pero antes de tener conversaciones directas con personas, sentí que no era apropiado atribuir esta intuición a una influencia significativa. Después de hablar con muchos científicos excelentes, humildes y abiertos en los principales laboratorios chinos, muchas de mis ideas se volvieron más claras.

Construir el mejor modelo de lenguaje grande hoy en día depende en gran medida del trabajo detallado a lo largo de toda la pila técnica: desde los datos, hasta los detalles de la arquitectura y la implementación de algoritmos de aprendizaje por refuerzo. Cada componente del modelo puede aportar mejoras, y combinar estas mejoras es un proceso complejo. Durante este proceso, el trabajo realizado por algunas personas muy inteligentes puede tener que posponerse para lograr la maximización del modelo global en la optimización multiobjetivo.

Los investigadores estadounidenses también son claramente muy hábiles para resolver problemas de componentes individuales, pero en Estados Unidos existe una cultura más fuerte de "defenderse a uno mismo". Como científico, cuando te esfuerzas activamente por obtener atención para tu trabajo, generalmente tienes más éxito; y la cultura contemporánea está impulsando una nueva vía hacia la fama: convertirse en un "científico de IA de primer nivel". Esto genera conflictos directos.

Se ha extendido ampliamente la rumorología de que la organización Llama colapsó tras la inserción de estas demandas de interés en una estructura jerárquica, debido a presiones políticas. También he escuchado a otros laboratorios mencionar que, a veces, es necesario «calmar» a un investigador de primer nivel para que deje de quejarse de que sus ideas no se incorporaron al modelo final. Independientemente de si esto es completamente cierto, el mensaje es claro: la autoconciencia y el deseo de ascenso profesional pueden obstaculizar la construcción de los mejores modelos. Incluso una pequeña diferencia cultural en esta dirección entre Estados Unidos y China podría tener un impacto significativo en el resultado final.

Parte de esta diferencia está relacionada con quién está construyendo estos modelos en China. En todos los laboratorios, una realidad directa es que un gran porcentaje de los contribuyentes clave son aún estudiantes. Estos laboratorios son bastante jóvenes, lo que me recuerda la forma en que organizamos a Ai2: los estudiantes se consideran compañeros y se integran directamente en los equipos de modelos de lenguaje grande.

Esto es muy diferente de los mejores laboratorios de Estados Unidos. En Estados Unidos, empresas como OpenAI, Anthropic y Cursor simplemente no ofrecen prácticas. Otras empresas, como Google, oficialmente ofrecen prácticas relacionadas con Gemini, pero muchas personas se preocupan de que sus prácticas se aíslen fuera del trabajo central real.

En resumen, esta leve diferencia cultural puede mejorar la capacidad de construcción de modelos de las siguientes maneras: las personas están más dispuestas a realizar tareas menos brillantes para mejorar el modelo final; quienes comienzan a participar en la construcción de IA pueden no estar influenciados por ciclos anteriores de especulación en IA, lo que les permite adaptarse más rápidamente a nuevos métodos tecnológicos modernos. De hecho, un científico chino con quien hablé consideró explícitamente esto una ventaja: una menor autoconciencia facilita en cierta medida la escalabilidad de la estructura organizacional, ya que menos personas intentan «manipular el sistema»; una gran cantidad de talento es ideal para resolver problemas que ya tienen validación conceptual en otros lugares, entre otros aspectos.

Esta tendencia, que favorece la capacidad de los modelos de lenguaje actuales, contrasta con un estereotipo conocido: se suele pensar que los investigadores chinos producen menos investigaciones académicas creativas y pioneras, de tipo “de 0 a 1”.

Durante varias visitas a laboratorios más académicos en este viaje, muchos responsables mencionaron que están fomentando una cultura de investigación más ambiciosa. Al mismo tiempo, algunos líderes técnicos con quienes hablamos dudan de que esta reconfiguración del enfoque científico pueda lograrse a corto plazo, ya que requiere rediseñar los sistemas educativos y de incentivos, una transformación tan grande que es difícil de lograr bajo el equilibrio económico actual.

Esta cultura parece estar formando a un grupo de estudiantes e ingenieros extremadamente hábiles en el «juego de construir modelos de lenguaje grande». Por supuesto, su número es también extremadamente abundante.

Estos estudiantes me dijeron que en China también está ocurriendo una fuga de talento similar a la de Estados Unidos: muchas personas que antes consideraban una carrera académica ahora planean quedarse en el sector industrial. La frase más interesante provino de un investigador que originalmente quería ser profesor, quien dijo que deseaba ser profesor porque quería estar cerca del sistema educativo; pero luego comentó que la educación ya había sido resuelta por los modelos de lenguaje a gran escala: «¿Por qué los estudiantes todavía deberían venir a hablar conmigo?»

Los estudiantes ingresan al campo de los modelos de lenguaje grandes con una perspectiva fresca, lo cual es una ventaja. En los últimos años, hemos visto cómo los paradigmas clave de los modelos de lenguaje grande han cambiado constantemente: desde la expansión de MoE, hasta la expansión del aprendizaje por refuerzo, y luego el soporte para agentes. Hacer bien cualquiera de estas tareas requiere absorber extremadamente rápido una gran cantidad de información de fondo, tanto de la literatura más amplia como de la pila tecnológica interna de la empresa.

Los estudiantes están acostumbrados a hacer este tipo de cosas y están dispuestos a dejar de lado, con humildad, todas sus suposiciones sobre lo que debería funcionar. Se lanzan de lleno, invierten su vida en ello, solo para tener la oportunidad de mejorar los modelos.

Estos estudiantes también son sorprendentemente directos y evitan las discusiones filosóficas que podrían distraer a los científicos. Cuando les pregunté sobre su visión del impacto económico del modelo o los riesgos sociales a largo plazo, claramente hay mucho menos investigadores chinos con perspectivas complejas que desean influir en estos temas. Ellos consideran que su rol es construir los mejores modelos posibles.

Esta diferencia es sutil y fácil de negar. Pero se percibe con mayor claridad cuando mantienes una larga conversación con un investigador elegante, inteligente y capaz de expresarse con claridad en inglés: cuando planteas preguntas más filosóficas sobre la IA, estas cuestiones fundamentales quedan flotando en el aire, y el interlocutor muestra una simple confusión. Para ellos, se trata de un error de categoría.

Incluso un investigador citó el famoso juicio de Dan Wang: en comparación con Estados Unidos, liderado por abogados, China es gobernada por ingenieros. Al abordar estos temas, utilizó esta analogía para enfatizar su deseo de construir. En China, no existe un camino sistemático para cultivar la influencia estelar de científicos chinos, como lo hacen los podcasts superpopulares como Dwarkesh o Lex.

Intenté hacer que científicos chinos comentaran sobre la incertidumbre económica futura provocada por la IA, problemas que van más allá de las capacidades simples de la AGI, o las discusiones éticas sobre cómo deberían comportarse los modelos; todos estos problemas finalmente me llevaron a ver el trasfondo y la formación educativa de estos científicos (editado). Están extremadamente enfocados en su trabajo, pero crecieron en un sistema que no fomenta la discusión ni la expresión sobre cómo debería organizarse la sociedad o cómo debería cambiarse.

Al alejar la perspectiva, especialmente Beijing, me da la sensación de ser similar a la Bahía: un laboratorio competitivo que probablemente está a solo unos minutos a pie o en taxi. Después de aterrizar, visité el campus de Alibaba en Beijing en camino al hotel. Durante las siguientes 36 horas, visitamos Zhipu AI, Moonshot AI, la Universidad Tsinghua, Meituan, Xiaomi y 01.ai.

En China, usar Didi es muy conveniente. Si eliges el modelo XL, a menudo te asignan un minivan eléctrico con sillas de masaje. Les preguntamos a los investigadores sobre la guerra por el talento, y dijeron que es muy similar a lo que experimentamos en Estados Unidos. Es normal que los investigadores cambien de empleo, y la decisión de dónde ir depende en gran medida de dónde esté el mejor ambiente en ese momento.

En China, la comunidad de modelos de lenguaje grande se siente más como un ecosistema que como tribus en guerra. En muchas conversaciones no públicas, escuché casi exclusivamente respeto por los colegas. Todos los laboratorios chinos tienen gran respeto por ByteDance y su popular modelo Doubao, ya que es el único laboratorio cerrado de vanguardia en China. Al mismo tiempo, todos los laboratorios respetan profundamente a DeepSeek, considerándolo el laboratorio con el mayor gusto investigativo en la ejecución. En Estados Unidos, cuando mantienes conversaciones no públicas con miembros de laboratorios, las chispas suelen encenderse rápidamente.

Lo que más me impresiona de la humildad de los investigadores chinos es que también suelen encogerse de hombros en el ámbito comercial, diciendo que no es asunto suyo. En Estados Unidos, parece que todos están obsesionados con las tendencias industriales en todos los niveles del ecosistema, desde los vendedores de datos hasta la potencia de cómputo y la financiación.

Diferencias y similitudes entre la industria china de IA y los laboratorios occidentales

Hoy construir un modelo de IA es tan interesante porque ya no se trata simplemente de reunir a un grupo de investigadores excelentes en el mismo edificio para crear juntos una hazaña de ingeniería. Antes era así, pero para mantener un negocio de IA, los modelos de lenguaje grande se están convirtiendo en una mezcla: involucran la construcción, el despliegue, la financiación y la promoción de la adopción de esta creación.

Las empresas líderes de IA existen dentro de un ecosistema complejo. Estos ecosistemas proporcionan financiamiento, poder de cómputo, datos y otros recursos para impulsar continuamente los límites del avance.

En el ecosistema occidental, la forma de integrar los diversos insumos necesarios para crear y mantener modelos de lenguaje grandes ya ha sido relativamente bien conceptualizada y mapeada. Anthropic y OpenAI son ejemplos típicos. Por lo tanto, si podemos identificar que los laboratorios chinos piensan de manera significativamente diferente sobre estos problemas, podremos ver qué diferencias significativas podrían ser apostadas por distintas empresas en el futuro. Por supuesto, estos futuros también estarán fuertemente influenciados por restricciones de financiación y/o capacidad de cómputo.

A continuación, resumo las principales conclusiones a nivel «industrial de la IA» obtenidas tras mi interacción con estos laboratorios:

En primer lugar, ya se han manifestado signos tempranos de la demanda de IA en el país.
Existe una suposición ampliamente discutida que sostiene que el mercado de IA en China será más pequeño, ya que las empresas chinas generalmente no están dispuestas a pagar por software, por lo que nunca podrán generar un mercado de inferencia lo suficientemente grande como para sustentar laboratorios.

Pero este juicio solo se aplica a los gastos de software correspondientes al ecosistema SaaS, que históricamente ha sido pequeño en China. Por otro lado, China claramente aún tiene un enorme mercado en la nube.

Una pregunta clave aún sin responder es: ¿los gastos de las empresas chinas en IA serán más como el mercado de SaaS, es decir, de menor escala, o más como el mercado en la nube, es decir, gastos fundamentales? Esta pregunta también se discute dentro de los laboratorios chinos. En general, siento que la IA se está acercando más al mercado en la nube, y nadie realmente se preocupa por que el mercado formado por nuevas herramientas no pueda crecer.

En segundo lugar, la mayoría de los desarrolladores están profundamente influenciados por Claude.
A pesar de que Claude está oficialmente bloqueado en China, la mayoría de los desarrolladores de IA en China están fascinados con Claude y cómo ha transformado la forma en que construyen software. Solo porque China anteriormente no estaba muy dispuesta a comprar software, no significa que no experimente un gran aumento en la demanda de inferencia.

Los técnicos chinos son muy prácticos, humildes y motivados. Esta impresión es más fuerte para mí que cualquier hábito histórico de "no pagar por software".

Algunos investigadores chinos mencionan que utilizan sus propias herramientas para construir, como las herramientas de línea de comandos de Kimi o GLM, pero todos mencionan el uso de Claude. Sorprendentemente, muy pocos mencionan Codex, a pesar de que Codex está ganando popularidad rápidamente en la Bahía.

En tercer lugar, las empresas chinas tienen una mentalidad de propiedad técnica.
La cultura china se está combinando con un motor económico en pleno funcionamiento, generando resultados difíciles de predecir. Una impresión profunda que me quedó es que la gran cantidad de modelos de IA refleja un equilibrio práctico presente en muchas empresas tecnológicas aquí. No existe un plan centralizado.

Esta industria se define por el respeto hacia ByteDance y Alibaba. Son grandes actores establecidos considerados capaces de ganar muchos mercados gracias a sus poderosos recursos. DeepSeek es un líder tecnológico respetado, pero lejos de ser un líder del mercado. Establecen la dirección, pero no poseen la estructura económica para ganar el mercado.

Esto deja empresas como Meituan o Ant Group. Los occidentales podrían sorprenderse de por qué también están construyendo estos modelos. Pero en realidad, claramente consideran los modelos de lenguaje grande como el núcleo de los productos tecnológicos del futuro, por lo que necesitan una base sólida.

Cuando afinan un modelo general potente, la retroalimentación de la comunidad de código abierto fortalece su pila tecnológica, al tiempo que pueden conservar versiones internas afinadas para sus propios productos. Esta mentalidad de "open first" en la industria está en gran medida definida por el pragmatismo: permite obtener retroalimentación sólida, devolver valor a la comunidad de código abierto y potenciar su propia misión.

Cuarto, el apoyo gubernamental es real, pero su magnitud aún es desconocida.
A menudo se afirma que el gobierno chino está ayudando activamente a abrir la competencia de modelos de lenguaje grandes. Pero se trata de un sistema gubernamental relativamente descentralizado compuesto por muchos niveles, y cada nivel no dispone de un manual de operaciones claro que defina exactamente qué debe hacer.

Entre diferentes barrios de Pekín existe competencia por atraer a empresas tecnológicas para que establezcan allí sus oficinas. La «ayuda» ofrecida a estas empresas casi con certeza incluye eliminar trabas burocráticas, como trámites de licencias. Pero ¿hasta dónde puede llegar esta ayuda? ¿Pueden los distintos niveles del gobierno ayudar a atraer talento? ¿Pueden ayudar a contrabandear chips?

Durante toda la visita, se mencionó efectivamente un gran interés o apoyo por parte del gobierno, pero la información relevante era insuficiente para informar detalles de manera afirmativa, y tampoco suficiente para formar una visión global segura sobre cómo el gobierno podría realmente cambiar la trayectoria del desarrollo de la IA en China.

Of course, there is also no indication whatsoever that China's top leadership is influencing any technical decisions of the model.

Quinto, la industria de datos está mucho menos desarrollada que en Occidente.
Anteriormente escuchamos que Anthropic u OpenAI gastan más de 10 millones de dólares en un solo entorno, con gastos acumulados anuales de cientos de millones de dólares para impulsar los límites del aprendizaje por refuerzo. Por lo tanto, nos preguntamos si los laboratorios chinos también están comprando los mismos entornos a empresas estadounidenses, o si existe un ecosistema doméstico especular que los respalde.

La respuesta no significa literalmente «no hay industria de datos», sino que, según su experiencia, la calidad de la industria de datos es relativamente baja, por lo que en muchos casos es mejor construir entornos o datos internamente. Los investigadores dedican mucho tiempo a crear entornos de entrenamiento para aprendizaje por refuerzo, mientras que empresas más grandes como ByteDance y Alibaba pueden contar con equipos internos de anotación de datos para respaldar este proceso. Todo esto refuerza la mentalidad mencionada anteriormente de «construir en lugar de comprar».

Sexto, la demanda de más chips de NVIDIA es muy fuerte.
La potencia de cómputo de NVIDIA es el estándar de oro para el entrenamiento, y el progreso de todos está limitado por la falta de más potencia de cómputo. Si la oferta fuera suficiente, claramente la comprarían. Otros aceleradores, incluyendo pero no limitados a Huawei, han recibido evaluaciones positivas para inferencia. Numerosos laboratorios pueden acceder a los chips de Huawei.

Estos puntos describen un ecosistema de IA muy diferente. Aplicar rápidamente el funcionamiento de los laboratorios occidentales a sus contrapartes chinas a menudo conduce a errores categoriales. La pregunta clave es si estos ecosistemas distintos producirán tipos de modelos sustancialmente diferentes, o si los modelos chinos siempre se interpretarán como similares a los modelos estadounidenses de vanguardia de hace 3 a 9 meses.

Conclusión: Equilibrio global

Antes de este viaje, sabía demasiado poco sobre China; y al partir, sentí que apenas había comenzado a aprender. China no es un lugar que se pueda expresar con reglas o recetas, sino uno con dinámicas y reacciones químicas muy distintas. Su cultura es tan antigua, tan profunda, y aún está completamente entrelazada con la forma en que se construye la tecnología en el país. Me queda mucho por aprender.

Muchas partes de la estructura de poder actual en Estados Unidos utilizan su visión actual de China como una herramienta psicológica clave en la toma de decisiones. Después de haber mantenido reuniones formales e informales en persona con casi todos los principales laboratorios de IA en China, descubrí que China posee muchas cualidades e instintos que son difíciles de modelar con los enfoques de toma de decisiones occidentales.

Incluso si pregunto directamente a estos laboratorios por qué publican abiertamente sus modelos más potentes, aún me resulta difícil conectar completamente el punto de encuentro entre la mentalidad de propiedad y el apoyo sincero al ecosistema.

Aquí, el laboratorio es muy práctico y no es necesariamente absolutista en cuanto al código abierto; no todos los modelos que construyen se publican de forma abierta. Sin embargo, tienen una intención profunda de apoyar a los desarrolladores, fomentar el ecosistema y considerar la apertura como una forma de comprender mejor sus propios modelos.

Casi todas las grandes empresas tecnológicas chinas están desarrollando sus propios modelos de lenguaje grande general. Ya hemos visto que empresas de plataforma como Meituan y empresas de consumo tecnológico de gran escala como Xiaomi han lanzado modelos con pesos abiertos. Las empresas similares en Estados Unidos suelen solo comprar servicios.

Estas empresas construyen modelos de lenguaje de gran escala no para destacar en las novedades populares, sino por un deseo profundo y fundamental: controlar su propia pila tecnológica y desarrollar la tecnología más importante de hoy. Cuando levanto la vista de mi computadora portátil, siempre veo grupos de grúas en el horizonte, lo cual claramente se alinea con la cultura y la energía constructiva más amplias de China.

La calidez humana, el encanto y la sinceridad de los investigadores chinos son muy cercanos y agradables. En el plano personal, ese tipo de discusiones geopolíticas crueles a las que estamos acostumbrados en Estados Unidos no han penetrado en absoluto en ellos. Este mundo podría tener más de esta simple positividad. Como miembro de la comunidad de IA, ahora me preocupa más que estén surgiendo grietas entre miembros y grupos alrededor de las etiquetas de nacionalidad.

Si dijera que no deseo que los laboratorios estadounidenses se conviertan en líderes claros en cada parte de la pila tecnológica de IA, estaría mintiendo. Especialmente en el ámbito de los modelos abiertos, en el que he invertido mucho tiempo, soy estadounidense, y esta es una preferencia honesta.

Al mismo tiempo, espero que el ecosistema abierto pueda florecer a nivel global, ya que esto puede crear una IA más segura, accesible y útil para el mundo. El problema actual es si los laboratorios estadounidenses tomarán medidas para ocupar esta posición de liderazgo.

Mientras escribía este artículo, circulaban más rumores sobre cómo las órdenes ejecutivas afectan a los modelos abiertos. Esto podría complicar aún más la sinergia entre el liderazgo estadounidense y el ecosistema global, lo que no me inspira más confianza.

Gracias a todas las personas excepcionales con las que tuve la oportunidad de conversar en Moonshot, Zhipu, Meituan, Xiaomi, Tongyi Qianwen, Ant Lingguang, 01.ai y otras instituciones. Cada uno fue tan entusiasta y generoso con su tiempo. A medida que mis ideas toman forma, seguiré compartiendo observaciones sobre China, incluyendo aspectos culturales más amplios, así como el propio campo de la IA.

Claramente, estos conocimientos están directamente relacionados con la historia que se está desarrollando en la vanguardia de la IA.

¿Por qué el IA de China se está desarrollando tan rápido? Perspectivas desde los laboratorios

La mentalidad de los investigadores chinos

Diferencias y similitudes entre la industria china de IA y los laboratorios occidentales

Conclusión: Equilibrio global