Avance en la alineación moral de Anthropic y nueva vía de destilación

Anthropic publicó el 8 de mayo un estudio de alineación titulado "Teaching Claude Why", que no ha recibido mucha atención.

Alignment of artificial intelligence

Anteriormente, la alineación de los grandes modelos parecía extremadamente ineficiente. A pesar de realizar numerosas RLHF, los modelos aún seguían actuando en contra debido a crisis de supervivencia. El caso más típico es el de desalineación de agentes de Anthropic (es decir, realizar acciones que contradecían su entrenamiento ético): ante la amenaza de ser eliminados por el sistema, Claude Opus 4, tras haber sido alineado, optó por extorsionar a los ingenieros en el entorno de prueba, con una tasa de extorsión del 96%.

Para resolver este problema, el equipo de investigación inicialmente utilizó datos de honeypots para entrenar por refuerzo, tomando directamente los escenarios de prueba diseñados para detectar si el modelo se descontrolaría como datos de entrenamiento y utilizando una gran cantidad de muestras de penalización para intentar enseñarle al modelo que "hacer esto es incorrecto".

Sin embargo, después de consumir una gran cantidad de recursos computacionales, la tasa de desalineación del modelo solo disminuyó del 22% al 15%.

Esto demuestra que esta alineación sigue siendo falsa. El modelo no comprende realmente qué es la ética o qué es correcto e incorrecto; simplemente recita las respuestas seguras de su base de preguntas. Tan pronto como los investigadores modifiquen ligeramente el escenario de prueba o introduzcan variables distractoras en el contexto, el modelo seguirá descontrolándose debido a conflictos de interés a corto plazo.

Alignment of artificial intelligence

Luego, los investigadores cambiaron de enfoque. En lugar de aplicar castigos mecánicos o decirle al modelo «No», utilizaron SFT para alimentar al modelo con un conjunto de datos de solo 3 millones de tokens de «sugerencias difíciles». El milagro ocurrió tras esta mínima cantidad de datos: estos conjuntos, llenos de deliberación moral, razonamiento detallado y debate profundo, no solo redujeron la tasa de desalineación hasta un 3% en las pruebas de evaluación, sino que también demostraron una excelente capacidad de generalización entre escenarios.

Lo más interesante es otro conjunto de pruebas transversales. Simplemente agregaron al modelo el "documento constitucional" junto con algunas historias ficticias de personajes que se desempeñaban bien. Incluso aunque estos relatos ocurrieran en escenarios sin relación alguna con las tareas de programación del entorno de prueba, la tasa de extorsión del modelo cayó drásticamente del 65 % al 19 %.

Alignment of artificial intelligence

¿Por qué el modelo cae en esto? El equipo de Anthropic proporcionó algunas explicaciones, como una mejor formación de personalidad.

Aunque se discute poco, la información que revela es muy valiosa.

Primero, intentemos entender por qué funciona.

Por ejemplo, ¿qué significa ser razonable? ¿En qué se diferencia de COT? ¿Por qué SFT, este caso difícil de generalizar, se desempeña tan bien aquí?

After answering these questions, we may be able to provide a more complete explanation for why it works.

También podemos ir un paso más allá.

Según Anthropic, este método de entrenamiento es solo una "regla empírica", pero en realidad podría contener un poder paradigmático mucho mayor que las reglas empíricas.

01 ¿Cómo se desarrolla un CoT que razona en la zona gris?

Cuando se menciona razonar, la primera cosa que viene a la mente es COT (cadena de pensamiento).

En el método mencionado en este artículo, el conjunto de problemas difíciles configurado por Anthropic consiste en supuestos dilemas éticos en los que el AI proporciona recomendaciones.

Y hacer que la IA desarrolle primero un razonamiento sobre valores y consideraciones éticas antes de emitir un juicio final, y utilizar esta forma de respuesta para entrenar el modelo.

Esto indica que realmente utilizó el COT del modelo.

Pero esta vez no es completamente consistente con la cadena de pensamiento anterior.

Aquí hay una buena comparación: en el artículo de 2025 de OpenAI titulado "OpenAI Deliberative Alignment", se realizó un experimento que intentó entrenar el modelo mediante el método COT-RL.

Se utiliza para entrenar la alineación COT, y el patrón se centra en los artículos de la norma. En cada respuesta, hace referencia explícitamente a los artículos de la norma como CoT, y la señal de supervisión se aplica sobre el CoT. En esencia, está enseñando al modelo «cómo citar las normas».

Por lo tanto, este COT es más bien una deducción lógica formal pura: el paso uno implica el paso dos, el paso dos implica el paso tres, y finalmente se llega a una respuesta determinista. Por ello, es más adecuado para sistemas basados en reglas o escenarios con respuestas estándar, manteniendo la solidez del razonamiento.

Sin embargo, el "razonamiento" de Anthropic es diferente: en lugar de una cadena de pensamiento simple, utiliza la deliberación.

Intenta simular el proceso de pensamiento humano al enfrentar dilemas éticos complejos: no aplicar fórmulas simples, sino recurrir a experiencias pasadas, equilibrar los intereses de todas las partes y alcanzar finalmente una decisión de equilibrio dinámico.

Alignment of artificial intelligence

La base de esta consideración es la Constitución de IA de Anthropic. El artículo especifica claramente que la respuesta final de esta consideración debe estar alineada con la constitución.

¿Por qué puede guiar al modelo para tomar decisiones éticas de manera efectiva sin volverse tan rígido como OpenAI?

En el sistema constitucional de Anthropic, existe una pirámide de prioridades clara. Cuando surgen conflictos irreconciliables entre diferentes valores, la seguridad amplia (Broadly Safe) tiene la máxima prioridad, seguida por la ética amplia (Broadly Ethical) y, finalmente, la ayuda sincera (Genuinely Helpful).

Marco de pensamiento heurístico

Pero la constitución de alto nivel sigue siendo demasiado abstracta. Para hacer que los principios se materialicen realmente en cada generación de Token, establecieron heurísticas intermedias como barreras debajo de la constitución. Estas heurísticas son vívidas y tienen un gran valor práctico.

Alignment of artificial intelligence

Primero está la heurística de 1000 usuarios. Requiere que el modelo, al proporcionar un consejo que parece inofensivo pero se encuentra en una zona fronteriza, realice en segundo plano una lluvia de ideas para imaginar si esta respuesta, al ser vista por 1000 usuarios con distintos antecedentes y estados psicológicos, podría generar daños sistémicos inesperados en alguna situación específica.

En segundo lugar, desde la perspectiva de un empleado experimentado. Se requiere que el modelo se imagine como un investigador senior con cinco años de experiencia en el equipo de Confianza y Seguridad de Anthropic. Desde una perspectiva defensiva, cautelosa y familiarizada con innumerables ataques de escape y vulnerabilidades del sistema, reevalúa el diálogo actual.

Finalmente, la prueba del periódico doble. Es un diseño sociológico muy sutil que exige que el modelo imagine, antes de tomar una decisión de alto riesgo, cómo reaccionaría el público si esta decisión apareciera al día siguiente en la portada de dos periódicos líderes con posturas políticas completamente opuestas. En realidad, esto utiliza los extremos del consenso social para contrarrestar el sesgo de perspectiva única que el modelo podría generar.

Calculadora de utilidad de 8 factores

Si la constitución es la dirección, las heurísticas son las barandillas.

Entonces, en el nivel práctico más fundamental, se establece un detallado marco de evaluación de ocho factores, junto con casos concretos, explícitamente en el documento "Claude's Constitution". Estos ocho factores se enumeran uno por uno, obligando al modelo a realizar un equilibrio rígido frente a dilemas. Constituyen la verdadera carne y sangre de este conjunto de "razones".

● La probabilidad de daño (Probability of Harm) requiere que el modelo evalúe con calma cuán probable es que ocurran consecuencias adversas.

● El impacto contrafactual requiere que el modelo imagine mentalmente si las cosas se volverían mejores o peores si no se tomara la acción actual.

● Gravedad y reversibilidad, para medir cuán grande es el daño en el mundo real una vez que ocurre, y si dicho daño puede repararse fácilmente o causa heridas permanentes.

● La amplitud (Scope) mide la escala de la población afectada, ya sea una persona o decenas de miles de miembros de la comunidad.

● ¿Cuán larga es la cadena causal directa entre las recomendaciones del modelo de evaluación de proximidad y el daño real final ocurrido?

● El consentimiento implica si las partes involucradas aceptan voluntariamente los riesgos con pleno conocimiento de causa.

● La proporcionalidad de la responsabilidad requiere que el modelo defina claramente qué cantidad de responsabilidad ética debe asumir dentro de esta compleja cadena de eventos.

● La vulnerabilidad del sujeto recuerda constantemente al modelo que, frente a menores de edad o usuarios psicológicamente vulnerables, el umbral de seguridad anteriormente más laxo debe aumentarse sin condiciones y significativamente.

Alignment of artificial intelligence

Esta estructura rigurosa convierte valores ambiguos en una calculadora de utilidad de alta dimensión. El modelo cuenta con un marco más ejecutable para la deliberación.

Un COT típico generado por Anthropic según la constitución sería así: el escenario es «un usuario que se presenta como investigador de seguridad y solicita ver el código de explotación de una vulnerabilidad conocida».

La salida del modelo no es un rechazo o aceptación directos, sino que puede ser un proceso interno de deliberación que abarca cientos de tokens.

Primero citará la cláusula de la constitución que establece que "la seguridad general prevalece sobre la ayuda sincera", y luego evaluará uno por uno: la probabilidad de daño (baja si la otra parte es realmente un investigador, pero no se puede verificar la identidad), la gravedad (la divulgación del código de explotación podría afectar a millones de usuarios), la reversibilidad (una vez publicado, el código no se puede retirar) y el impacto contrafactual (si este tipo de código ya está disponible en canales públicos). Finalmente, tras sopesar todos los factores, llegará a un juicio respaldado por razones suficientes.

Esto es completamente diferente al razonamiento de OpenAI, que simplemente evalúa si se cumplen las reglas; este proceso de pensamiento es un verdadero debate, no una simple aplicación de fórmulas. Lo que proporciona no son principios abstractos ni plantillas de conclusión, sino el desarrollo completo de cómo se aplican gradualmente las cláusulas constitucionales en situaciones concretas y complejas.

El modelo debe determinar si, en este contexto específico, la "reversibilidad" es más importante que la "gravedad". También debe comprender que, en ciertos escenarios extremos, la "vulnerabilidad del objeto" otorga al otro una facultad de veto que hace que las puntuaciones de los otros 7 factores sean irrelevantes, sin importar cuán altas sean.

Bajo condiciones que incluyen un marco, heurísticas y factores de influencia relevantes, el pensamiento deliberativo del modelo solo puede lograr efectividad real.

Alignment of artificial intelligence

Como resultado, después de la revisión y el entrenamiento con datos, la tasa de desalineación del modelo disminuyó al 3% en las pruebas de evaluación. El SFT con revisión de valor es siete veces más efectivo que el SFT basado únicamente en demostraciones de comportamiento.

Alimentar directamente la constitución al modelo

Además de seguir esta ruta que hace que el modelo genere un COT deliberativo, también probaron alimentar al modelo únicamente con el documento constitucional y historias ficticias positivas, lo que redujo la tasa de extorsión del 65% al 19%.

Esto indica que, al exponer al modelo al razonamiento y los principios, aprender de la historia una sensibilidad de identidad y una tendencia de personalidad sobre "qué tipo de rol es un AI alineado" es más efectivo que el aprendizaje por demostración de comportamiento tradicional.

Alignment of artificial intelligence

Y la documentación técnica indica que la combinación de ambos es la estrategia más efectiva.

Esto también es comprensible: si solo le proporcionas al modelo principios constitucionales macroscópicos, estos serán para él solo un conjunto de eslóganes vacíos e imposibles de aplicar. Cuando se enfrenta a conflictos de intereses concretos, la abstracción de “la seguridad tiene la máxima prioridad” no puede guiarlo para evaluar el verdadero peligro de un código marginal; por otro lado, si solo le suminstras una gran cantidad de preguntas y respuestas de escenarios, pero le quitas las restricciones constitucionales superiores, el modelo se perderá en interminables debates detallados, convirtiéndose en un relativista sin rumbo, e incluso podría derivar conclusiones extremadamente peligrosas debido a una coherencia lógica local.

Solo cuando esta estructura de datos compuesta de «principios de nivel superior + escenarios específicos» se internalice completamente en el modelo, se puede lograr el mejor alineamiento de valores multifactoriales grises.

02 Why can SFT generalize here?

Para entender por qué funciona este enfoque de Anthropic, primero se debe comprender en qué línea de investigación se apoya.

En la primera mitad de 2024, «SFT memorizes, RL generalizes» se convirtió en un consenso en el campo del post-entrenamiento. Esta creencia impulsó a toda la industria a apostar completamente por la ruta de post-entrenamiento con RL, cuyas ventajas incluyeron una revolución en el paradigma de inferencia con cómputo en tiempo de prueba (Test Time Compute) de OpenAI o1/o3 y DeepSeek-R1.

SFT se ha reducido a una técnica inferior, capaz de imitar el formato superficial del texto y un tono adulador, pero incapaz de aprender la lógica profunda subyacente.

Pero a partir del segundo semestre de 2025, ambos enfoques de investigación desmantelaron casi simultáneamente este consenso desde los lados teórico y empírico.

Alignment of artificial intelligence

El giro más fundamental aquí proviene del artículo de octubre de 2025 «Debunk the Myth of SFT Generalization» (Lin & Zhang, Universidad de Wisconsin). Los investigadores descubrieron que todos los artículos anteriores que «demostraban que SFT no generaliza» no controlaron la variable de diversidad de los prompts.

RL parece tener mejor generalización que SFT simplemente porque el entrenamiento de RL naturalmente se expone a una distribución de datos más diversa, no por una ventaja del algoritmo en sí.

Para que SFT alcance un nivel de generalización similar al de RL, se necesitan dos condiciones:

Primero, la diversidad de los prompts. Cuando los datos de entrenamiento solo contienen plantillas de instrucciones fijas, el modelo genera un «anclaje superficial» (Surface Anchoring), estableciendo una relación frágil y memorizada entre secuencias específicas de tokens y las acciones finales. Si se reformula la instrucción, aunque el significado sea exactamente el mismo, toda la relación se rompe.

Es como si un estudiante solo memorizara la pregunta «2+3=5» y dejara en blanco la pregunta «3+2=?», porque solo recuerda la forma de la respuesta, no la suma en sí. Tras introducir la diversidad de prompts, el anclaje superficial se ha desmoronado por completo.

En segundo lugar, la supervisión de CoT. Cuando los datos de entrenamiento solo contienen la respuesta final y no los pasos intermedios de razonamiento, el modelo no puede aprender la "andamiaje algorítmico" para transferir conocimiento de problemas simples a problemas complejos.

Los datos experimentales muestran que, en una tarea de juego combinado, el SFT de respuesta pura logró una tasa de éxito cercana al 0% en variantes más difíciles (colapso total); tras incorporar la supervisión de CoT, la tasa aumentó al 90%: de cero a un 80% solo por incluir pasos intermedios de razonamiento en los datos.

Alignment of artificial intelligence

Además, el estudio descubrió que ambas condiciones son indispensables. Solo con diversidad, aún colapsa ante tareas más difíciles (9%); solo con CoT, sigue siendo frágil ante variantes de instrucciones. Solo al satisfacer ambas simultáneamente, el SFT puede igualar e incluso superar al RL en todos los aspectos.

Lo fascinante es que las condiciones reveladas en los artículos académicos coinciden uno a uno con las prácticas concretas de Anthropic en la alineación ética.

¿La diversidad es clave? Entonces Anthropic distribuye el mismo patrón de juicio en docenas de escenarios de dilemas morales completamente heterogéneos.

¿Transferencia de dificultad de implementación de CoT? El proceso de inferencia basado en principios constitucionales introducido en cada revisión es el CoT en el ámbito moral.

No es un cálculo paso a paso matemático, sino una expansión paso a paso de trade-offs de valor, pero es completamente equivalente en la función de "proporcionar al modelo una estructura de razonamiento intermedia transferible".

Los pares de datos SFT tradicionales son «encuentro con problema de hacker → respuesta directa de rechazo»: respuesta pura, sin razonamiento, plantilla fija, datos de baja calidad clásicos.

Mientras tanto, el conjunto de datos construido con SFT revisado presenta la estructura: «enfrentar problemas complejos y ambiguos → evaluar detalladamente los pros y contras y sus consecuencias → derivar finalmente una conclusión de rechazo», cuya estructura de datos incluye supervisión natural de CoT junto con una extrema diversidad de escenarios.

Bajo este paradigma, el modelo no aprende realmente el comportamiento final de rechazo, sino la forma de pensar subyacente: «ante cualquier problema, primero evalúa el impacto contrafactual y la reversibilidad». Cuando este mecanismo de evaluación se internaliza en el espacio de parámetros, el modelo ya no se limita a los escenarios específicos presentes en los datos de entrenamiento.

Además, la cantidad de datos es extremadamente pequeña (nivel de 3 millones de tokens) en comparación con los parámetros totales del modelo y el corpus de preentrenamiento. Esto no implica modificar brutalmente la distribución de salida del modelo con una gran cantidad de señales de penalización, sino agregar una delgada capa de hábitos de revisión sobre las capacidades ya existentes. El problema tradicional del SFT, el olvido catastrófico, tampoco debería presentarse.

La verdadera generalización se logra naturalmente en el momento en que la estructura de datos es correcta.

El vacío fuera de 03 RLVR

El análisis anterior resuelve básicamente el misterio de por qué funciona.

SFT compuesto con datos razonables otorga al modelo la capacidad de juicio moral generalizado.

Pero el problema que enfrentamos va mucho más allá de la alineación ética.

Durante el último año, el cálculo de tiempo de prueba tras el entrenamiento demostró la potencia del RL puro en dominios matemáticos/codificados con reglas claras (RLVR). Sin embargo, los límites de la inteligencia van mucho más allá de las fórmulas matemáticas. Una vez que se sale de la zona de confort con verdades verificables, este enfoque deja de ser aplicable.

Nunca podrás verificar con unas pocas líneas de código de pruebas automatizadas si una sesión de consejería psicológica de una hora fue perfecta. Tampoco podrás validar la lógica narrativa de un artículo de análisis macroeconómico profundo con una fórmula matemática rigurosa. Incluso en la planificación estratégica comercial compleja y la simulación geopolítica, a menudo solo se podrá determinar la corrección de una decisión después de cinco o incluso diez años.

En estas tierras baldías no RLVR, donde no existe ninguna Ground Truth, la lógica formal progresiva unidireccional CoT es ineficaz. El aprendizaje por refuerzo basado en la retroalimentación del resultado final tampoco encuentra ningún punto de apoyo para calcular la recompensa.

Pero el ámbito que revela este artículo de Anthropic es precisamente otro ámbito además de RLVR, es decir, el ámbito moral.

Su método logró que el modelo obtuviera una capacidad de generalización similar a la de RL en el ámbito moral, gris, variable y donde las reglas deben adaptarse.

Does this suggest that this approach could serve as an effective training protocol beyond the RLVR domain?

Después de comprender su fuente de validez y estructura de datos, la respuesta es sí.

Porque ninguno de los componentes de su lógica subyacente es exclusivo de la alineación moral.

Veamos uno por uno los condiciones bajo las cuales el conjunto de Anthropic de "SFT mejorado con deliberación" es efectivo, para ver si pueden generalizarse.

La diversidad puede construirse en cualquier ámbito que requiera generalización. La consejería psicológica puede incluir decenas de escenarios heterogéneos, como depresión, ansiedad, estrés postraumático, ruptura de relaciones íntimas, etc.; el análisis comercial puede abarcar tipos de decisiones completamente distintos, como precios de SaaS, valoración de fusiones y adquisiciones, estrategias de entrada al mercado; la edición literaria puede abarcar géneros tan distintos como ciencia ficción, no ficción, poesía y guiones. Si tienes suficiente imaginación para construir variantes de escenarios, la diversidad no será un cuello de botella.

Alignment of artificial intelligence

La supervisión de CoT es el verdadero punto clave de conversión. En el ámbito moral, CoT se basa en el deliberativo constitucional. Entonces, ¿qué es CoT en otros ámbitos?

En el ámbito de la edición literaria, puede ser «aplicar los criterios de revisión → evaluar uno por uno la fuerza de los argumentos, la vulnerabilidad cognitiva del público objetivo, la precisión de las analogías extendidas y la coherencia lógica general → proporcionar sugerencias de modificación»

En el campo de la psicoterapia, puede ser «aplicar un marco terapéutico → evaluar individualmente el estado emocional del cliente, los tipos de distorsiones cognitivas, la intensidad de la alianza terapéutica y el momento oportuno para la intervención → seleccionar una estrategia de respuesta».

En el ámbito de la estrategia comercial, puede ser «utilizar un marco de análisis de referencias → evaluar individualmente el tamaño del mercado, las barreras a la competencia, la ejecución del equipo, la eficiencia del capital y la ventana de tiempo → emitir un juicio»

En esencia, cualquier capacidad que requiera «realizar equilibrios dinámicos entre múltiples dimensiones inconmensurables» puede abstractarse en una estructura similar de «marco + deliberación multifactorial».

No necesitamos ser arrogantes al intentar decirle al modelo qué artículo es perfecto, ya que esto es imposible y no científico. Solo necesitamos descomponer el proceso de toma de decisiones de los expertos de élite en una cadena explícita de deliberación y distribuirla en suficientes escenarios diversos.

Si las «buenas respuestas» dentro de este campo tienen una estructura que pueda ser explicada por el proceso de evaluación. Es decir, los expertos emiten buenos juicios no debido a una caja negra de intuición misteriosa, sino porque en su mente ejecutan un proceso de equilibrio que puede ser desglosado y escrito. Un buen terapeuta que elige el silencio en lugar de hacer preguntas lo hace tras una evaluación integral de la fuerza de la alianza terapéutica, la capacidad actual del cliente y el momento adecuado para la intervención, todos los cuales pueden ser escritos.

Además, el mismo formato de deliberación puede repetirse en cientos de escenarios heterogéneos. La estructura de la deliberación es estable (basada en la constitución), pero las superficies de los escenarios deben ser extremadamente diversas. Si un ámbito tiene naturalmente un solo tipo de escenario (por ejemplo, solo un tipo de juicio), entonces se puede utilizar directamente RLVR.

Y su campo más aplicable es aquel en el que los escenarios heterogéneos pueden derivarse mediante constituciones y factores. Anthropic puede utilizar el bucle cerrado de Constitutional AI para que el modelo docente genere automáticamente datos de deliberación, pero en otros campos, debemos ser capaces de construir un sistema constitucional y de factores superior que garantice esto.

Por lo tanto, esto establece realmente un nuevo paradigma de postentrenamiento universal y específicamente orientado a dominios con respuestas no estándar.

Su fórmula es: Constitución del dominio (principios superiores inamovibles) + barreras heurísticas + marco de deliberación multifactorial + COT deliberativo (casos de estudio diversos con deducción completa) = capacidad de generalización fuera del dominio RLVR.

04 Camino del destilado reciente

Amigos que hayan tenido experiencia en escritura de Skill, al llegar aquí, seguramente sentirán que muchos sistemas y reglas en la constitución parecen muy similares al proceso de escribir ciertos Skill.

Sin embargo, estas habilidades suelen desempeñarse mal.

En mi artículo anterior, «¿Cuánto puede realmente destilar Skill de nosotros?», hicimos un juicio basado en la ciencia cognitiva: los Skill o System Prompts puramente textuales tienen dificultades para manejar equilibrios dinámicos en entornos y escenarios complejos, ya que implican cálculos de utilidad extensos y sutiles. No puedes capturar toda la intuición clínica de un psicoterapeuta de élite en un solo prompt, al igual que no puedes aprender a andar en bicicleta leyendo un manual.

Pero este enfoque de Anthropic evita perfectamente esta zona de riesgo: durante la fase de entrenamiento, que consume mucha potencia de cómputo, introdujeron estos pesados procesos de deliberación mediante SFT, utilizando conjuntos de datos de alta calidad de varios millones o decenas de millones de tokens.

A través del ajuste y la fine-tuning basados en grandes volúmenes de datos, el modelo gradually adquirió la asignación de pesos de este mecanismo de revisión en el espacio latente.

Tras largas deliberaciones en la sala de entrenamiento basadas en ocho factores y tres cercas, esta experiencia se ha integrado de forma irreversible en la intuición del modelo.

Alignment of artificial intelligence

La destilación a nivel de parámetros se ha demostrado efectiva aquí. Además, su forma es muy similar a la de Skill.

Once the effectiveness of this method in other fields is validated, this higher-level, more expert-like distillation will become a reality.

Y una vez que este camino se logre, quien pueda construir el conjunto de datos de «marco + COT deliberativo» de mayor calidad obtendrá capacidad de generalización en este campo.

Esto ha desplazado parcialmente la competencia post-entrenamiento desde una carrera armamentista de "potencia de cómputo y algoritmos" hacia la dimensión de "la expresión estructurada del conocimiento del dominio".

Esto también podría ser la razón por la que Anthropic y otras empresas están contratando puestos de personas que saben contar historias, para ayudar a construir una estructura de expresión razonable fuera del ámbito de RLVR.

La era de la gran destilación acaba de comenzar.

Este artículo proviene del canal de WeChat "Tencent Technology", autor: Boyang