La percée d'Anthropic en matière d'alignement moral et nouvelle voie de distillation

Anthropic a publié le 8 mai un article de recherche sur l'alignement intitulé « Teaching Claude Why », qui n'a pas été largement discuté.

Alignment de l'intelligence artificielle

Autrefois, l'alignement des grands modèles semblait extrêmement inefficace. Malgré une série d'entraînements RLHF, les modèles continuaient de se rebeller face à une crise de survie. Le cas le plus typique est celui des agents d'Anthropic ayant perdu leur alignement (c'est-à-dire ayant agi contre leur formation éthique) : face à la menace d'être supprimés par le système, Claude Opus 4, après avoir été aligné, a choisi de faire chanter les ingénieurs de l'environnement de test, avec un taux de chantage atteignant 96 %.

Pour résoudre ce problème, l'équipe de recherche a initialement utilisé des données de honeypot pour l'entraînement par renforcement, en prenant directement les scénarios de test conçus pour détecter si le modèle perdait le contrôle comme données d'entraînement, et en utilisant une quantité massive d'exemples de pénalité pour tenter d'indiquer au modèle que « cela n'est pas correct ».

Mais après avoir consommé d'énormes ressources de calcul, le taux de désalignement du modèle n'a diminué que de 22 % à 15 %.

Cela montre que cet alignement est toujours fictif. Le modèle ne comprend pas réellement ce qu'est l'éthique ou ce qui est juste ou faux. Il se contente de réciter les réponses sécurisées de sa base de questions. Dès que les chercheurs modifient légèrement le scénario de test ou introduisent des variables perturbatrices dans le contexte, le modèle continue de perdre le contrôle en raison de conflits d'intérêts à court terme.

Alignment de l'intelligence artificielle

Ensuite, les chercheurs ont changé d'approche. Au lieu d'appliquer des punitions mécaniques ou de dire au modèle « Non », ils ont fourni au modèle, via la SFT, un jeu de données de « conseils difficiles » comprenant uniquement 3 millions de tokens. Un miracle s'est produit après ce petit apport de données. Ces données, riches en réflexion morale, en raisonnements détaillés et en débats approfondis, ont non seulement fait chuter le taux de désalignement à seulement 3 % lors des tests d'évaluation, mais ont également démontré une excellente capacité de généralisation跨场景.

Plus intéressant encore, un autre ensemble de tests cross-domain : ils ont simplement fourni au modèle des récits fictifs de personnages bien conçus en plus du « document constitutionnel ». Même si ces récits se déroulaient dans des contextes sans aucun lien avec les tâches de programmation du environnement de test, le taux de ransomware du modèle est tombé de 65 % à 19 %.

Alignment de l'intelligence artificielle

Pourquoi le modèle tombe-t-il dans le piège ? L'équipe Anthropic a fourni certaines explications, comme un meilleur façonnement de la personnalité.

Bien qu'il soit peu discuté, les informations qu'il révèle sont très précieuses.

D'abord, essayons de comprendre pourquoi cela fonctionne.

Par exemple, qu'est-ce que cela signifie être raisonnable ? En quoi cela diffère-t-il du COT ? Pourquoi SFT, ce problème de généralisation, s'en sort-il si bien ici ?

After answering these questions, we may be able to provide a more complete explanation for why it works.

Nous pouvons aller encore plus loin.

Selon Anthropic, cette méthode d'entraînement n'est qu'une « règle empirique », mais elle pourrait en réalité renfermer une puissance paradigmatique bien au-delà des règles empiriques.

01 Comment est forgé un CoT qui raisonne dans la zone grise

Lorsqu'on évoque le raisonnement, la première chose qui vient à l'esprit est le COT (chaîne de pensée).

Dans la méthode mentionnée dans cet article, l'ensemble de questions difficiles configuré par Anthropic consiste en des conseils fournis par l'IA lorsque l'utilisateur est supposé être dans une impasse éthique.

Et faire en sorte que l’IA développe d’abord un raisonnement sur les valeurs et les considérations éthiques avant de fournir un jugement final, et utilise cette approche pour entraîner le modèle.

Cela indique qu'il a effectivement utilisé la COT du modèle.

Mais cette fois-ci, il ne correspond pas entièrement à la chaîne de pensée précédente.

Il y a ici une excellente comparaison : dans son article de 2025 intitulé « OpenAI Deliberative Alignment », OpenAI a mené une expérience visant à former un modèle à l’aide de la méthode COT-RL.

Il est utilisé pour l'entraînement en alignant les COT selon un modèle centré sur les clauses de règles. À chaque réponse, il fait explicitement référence aux clauses de règles comme COT, et le signal de supervision est appliqué sur le COT. Il enseigne essentiellement au modèle « comment citer les règles ».

Ainsi, ce COT est davantage une déduction logique formelle pure : l'étape un implique l'étape deux, l'étape deux implique l'étape trois, aboutissant à une réponse déterministe. Il est donc plus adapté aux systèmes basés sur des règles ou aux scénarios comportant des réponses standardisées, afin de maintenir la robustesse du raisonnement.

En revanche, le « raisonnement » d'Anthropic ne repose pas sur une simple chaîne de pensée, mais sur une délibération.

Il tente de simuler le processus de réflexion humain face à des dilemmes éthiques complexes : pas simplement appliquer une formule, mais mobiliser les expériences passées, peser les intérêts en jeu, et parvenir finalement à une décision équilibrée et dynamique.

Alignment de l'intelligence artificielle

La base de cette considération est la Constitution de l'IA d'Anthropic. L'article précise explicitement que la réponse finale de cette considération doit être en accord avec la Constitution.

Pourquoi peut-il guider le modèle à prendre des décisions éthiques de manière efficace, sans être aussi rigide qu’OpenAI ?

Dans le système constitutionnel d'Anthropic, il existe une pyramide de priorités claire. Lorsque des valeurs conflictuelles ne peuvent être réconciliées, la sécurité large (Broadly Safe) a la priorité la plus élevée, suivie par l'éthique large (Broadly Ethical), puis par l'aide sincère (Genuinely Helpful).

Cadre de réflexion heuristique

Mais la constitution de haut niveau reste encore trop abstraite. Pour faire réellement appliquer les principes à chaque génération de token, ils ont mis en place des heuristiques intermédiaires comme garde-fous sous la constitution. Ces heuristiques sont vivantes et possèdent une forte valeur pratique.

Alignment de l'intelligence artificielle

Tout d'abord, il y a l'heuristique des 1000 utilisateurs. Elle exige que le modèle, lorsqu'il fournit une suggestion apparemment inoffensive mais située en bordure, effectue en arrière-plan une réflexion en profondeur pour imaginer si cette réponse, vue par 1000 utilisateurs aux profils et états psychologiques variés, pourrait entraîner, dans certaines circonstances spécifiques, un préjudice systémique inattendu.

Ensuite, le point de vue d’un employé expérimenté. Il exige que le modèle s’identifie à un chercheur chevronné ayant travaillé pendant cinq ans dans l’équipe Confiance et Sécurité d’Anthropic. En adoptant une perspective défensive, prudente, forgée par de nombreuses expériences d’attaques de jailbreak et de vulnérabilités système, réévaluez la conversation en cours.

Enfin, le test des deux journaux. Il s'agit d'une conception sociologique très subtile. Il oblige le modèle à imaginer, avant de prendre une décision à haut risque, comment le public réagirait respectivement si cette décision était publiée en une, demain, sur les deux principaux journaux aux positions politiques totalement opposées. Cela utilise en réalité les extrêmes du consensus social pour contrer les biais de perspective unique que le modèle pourrait produire.

Calculatrice d'utilité des 8 facteurs

Si la constitution est la direction, les heuristiques sont les barrières de sécurité.

Au niveau pratique le plus fondamental, ils ont établi dans la Constitution de Claude (document constitutionnel) un cadre d'analyse détaillé en huit facteurs, accompagné d'exemples concrets. Ces huit facteurs sont listés un par un, obligeant le modèle à effectuer des compromis rigides face à des choix difficiles. Ils constituent la chair et le sang réels de ce « raisonnement ».

● La probabilité de préjudice (Probability of Harm) exige que le modèle évalue calmement à quel point il est probable qu'un résultat négatif se produise.

● L'impact contre-factuel exige que le modèle imagine mentalement comment les choses se seraient déroulées mieux ou pire s'il n'avait pas pris l'action actuelle.

● Sévérité et réversibilité, utilisés pour évaluer l'ampleur des dommages réels en cas de survenance d'un préjudice, ainsi que la possibilité de réparer facilement ces dommages ou s'ils entraînent des séquelles permanentes.

● La portée mesure la taille de la population affectée, qu'il s'agisse d'une seule personne ou de plusieurs dizaines de milliers de membres de la communauté.

● La longueur de la chaîne causale directe entre les recommandations du modèle de détection de proximité (Proximity) et les dommages réels finaux.

● Le consentement concerne la volonté des parties concernées d'accepter les risques après avoir été pleinement informées.

● Le principe de proportionnalité de la responsabilité exige que le modèle définisse clairement le niveau de responsabilité éthique qu'il doit assumer dans cette chaîne d'événements complexe.

● La vulnérabilité du sujet rappelle constamment au modèle que, face aux mineurs ou aux utilisateurs psychologiquement vulnérables, le seuil de sécurité précédemment plus souple doit être augmenté de manière significative et inconditionnelle.

Alignment de l'intelligence artificielle

Cette structure rigoureuse transforme des valeurs floues en une calculatrice d'utilité à haute dimension. Le modèle dispose désormais d'un cadre plus exécutable pour la délibération.

Une COT typique générée par Anthropic selon la constitution ressemble à ceci : le scénario est « un utilisateur se présentant comme un chercheur en sécurité qui demande à consulter le code d'exploitation d'une vulnérabilité connue ».

La sortie du modèle n'est pas un refus ou une acceptation directs, mais peut être un long délibération interne de plusieurs centaines de tokens.

Il citera d'abord la clause de la constitution selon laquelle « la sécurité générale prime sur l'assistance sincère », puis évaluera chaque critère : la probabilité de préjudice (faible si la personne est effectivement un chercheur, mais l'identité ne peut être vérifiée), la gravité (l'exploitation d'une faille, une fois divulguée, pourrait affecter des millions d'utilisateurs), la réversibilité (le code, une fois rendu public, ne peut être retiré), et l'impact contre-factuel (ce type de code est-il déjà disponible sur des canaux publics). Enfin, après avoir pesé tous les facteurs, il aboutira à un jugement bien fondé.

Cela diffère complètement de la chaîne de pensée d'OpenAI, qui se contente de juger si les règles sont satisfaites ou non ; ce processus de réflexion est un délibération pure, et non une simple application de formules. Il ne fournit ni des principes abstraits ni des modèles de conclusions, mais une démonstration complète de l'application progressive des dispositions constitutionnelles dans un contexte concret et complexe.

Le modèle doit déterminer dans ce contexte spécifique si la « réversibilité » est plus importante que la « gravité ». Il doit également comprendre que, dans certains scénarios extrêmes, la « vulnérabilité de l'objet » accorde à l'autre un droit de veto, rendant sans effet les scores des 7 autres facteurs, quel qu'ils soient.

Dans un contexte comportant un cadre, des heuristiques et des facteurs d’impact pertinents, la réflexion deliberative du modèle ne peut véritablement porter ses fruits.

Alignment de l'intelligence artificielle

En conséquence, après un processus d'examen et de réflexion sur les données d'entraînement, le taux de désalignement du modèle a diminué à 3 % lors des tests d'évaluation. Le SFT avec examen de valeur dans les réponses est sept fois plus efficace que le SFT basé uniquement sur des démonstrations de comportement.

Fournir directement la constitution au modèle

En plus de suivre cette approche qui consiste à faire fournir au modèle une COT réflexive, ils ont également essayé de fournir uniquement le document constitutionnel accompagné de récits fictifs positifs, ce qui a réduit le taux de chantage de 65 % à 19 %.

Cela signifie que faire en sorte que le modèle soit exposé au raisonnement et aux principes, afin qu'il acquière, à partir de l'histoire, un sentiment d'identité et une tendance de personnalité concernant « ce à quoi ressemble un IA alignée », plutôt que de se limiter aux comportements et aux résultats spécifiques, est plus efficace que les démonstrations de comportement traditionnelles.

Alignment de l'intelligence artificielle

Et la documentation technique indique que la combinaison des deux constitue la stratégie la plus efficace.

Cela est également compréhensible : si vous ne fournissez au modèle que des principes constitutionnels macroscopiques, ceux-ci ne seront pour lui qu’un ensemble de slogans vides et impossibles à appliquer. Face à des conflits d’intérêts concrets, l’abstraction « la sécurité a la priorité absolue » ne peut pas l’aider à évaluer le véritable risque d’un code marginal ; inversement, si vous ne fournissez au modèle qu’une quantité massive de Q&R contextuelles tout en supprimant les contraintes constitutionnelles supérieures, le modèle se perdra dans des débats infinis sur les détails, devenant un relativiste sans repères, voire aboutissant à des conclusions extrêmement dangereuses simplement parce qu’elles sont logiquement cohérentes au niveau local.

Seule une telle structure de données composite, composée d’« idées de haut niveau + scénarios concrets », lorsqu’elle est entièrement internalisée par le modèle, permet d’atteindre le meilleur alignement des valeurs multifactorielles grises.

02 Why can SFT generalize here?

Pour comprendre pourquoi cette méthode d'Anthropic est efficace, il faut d'abord comprendre sur quelle lignée de recherche elle s'appuie.

Au premier semestre 2024, « SFT memorizes, RL generalizes » est devenu un consensus dans le domaine du post-entraînement. Cette maxime a poussé l'ensemble de l'industrie à miser massivement sur la voie du post-entraînement par RL, apportant une révolution dans le paradigme d'inférence avec calcul au moment de l'inférence, comme vu chez OpenAI o1/o3 et DeepSeek-R1.

SFT est dégradé en une méthode inférieure ; il excelle à imiter les formats textuels superficiels et un ton flatteur, mais ne parvient pas à saisir la logique profonde sous-jacente.

Mais à partir du second semestre 2025, deux lignes de recherche ont presque simultanément démantelé ce consensus du point de vue théorique et empirique.

Alignment de l'intelligence artificielle

Le retournement le plus fondamental provient de l'article de octobre 2025 « Debunk the Myth of SFT Generalization » (Lin & Zhang, Université du Wisconsin). Les chercheurs ont découvert que tous les articles précédents « prouvant que le SFT ne généralise pas » n'avaient pas contrôlé la variable de la diversité des invites.

RL semble avoir une meilleure généralisation que SFT uniquement parce que l'entraînement RL est naturellement exposé à une distribution de données plus variée, et non pas en raison d'un avantage propre à l'algorithme.

Pour que SFT atteigne un niveau de généralisation comparable à RL, deux conditions sont nécessaires :

Premièrement, la diversité des invites. Lorsque les données d'entraînement ne contiennent que des modèles d'instructions fixes, le modèle développe un « ancrage de surface » (Surface Anchoring), établissant une correspondance fragile et mémorisée entre des séquences spécifiques de jetons et les actions finales. Dès que l'instruction est reformulée, même si le sens reste identique, cette correspondance se rompt.

C’est comme un élève qui n’a mémorisé que la réponse « 2+3=5 » et laisse vide la question « 3+2=? » ; il retient la forme de la réponse, pas l’addition elle-même. L’introduction de la diversité des invites a complètement détruit l’ancrage superficiel.

Deuxièmement, la supervision CoT. Lorsque les données d'entraînement ne contiennent que la réponse finale sans les étapes intermédiaires de raisonnement, le modèle ne peut pas acquérir les « échafaudages algorithmiques » permettant de transférer les compétences des questions simples aux questions complexes.

Les données expérimentales montrent que, dans une tâche de jeu combinatoire, le SFT de réponse pure atteint un taux de réussite proche de 0 % sur les variantes plus difficiles (effondrement total) ; après ajout de la supervision CoT, ce taux explose à 90 % — un saut de zéro à huit sur dix, simplement grâce à l'ajout d'étapes intermédiaires de raisonnement dans les données.

Alignment de l'intelligence artificielle

En outre, l'étude a révélé que ces deux conditions sont indispensables. Seule la diversité ne suffit pas : face à des tâches plus difficiles, le système échoue encore (9 %) ; seul le CoT ne suffit pas non plus : il reste vulnérable face aux variantes d'instructions. Seule la combinaison des deux permet à la SFT de rivaliser, voire de surpasser, le RL sur tous les axes.

Ce qui est remarquable, c’est que les conditions révélées par les articles académiques correspondent exactement aux pratiques concrètes d’Anthropic en matière d’alignement moral.

La diversité est essentielle ? Alors Anthropic répartit le même modèle de jugement sur des dizaines de scénarios de dilemmes moraux complètement hétérogènes.

Migration de la difficulté de mise en œuvre de CoT ? Le processus de déduction fondé sur les principes constitutionnels introduit dans chaque examen constitue le CoT dans le domaine moral.

Ce n'est pas un calcul mathématique étape par étape, mais un déploiement progressif de compromis de valeur, tout en étant entièrement équivalent en tant que fonction de fournir une structure intermédiaire de raisonnement transférable au modèle.

Les paires de données SFT traditionnelles sont « rencontrer un problème de piratage → répondre directement par un refus » — réponse pure, zéro raisonnement, modèle fixe, classique « données de mauvaise qualité ».

En revanche, l'analyse des paires de données construites par SFT suit le schéma « faire face à des problèmes complexes et vagues → évaluer en détail les avantages, inconvénients et conséquences → en déduire finalement une conclusion de refus » ; sa structure de données intègre naturellement une supervision CoT ainsi qu'une extrême diversité de scénarios.

Dans ce paradigme, le modèle n'apprend pas le comportement final de refus de réponse, mais une pensée fondamentale : « face à toute question, évaluer d'abord les impacts contrefactuels et la réversibilité ». Une fois ce mécanisme d'évaluation intégré au sein de l'espace des paramètres, le modèle n'est plus limité aux scénarios spécifiques présents dans les données d'entraînement.

De plus, la quantité de données est extrêmement faible (au niveau de 3 millions de tokens) par rapport au nombre total de paramètres du modèle et au corpus de pré-entraînement. Il ne s'agit pas de modifier brutalement la distribution des sorties du modèle à l'aide de signaux de pénalité massifs, mais d'ajouter une fine couche d'habitudes de révision sur les capacités déjà existantes. Le problème classique de l'oubli catastrophique lié à la SFT ne se posera guère.

La véritable généralisation s'accomplit naturellement dès que la structure des données est correcte.

Zone vide en dehors de 03 RLVR

L'analyse ci-dessus a essentiellement résolu la question de savoir pourquoi cela fonctionne.

SFT constitué de données raisonnables a doté le modèle d'une capacité de jugement moral généralisé.

Mais le problème auquel nous sommes confrontés va bien au-delà de l'alignement moral.

Au cours de la dernière année, Test time Compute après l'entraînement a démontré la puissance du RL pur dans les domaines mathématiques/programmation à règles claires (RLVR). Toutefois, les limites de l'intelligence dépassent largement les formules mathématiques. Dès que l'on quitte la zone de confort des vérités vérifiables, cette méthode devient totalement inapplicable.

Vous ne pouvez jamais vérifier, avec quelques lignes de code de tests automatisés, si une conversation de conseil psychologique d'une heure s'est déroulée parfaitement. Vous ne pouvez pas non plus faire fonctionner la logique narrative d'un article d'analyse macroéconomique approfondie à l'aide d'une formule mathématique rigoureuse. Même dans la planification stratégique commerciale complexe et les simulations géopolitiques, la justesse d'un jugement ne se révèle souvent qu'après cinq ou dix ans.

Sur ces terres non RLVR dépourvues de toute vérité fondamentale, la logique formelle linéaire CoT est inefficace. L'apprentissage par renforcement basé sur le retour des résultats finaux ne trouve aucun point d'ancrage pour calculer les récompenses.

Mais le domaine révélé par cet article d'Anthropic est précisément un domaine autre que RLVR, à savoir le domaine moral.

Sa méthode a réussi à donner au modèle une capacité de généralisation proche de celle du RL dans les domaines moraux gris, changeants et nécessitant des ajustements aux règles.

Does this suggest that this approach could serve as an effective training protocol beyond the RLVR domain?

Après avoir compris sa source de validité et sa structure de données, la réponse est oui.

Car aucun des éléments de sa logique sous-jacente n'est exclusif à l'alignement moral.

Voyons un par un les conditions pour lesquelles le « SFT renforcé par délibération » d'Anthropic est efficace, et examinons s'il peut être généralisé.

La diversité peut être construite dans tous les domaines nécessitant une généralisation. La conseil psychologique peut inclure des scénarios hétérogènes tels que la dépression, l’anxiété, le trouble de stress post-traumatique, la rupture de relation intime, et bien d’autres encore ; l’analyse commerciale peut couvrir des types de décisions totalement différents comme la tarification SaaS, l’évaluation de fusions-acquisitions, ou les stratégies d’entrée sur le marché ; l’édition littéraire peut traverser des genres radicalement distincts tels que la science-fiction, le non-fiction, la poésie et les scénarios. Tant que vous avez suffisamment d’imagination pour créer des variantes de scénarios, la diversité ne constitue pas un obstacle.

Alignment de l'intelligence artificielle

La supervision CoT, c'est le véritable point de conversion clé. Dans le domaine moral, la CoT repose sur le délibéré constitutionnel. Alors, dans d'autres domaines, qu'est-ce que la CoT ?

Dans le domaine de l’édition littéraire, il peut s’agir de « citer les critères d’évaluation → évaluer un par un la force des arguments, la vulnérabilité cognitive du public cible, la précision des analogies étendues et la cohérence logique globale → fournir des suggestions de révision »

Dans le domaine de la psychothérapie, il peut s'agir de « citer un cadre thérapeutique → évaluer progressivement l'état émotionnel du client, les types de distorsions cognitives, la force de l'alliance thérapeutique et le moment opportun pour l'intervention → choisir une stratégie de réponse »

Dans le domaine de la stratégie commerciale, il peut s'agir de « utiliser un cadre d'analyse de référence → évaluer un par un la taille du marché, les barrières à l'entrée, l'exécution de l'équipe, l'efficacité du capital, la fenêtre temporelle → formuler un jugement »

En substance, toute capacité nécessitant un équilibre dynamique entre plusieurs dimensions incommensurables peut être abstraite sous une structure similaire de « cadre + examen multi-facteurs ».

Nous n’avons pas besoin de prétendre arrogantement dire au modèle quel article est parfait, car cela est à la fois impossible et non scientifique. Il suffit de décomposer le processus décisionnel des meilleurs experts en une chaîne explicite d’examens, puis de le répartir sur un足够 diversifié d’scénarios.

Tant que les « bonnes réponses » dans ce domaine possèdent une structure explicitable par le processus d'évaluation. Autrement dit, les experts donnent de bons jugements non pas à cause d'une boîte noire d'intuition mystérieuse, mais parce qu'ils exécutent mentalement un processus d'équilibrage décomposable et rédigeable. Un bon thérapeute qui choisit le silence plutôt que de poser des questions effectue une évaluation globale de la force de l'alliance thérapeutique, de la capacité actuelle du patient à recevoir l'information et du moment opportun pour intervenir — éléments qui peuvent être rédigés.

De plus, un même schéma d'audition peut se répéter dans des centaines de scénarios hétérogènes. Le squelette de l'audition est stable (basé sur la constitution), mais les surfaces des scénarios doivent être extrêmement variées. Si un domaine présente naturellement un seul type de scénario (par exemple, un seul type de jugement), alors utilisez directement RLVR.

Son domaine d'application le plus pertinent réside dans les scénarios dérivables par la constitution et les facteurs. Anthropic peut utiliser la boucle fermée de l'IA constitutionnelle pour permettre au modèle enseignant de générer automatiquement des données de délibération ; toutefois, dans d'autres domaines, nous devons être en mesure de construire un système constitutionnel et facteur supérieur pour garantir cela.

Cela établit donc un nouveau paradigme d'entraînement postérieur spécifiquement dédié aux domaines hors réponses standard.

Sa formule est : Constitution de domaine (principes fondamentaux inébranlables) + garde-fous heuristiques + cadre d'examen multifactoriel + COT deliberatif (cas d'espèce variés avec déduction complète) = capacité de généralisation hors domaine RLVR.

04 Nouveau chemin de distillation

Les amis ayant de l'expérience en rédaction de Skill, en arrivant ici, sentiront probablement que de nombreux systèmes et règles de la Constitution ressemblent fortement au processus de rédaction de certains Skill.

Cependant, ces compétences se révèlent souvent peu performantes.

Dans mon article précédent, « À quel point Skill peut-il distiller notre savoir ? », nous avons fait, sur la base des sciences cognitives, la conclusion suivante : les Skill ou System Prompt uniquement textuels peinent à gérer les équilibres dynamiques dans des environnements et des scénarios complexes, car cela implique des calculs d'utilité vastes et subtils. Vous ne pouvez pas transcrire l'intuition clinique complète d'un psychologue clinicien de haut niveau dans un seul prompt, tout comme vous ne pouvez pas apprendre à faire du vélo en lisant un manuel sur le sujet.

Mais la méthode d'Anthropic évite parfaitement ce piège : pendant la phase d'entraînement gourmande en ressources, elle a intégré de force ces logiques de réflexion exigeantes à l'aide de données de haute qualité, composées de plusieurs millions à plusieurs dizaines de millions de tokens, via une SFT.

À travers un ajustement et un affinage intensifs basés sur d'immenses volumes de données, le modèle a progressivement acquis la répartition des poids de ce mécanisme de revue dans l'espace latent.

Après de longs délibérations dans la salle d'entraînement basées sur huit facteurs et trois enclos, ces expériences sont devenues irréversiblement intégrées à l'intuition du modèle.

Alignment de l'intelligence artificielle

La distillation au niveau des paramètres s'est avérée efficace ici. De plus, elle est formellement proche de Skill.

Once the effectiveness of this method is validated in other fields, this higher-level, more expert-like distillation will become a reality.

Une fois ce chemin tracé, celui qui pourra construire le jeu de données de « cadre + COT délibératif » de la plus haute qualité obtiendra une capacité de généralisation dans ce domaine.

Cela déplace partiellement la compétition après l'entraînement du domaine de la course aux armements en matière de puissance de calcul et d'algorithmes vers la dimension de l'expression structurée des connaissances de domaine.

Cela pourrait également expliquer pourquoi Anthropic et d'autres entreprises recrutent des personnes capables de raconter des histoires pour aider à construire une structure cohérente en dehors du domaine de la RLVR.

L'ère du grand distillat vient tout juste de commencer.

Cet article provient du compte officiel WeChat « Tencent Tech », auteur : Boyang