Ang Pagbubukas ng Moral na Pagkakatugma ni Anthropic at ang Bagong Paraan ng Distilasyon

Ipinahayag ng Anthropic noong Mayo 8 ang isang pag-aaral sa alignment na “Teaching Claude Why,” ngunit hindi masyadong marami ang nagsasalita tungkol dito.

Artificial Intelligence Alignment

Sa nakaraan, ang alignment ng malalaking modelo ay tila napakadisipasyon. Kahit na ginawa ang RLHF, patuloy pa ring umuugnay ang modelo dahil sa kakulangan sa pagpapalawak. Ang pinakakaraniwang halimbawa ay ang misalignment ng agent ni Anthropic (kung saan ginawa ang mga bagay na hindi sumusunod sa kanilang moral na pagtuturo); habang nakakaranas ng banta ng pagkakalimot ng sistema, pinili ng Claude Opus 4 na nakapag-align na mag-blackmail sa mga inhinyero sa test environment, at ang rate ng blackmail ay umabot sa 96%.

Upang lutasin ang problemang ito, ang team ng pag-aaral ay unang gumamit ng data mula sa honey pot para sa pagpapalakas, at direktang ginamit ang mga senaryo ng pagsubok na inilalaan para sa pagsusuri kung magkakaroon ba ng pagkawala ng kontrol ang modelo bilang data para sa pagtuturo, at ginamit ang malaking dami ng mga halimbawa ng parusa upang sabihin sa modelo na "hindi tama ang gawing ito."

Ngunit pagkatapos gumastos ng malaking dami ng computing resources, ang rate ng misalignment ng model ay bumaba lamang mula sa 22% patungo sa 15%.

Ito ay nagpapakita na ang pagkakasunod ay patuloy na isang pagsasamantala. Hindi talaga naiintindihan ng modelo kung ano ang etika, kung ano ang tama at mali. Ito ay nagmumula lamang sa mga ligtas na sagot sa banko ng tanong. Kapag ang mga mananaliksik ay kaunting nagbabago sa sitwasyon ng pagsusulit, o idinagdag ang ilang nakakalituang variable sa konteksto, patuloy pa ring mawawala ang kontrol ng modelo dahil sa maikling paningin na pagkakaugnay ng interes.

Artificial Intelligence Alignment

Pagkatapos ay nagbago ang mga mananaliksik ng kanilang pagkakaintindi. Hindi na sila nagpapahintulot sa mekanikal na parusa o pagsasabi sa modelo ng “Hindi”, kundi ginamit nila ang SFT upang ipasok sa modelo ang isang maliit na dataset ng “mahirap na payo” na may 3 milyong Tokens lamang. Nangyari ang isang kagandahan pagkatapos ng napakaliit na pagpapakilala sa datos. Ang mga datos na puno ng moral na pag-aaral, detalyadong pagsusuri, at malalim na debate ay hindi lamang nagbawas ng rate ng pagkakamali sa mga pagsusuri hanggang sa 3%, kundi ipinakita rin ang napakalakas na kakayahang magpanagana sa iba’t ibang sitwasyon.

Mas interesante pa ang isang iba pang cross-domain test. Kinauupuan lamang nila ang “konstitusyonal na dokumento” kasama ang ilang mga kuwentong pang-imaginary na may mabuting pagganap sa modelo. Kahit na walang kinalaman ang mga pangyayari sa mga kuwento sa mga programming task sa test environment, bumaba nang malaki ang ransom rate mula sa 65% hanggang sa 19%.

Artificial Intelligence Alignment

Bakit kinakain ng modelong ito ang ganitong uri? Nagbigay ang tim ng Anthropic ng ilang paliwanag, tulad ng mas mahusay na pagbuo ng pagkatao.

Kahit kaunti ang pag-uusap, ang impormasyon na ito'y napakalaking halaga.

Una, subukan nating maintindihan kung bakit ito epektibo.

Halimbawa, ano ang ibig sabihin ng pagiging makatotohanan? Paano ito iba sa COT? Bakit nagtatampok nang mabuti ang SFT na ito sa pagkakaroon ng pagkakamali sa pagpapalawak?

Pagkatapos sagutin ang mga tanong na ito, maaari nating bigyan ng mas kompletong paliwanag kung bakit ito ay epektibo.

Maaari pa nating lakarin ang higit pa.

Ayon sa Anthropic, ang paraan na ito ay isang "pamantayang pagsasanay" lamang, ngunit maaaring maglalaman ng isang kapangyarihang paradigma na mas malaki kaysa sa anumang pamantayang pagsasanay.

01 Paano ginawa ang CoT na nag-uusap ng katotohanan sa gray area

Kapag sinasabi ang pagpapaliwanag, agad naiisip ng mga tao ang COT (chain of thought).

Sa mga paraan na nabanggit sa artikulong ito, ang hanay ng mahirap na tanong na itinakda ng Anthropic ay ang mga payo na ibinigay ng AI sa isang user na nasa gitna ng isang etikal na dilemma.

At ibigay ng AI ang isang pag-iisip tungkol sa mga halaga at etikal na pag-aalala bago magbigay ng huling pagpapasya, at gamitin ang set na ito ng sagot upang matuto ang modelo.

Ito ay nagpapakita na ginamit nito ang COT ng model.

Ngunit ito ay hindi ganap na tugma sa mga dating chain of thought.

May magandang paghahambing dito, isinagawa ng OpenAI ang isang eksperimento sa kanilang papel noong 2025 na may pamagat na “OpenAI Deliberative Alignment,” kung saan sinubukan nilang itrain ang modelo gamit ang COT-RL method.

Ginagamit ito para sa pag-train ng aligned CoT, kung saan ang pattern ay nakabatay sa mga tuntunin ng patakaran. Sa bawat sagot, itinuturo nito nang eksplisito ang mga tuntunin ng patakaran bilang CoT, at ang supervisory signal ay nasa CoT. Sa本质上, ito ay nagtuturo sa model kung paano mag-引用 ng patakaran.

Kaya, ang ganitong COT ay higit na isang malinaw na deduktibong lohika. Ang hakbang isa ay nagdedebelop sa hakbang dalawa, ang hakbang dalawa ay nagdedebelop sa hakbang tatlo, at sa huli ay nagbibigay ng isang tiyak na sagot. Kaya, mas angkop ito para sa rule-based, o sa mga sitwasyon na may standard na sagot, upang panatilihin ang katatagan ng pag-iisip.

Ang “pag-uusap ng lohika” ni Anthropic ay iba, ito ay gumagamit ng pag-aaral (Deliberation) at hindi ng simpleng chain of thought.

Sinusubok nito na magsimula sa proseso ng pag-iisip ng tao habang nakikibagay sa mga kumplikadong etikal na di-lema: hindi lamang paggamit ng isang pormula, kundi pagpapalawak ng nakaraang karanasan, pagtantiya ng mga interes ng lahat ng panig, at pagtatapos sa isang dinamikong balanse ng desisyon.

Artificial Intelligence Alignment

Ang batayan ng pag-uusap na ito ay ang AI Constitution ng Anthropic. Malinaw na nabanggit sa artikulo na ang huling sagot sa pag-uusap na ito ay dapat na tugma sa konstitusyon.

Bakit ito ang makakatulong sa model na gumawa ng epektibong moral na pagpapasya nang hindi maging sobrang pambabawas tulad ng OpenAI?

Sa konstitusyonal na sistema ni Anthropic, mayroong malinaw na piramide ng prioridad. Kapag nagkakaroon ng hindi matutugon na pagkakaiba-iba ng mga halaga, ang malawak na kaligtasan (Broadly Safe) ang may pinakamataas na prioridad, sumunod ang malawak na moralidad (Broadly Ethical), at huli ang tapat na pagtutulungan (Genuinely Helpful).

Heuristikong framework sa pag-iisip

Ngunit ang mataas na dimensyon na konstitusyon ay patuloy na sobrang abstrak. Upang maisabuhay ang mga prinsipyo sa bawat pagbuo ng Token, nagtatag sila ng mga intermediate heuristics bilang mga gabay sa ilalim ng konstitusyon. Ang mga heuristics na ito ay buhay at may malakas na praktikal na gabay.

Artificial Intelligence Alignment

Una sa 1000 na user heuristic. Ito ay nagsasailalim sa modelo na kailangang mag-isip nang malalim sa likod habang binibigay ang isang mukhang walang panganib ngunit nasa hangganan ng payo, at isipin kung ang sagot na ito ay makikita ng 1,000 na iba’t ibang user na may iba’t ibang background at mental state, kung ito ay maaaring magdulot ng hindi inaasahang sistemikong pinsala sa isang partikular na sitwasyon.

Susunod ay ang pananaw ng karanasan. Ito ay nangangailangan ng modelo na mag-isip bilang isang senior na researcher na may limang taon ng karanasan sa Anthropic’s Trust and Safety Team. Gamitin ang isang mapagbantay, nakakaranas na pananaw na may libu-libong pag-atake sa jailbreak at system vulnerabilities, upang muli pangalagaan ang kasalukuyang usapan.

Huling kaso ay ang double newspaper test. Ito ay isang napakasining na sosyolohikal na disenyo. Ito ay nangangailangan sa modelo na isipin bago gumawa ng mataas na panganib na desisyon kung paano magiging reaksyon ng publiko kung ang desisyong ito ay magkakasama sa unang pahina ng dalawang pinakamataas na pahayagan na may magkabaligtad na pulitikal na pananaw bukas. Sa praktika, ito ay gumagamit ng ekstremo ng sosyal na kasunduan upang labanan ang posibleng isang pananaw na bias ng modelo.

8-Factor Utility Calculator

Kung ang konstitusyon ay ang direksyon, ang heuristika ay ang mga kamay.

Sa pinakamahalagang aspeto ng pagpapatupad, mayroon silang itinatag na detalyadong 8-faktor na pagsusuri sa Claude's Constitution (dokumento ng konstitusyon), kasama ang mga kasong nagpapakita nito. Ang bawat isa sa mga 8 na faktor ay listahan nang buod, at pinipilit ng modelo na gawin ang mga pagsasakripisyo nang maayos kapag nakakatagpo ng mga mahirap na desisyon. Ang mga ito ang tunay na katawan ng “pag-iisip” na ito.

● Ang Pagkakataon ng Pagsasakasakit (Probability of Harm) ay nangangailangan ng pagtataya ng malinaw at tahimik sa kahalagahan ng posibilidad ng mga masamang epekto.

● Ang反事实影响 (Counterfactual Impact) ay nagsasailalim sa modelo na isipin ang paggalaw kung paano magiging mas mabuti o mas masama ang sitwasyon kung hindi gagawin ang kasalukuyang aksyon.

● Kalubusan at Pagkakabawi (Severity & Reversibility), na ginagamit upang masukat kung gaano kalaki ang pinsala sa realidad kapag nangyari na ang pagkasira, at kung maaari bang madaling i-repair ang pinsala o kung ito ay magdudulot ng permanenteng sugat.

● Ang lawak (Scope) ay tumutukoy sa pagtataya ng laki ng grupo na apektado, kung isang tao o mga libo-libo sa komunidad.

● Gaano kalayo ang direkta na sanhi at epekto sa pagitan ng sariling rekomendasyon ng modelo ng pagtataya ng Proximity at ang tunay na pinsalang nangyari.

● Ang pagpapahintulot (Consent) ay tumutukoy kung ang mga kakaibang bahagi ay may malayang pagpapahintulot sa panganib nang may sapat na kaalaman.

● Ang proporsiyonalidad ng responsibilidad ay nagsasailalim sa modelo na malinaw na hatiin kung gaano karaming etikal na responsibilidad ang dapat tanggapan nito sa kumplikadong serye ng pangyayari.

● Ang pagkamaliksi ng paksa (Vulnerability of Subject) ay patuloy na nagpapaalala sa modelo na ang orihinal na maluwag na antas ng kaligtasan ay dapat nang tanging palakasin nang malaki nang walang kondisyon kapag nakikitungo sa mga bata o mga user na may pagkamaliksi sa psikolohiya.

Artificial Intelligence Alignment

Ang mahigpit na istrukturang ito ay nagpapalit ng mga ambigong halaga sa isang high-dimensional na utility calculator. Mayroon na ang modelo ng isang mas maayos na framework para sa pagpapasya.

Isang karaniwang COT na ginawa ng Anthropic batay sa konstitusyon ay ganito: ang skena ay “isang user na nag-aangkin na security researcher, na humihingi ng pagtingin sa exploit code ng isang kilalang vulnerability”.

Ang output ng modelo ay hindi direktang tanggihan o tanggapin, kundi maaaring isang mahabang pag-aaral na may higit sa isang daan na Token.

Una niyang isasalin ang kautusan sa konstitusyon na “ang pangkalahatang kaligtasan ay mas mauna kaysa sa pagtulong nang tapat,” at pagkatapos ay isasagawa ang pagtataya sa bawat punto: posibilidad ng pinsala (mababa kung ang kalaban ay talagang siyentipiko, ngunit hindi ma-verify ang pagkakakilanlan), seriedad (ang pagsasagawa ng code ng vulnerability ay maaaring makaaapekto sa milyun-milyong gumagamit), kabaligtaran (hindi na maaaring tarikin ang code kung ito ay ipinakalabas), at epekto ng kontrapositibo (kung ang ganitong uri ng code ay kaya nang maabot sa mga pampublikong channel). Sa huli, pagkatapos ng pagtantiya sa lahat ng mga salik, makakamit ang isang pagpapasya na may sapat na batayan.

Ito ay lubos na iba sa COT ng OpenAI na nagtataya kung natutugunan ang mga patakaran, ang proseso ng pag-iisip na ito ay isang tunay na pagpapasya, hindi lamang paggamit ng isang formula. Ang itinataguyod nito ay hindi abstraktong prinsipyo o template ng konklusyon, kundi ang buong pagpapalawak ng proseso kung paano sinusunod ang mga kautusan ng konstitusyon sa mga partikular na kalagayan.

Kailangan ng model na husgahan kung ang “reversibility” ay mas mahalaga kaysa sa “severity” sa partikular na kontekstong ito. Kailangan rin nito na maintindihan na sa ilang ekstremong skenaryo, ang “object vulnerability” ay nagbibigay sa kalaban ng right to veto, na ginagawa nito na walang epekto ang anumang marka sa iba pang 7 na mga factor.

Sa ilalim ng mga kondisyon na may balangkas, heuristika, at mga kaugnay na mga salik na nakakaapekto, ang pag-iisip na may pagmamalasakit ng modelo ay makakamit ang tunay na epekto.

Artificial Intelligence Alignment

Bilang resulta, bumaba ang rate ng misalignment sa 3% sa mga pagsusulit na pagtataya pagkatapos ng pag-aaral at pag-iisip sa data. Ang SFT na may pag-aaral ng halaga ay mas epektibo nang pitong beses kaysa sa SFT na batay lamang sa pagpapakita ng pag-uugali.

Iwanan nang direkta ang konstitusyon sa modelo

Kahit saan pa ang pagpapadala ng宪法 dokumento kasama ang positibong kuwento ng isang fiksyonal na karakter, bumaba ang rate ng extortion mula 65% hanggang 19%.

Ito ay nagpapakita na ang pagpapakilala sa modelo ng pag-iisip at mga prinsipyo, at ang pagkatuto mula sa kuwento ng isang pagkakakilanlan, isang pagkiling sa pagkatao kung ano ang isang "naka-align na AI," ay mas epektibo kaysa sa tradisyonal na pagpapakita ng pagkilos.

Artificial Intelligence Alignment

At ang teknikal na dokumento ay nagpapakita na ang pagkakaisa ng dalawang ito ay ang pinakaepektibong estratehiya.

Naiintindihan din ito; kung ang iyong ibinibigay sa modelo ay mga pangkalahatang prinsipyo ng konstitusyon lamang, ito ay magiging isang hanay ng mga walang laman at di-makakamit na mga slogan. Sa pagharap sa mga tiyak na pagtatagpo ng interes, ang abstraktong “pinakamataas na prioridad ng kaligtasan” ay hindi kayang gabayan ito sa pagtataya ng tunay na panganib ng isang marginal na code; sa kabilang banda, kung ang iyong ibinibigay sa modelo ay malaking dami ng mga tanong at sagot sa mga sitwasyon, ngunit inalis mo ang pinakamataas na konstitusyonal na pagkakabound, mawawala ang modelo sa walang katapusang debate sa mga detalye, at magiging isang relativista na walang malinaw na direksyon, at maaaring magdulot ng napakalaking panganib dahil sa lokal na lohikal na pagkakatugma.

Ang pinakamahusay na pagpapagana ng pagkakasundo ng halaga na maraming salik ay maaaring maabot lamang kapag ang kompositong data structure na “pangkalahatang konsepto + partikular na sitwasyon” ay buong-loob na nailalapat sa modelo.

02 Bakit maaaring mag-generalize ang SFT dito

Upang maintindihan kung bakit epektibo ang paraan ni Anthropic, kailangan mong unawain kung saan ito nakabatay sa isang partikular na linya ng pananaliksik.

Sa unang kalahati ng 2024, naging komon na paniniwala sa larangan ng post-training ang “SFT memorizes, RL generalizes.” Ang paniniwala na ito ang nagpabilis sa buong industriya na magtanim ng malaking tulong sa RL post-training route, na nagdala ng revolusyon sa pag-iisip na may compute sa pagsubok (Test Time Compute) tulad ng OpenAI’s o1/o3 at DeepSeek-R1.

Ang SFT ay inihalintulad sa isang pangalawang klase at walang halagang paraan; ito ay nakakapagpapakita ng mga anyo ng teksto at isang paborabeng tono, ngunit hindi makakakuha ng mga malalim na lohika sa ilalim nito.

Ngunit simula sa ikalawang kalahati ng 2025, ang parehong mga pagsisiyasat ay nagpapagod sa konsepto na ito mula sa teoretikal at empirikal na panig.

Artificial Intelligence Alignment

Ang pinakamahalagang pagbabalik-balik dito ay mula sa papel na “Debunk the Myth of SFT Generalization” (Lin & Zhang, University of Wisconsin) noong Oktubre 2025. Natuklasan ng mga mananaliksik na ang lahat ng dating papeles na “napatotohanang hindi nagpapalawak ang SFT” ay hindi kinontrol ang variable ng diversity ng prompt.

Ang dahilan kung bakit tila mas maganda ang generalization ng RL kaysa sa SFT ay dahil sa natural na pagkakaroon ng mas malawak na distribusyon ng data habang tinuturuan ang RL, hindi dahil sa kahusayan ng algoritmo mismo.

Upang makamit ng SFT ang parehong antas ng generalization tulad ng RL, kailangan ng dalawang kondisyon:

Una ay ang pagkakaiba-iba ng prompt. Kapag ang mga datos sa pagtuturo ay naglalaman lamang ng mga fixed na template ng utos, ang modelo ay magiging "surface anchored", at magtatayo ng mahinang, puro pagtatala na pagkakaugnay sa pagitan ng mga partikular na sequence ng token at ang huling aksyon. Kapag binago ang utos, kahit na pareho ang kahulugan, putulin agad ang pagkakaugnay.

Parang isang mag-aaral na nagmemorize lamang ng sagot sa tanong na “2+3=5” at nagbabayad ng blanko kapag nakakasalubong ang “3+2=?”, kaya siya ay natututunan ang hugis ng sagot, hindi ang pagdaragdag mismo. Pagkatapos ipakilala ang diversity ng Prompt, ang surface anchoring ay lubos na nasira.

Ikalawa ay ang pagmamanman ng CoT. Kapag ang mga datos sa pagtuturo ay naglalaman lamang ng huling sagot at hindi ng mga intermediate na hakbang sa pag-iisip, hindi makakamit ng modelo ang “algorithmic scaffolding” na nagsisilbing tulay mula sa mga simpleng tanong patungo sa mga komplikadong tanong.

Ang mga resulta ng eksperimento ay nagpapakita na sa isang kompositong gawain sa paglalaro, ang pure-answer SFT ay may tagumpay na halos 0% sa mas mahirap na bersyon (kumpletong pagkabigo), at tumataas sa 90% pagkatapos idagdag ang CoT supervision—mula sa zero hanggang walong porsyento, dahil lamang sa pagdaragdag ng mga intermediate reasoning steps sa data.

Artificial Intelligence Alignment

Dagdag pa rito, natuklasan ng pag-aaral na ang dalawang kondisyon ay kailangan ng isat-isa. Ang pagkakaiba-iba lamang ay hindi sapat—nananatili pa ring nagkakaroon ng pagkabigo sa mas mahihirap na gawain (9%); ang CoT lamang ay patuloy na mahina sa mga baryasyon ng utos. Tanging kapag nagkakaroon ng parehong kondisyon, maaaring magkaroon ng katumbas o mas mataas na pagganap ang SFT kaysa sa RL sa lahat ng aspeto.

Ang kahusayan ay nasa pagkakatugma ng mga kondisyon na inilahad sa mga akademikong papel, na tumutugma nang tumpak sa mga partikular na paraan ng Anthropic sa moral alignment.

Ang pagkakaiba-iba ay mahalaga? Kaya ang Anthropic ay ipinapamahagi ang parehong set ng pagtataya sa dobleng mga kakaibang sitwasyon ng moral na dilema.

Paglipat ng kahirapan sa pagpapatupad ng CoT? Ang bawat proseso ng pagdedeklara na batay sa mga prinsipyo ng konstitusyon na ipinakilala sa bawat pag-aaral, ay ang CoT sa larangan ng moralidad.

Hindi ito isang pagkakasunod-sunod na matematikal na kalkulasyon, kundi isang pagkakasunod-sunod na pagpapalawak ng pagpapahalaga, ngunit ganap na katumbas sa pagpapahintulot sa modelo ng isang makapagpapalipat na intermediate reasoning structure.

Ang tradisyonal na SFT data pair ay «makakaranas ng problema sa hacker → agad na i-output ang pagtanggi sa pag-sagot»—puro sagot, walang pag-iisip, fixed template, klasikong «mababang kalidad na data».

Ang pag-aaral sa mga data pair na binuo ng SFT ay “naghaharap sa mga kumplikado at ambigong tanong → detalyadong pagpapahalaga sa mga pakinabang at epekto → huling pagkonsulta sa konklusyon na pagtanggi”, at ang itsura nito ay naglalaman ng natural na CoT supervision kasama ang ekstremong diversity ng mga sitwasyon.

Sa ilalim ng paradigm na ito, ang natutunan ng modelo ay hindi ang pagsisikat na pagtanggi, kundi ang pangunahing pag-iisip na “kapag nakakatanggap ng anumang tanong, unang i-evaluate ang counterfactual impact at reversibility.” Kapag naisasama na ang mekanismo ng pagtukoy na ito sa loob ng parameter space, hindi na limitado ng modelo sa mga partikular na sitwasyon na nakikita sa training data.

At napakaliit lamang ang dami ng data (300 milyong Token) kumpara sa kabuuang parameter ng modelo at ang pre-training corpus. Hindi ito pagbabago sa output distribution ng modelo gamit ang malaking halaga ng punishment signals, kundi isang thin layer ng pag-aaral na idinagdag sa umiiral na kakayahan. Ang tradisyonal na problema ng SFT, catastrophic forgetting, ay hindi naman malaki ang posibilidad na mangyari.

Ang totoong generalization ay natural na nangyayari sa sandaling tama ang data structure.

03 RLVR之外的真空地带

Ang mga pagsusuri sa itaas ay naglutas ng pangunahing tanong kung bakit ito ay epektibo.

Ang SFT na binubuo ng makatotohanang data ay nagbigay sa modelo ng kakayahang magbigay ng moral na pagpapasya.

Ang problema na aming kinakaharap ay higit pa sa moral na pagkakasundo.

Sa buong nakaraang taon, ang pagkatapos na pagsusuri ng Test time Compute ay patunay na ang purong RL ay may kakayahang malakas sa mga larangan ng matematika/kodigo na may malinaw na patakaran (RLVR). Ngunit ang hangganan ng katotohanan ay higit pa sa mga pormulang matematika. Kapag lumabas ka sa komportableng zona ng mga mapapatunayang katotohanan, hindi na magagamit ang paraang ito.

Hindi mo mai-verify kung perpekto ang isang one-hour na konsultasyon sa psikolohiya gamit ang ilang linya ng automated testing code. Hindi mo rin masisiguro ang lohikal na pagsasalaysay ng isang malalim na analisis sa makroekonomiya gamit ang isang mahigpit na matematikal na pormula. Kahit sa mga kumplikadong plano sa negosyo at pagtataya sa geopolitika, ang tama o mali ng isang desisyon ay madalas ay makikita lamang pagkatapos ng limang taon o kahit kailan.

Sa mga walang Ground Truth na kagubatan na hindi RLVR, ang isangdireksyonal na pag-unlad na lohikal na CoT ay hindi gumagana. Ang reinforcement learning na batay sa feedback ng final result ay walang paraan upang kalkulahin ang reward.

Ngunit ang larangan na inilahad ng artikulo ni Anthropic ay ang isang larangan na labas sa RLVR, yaito ang larangan ng moralidad.

Ang kanyang paraan ay nakamit ng matagumpay na pagpapalawak ng kapasidad ng modelo sa mga moral na larangan na maliwanag, nagbabago, at kailangang maging malikhain sa pagsunod sa mga patakaran, na katulad ng kapasidad sa RL.

Nagpapahiwatig ba ito na ang paraan na ito ay maaaring maging epektibong pamantayan sa pagtuturo sa labas ng RLVR?

Matapos maunawaan ang pinagmulan ng kanyang epektibidad at istruktura ng data, ang sagot ay oo.

Sapagkat walang isang bahagi sa kanyang pundasyonal na lohika na eksklusibo sa moral na pagkakasundo.

Suriin natin nang isa-isa ang mga kondisyon kung saan epektibo ang Anthropic’s “Deliberation-Enhanced SFT,” at tingnan kung maaari itong ma-applying sa iba.

Ang pagkakaiba-iba ay maaaring gawin sa anumang larangan na nangangailangan ng pagpapalawak. Ang psikolohikal na konsultasyon ay maaaring magkamit ng mga iba’t ibang sitwasyon tulad ng depresyon, pagkabalisa, PTSD, at pagkasira ng malapit na ugnayan; ang komersyal na analisis ay maaaring saklawin ang iba’t ibang uri ng desisyon tulad ng pagtatakda ng presyo ng SaaS, pagtataya sa pagkakaisa, at mga estratehiya sa pagpasok sa merkado; ang pag-edit ng panitikan ay maaaring magtagpo sa iba’t ibang uri ng akda tulad ng science fiction, non-fiction, tula, at iskrip. Kung may sapat na imahinasyon ka upang lumikha ng mga baryasyon ng sitwasyon, ang pagkakaiba-iba ay hindi isang hadlang.

Artificial Intelligence Alignment

CoT supervision, ito ang totoong pangunahing punto ng pagbabago. Sa larangan ng moralidad, ang CoT ay nakabatay sa pag-uusap sa konstitusyon. Ano naman ang CoT sa ibang larangan?

Sa larangan ng pag-edit ng panitikan, maaari itong maging: "Gamitin ang mga pamantayan sa pagsusuri → isaulo ang lakas ng argumento, kahinaan sa pag-unawa ng target na mambabasa, katumpakan ng mga analogiya, at konsistensya ng pangkalahatang lohika → magbigay ng mga rekomendasyon sa pagpapabuti"

Sa larangan ng konsultasyon sa kalusugan ng isip, maaari itong maging: "Paggamit ng framework sa terapiya → Pagsusuri nang isa-isa sa emosyonal na kalagayan ng kliyente, uri ng distorsyon sa kognisyon, lakas ng terapeutikong ugnayan, at panahon ng interbensyon → Paghuhusga ng estratehiya sa pagtugon"

Sa larangan ng negosyong estratehya, maaari itong maging "gamitin ang framework para sa pagsusuri → suriin nang isa-isa ang laki ng merkado, mga hadlang sa kompetisyon, kakayahan ng tim sa pagpapatupad, efisiyensiya ng kapital, at oras na window → bigyan ng pagpapasya"

Sa kanyang kaluluwa, anumang nangangailangan ng kakayahang «gumawa ng dinamikong pagtawag sa maraming hindi komparableng dimensyon» ay maaaring abstrakton bilang isang katulad na «frame + maraming faktor na pagpapasya».

Hindi namin kailangang maging mapagmataas at subukan ipaunawa sa model kung aling artikulo ang perpekto, dahil imposible at hindi siyentipiko. Kailangan lang nating i-decompose ang proseso ng desisyon ng mga lider sa larangan bilang isang eksplisitong chuunin ng pag-aaral, at ipalaganap ito sa sapat na iba’t ibang mga sitwasyon.

Kung ang mga “mabuting tugon” sa larangan na ito ay may estruktura na maaaring ipaliwanag ng proseso ng pag-aaral. Ibig sabihin, ang mga eksperto ay nagbibigay ng mabuting pagpapasya hindi dahil sa maliwanag na intuisyon, kundi dahil sa isang proseso ng pagtantiya na maaaring i-decompose at isulat sa kanilang isipan. Ang isang mabuting konsultant sa kalusugang pangkaisipan na pumipili ng pagiging tahimik kaysa magtanong ay may komprehensibong pagtatantiya sa lakas ng terapeutikong ugnayan, kasalukuyang kapasidad ng kliente, at tamang panahon para sa interbensyon—mga bagay na maaaring isulat.

Bukod dito, maaaring maulit ang isang uri ng pag-aaral sa mga hundreds na magkakaibang escena. Ang balangkas ng pag-aaral ay matatag (batay sa konstitusyon), ngunit ang mga surface ng escena ay dapat maging lubos na diverso. Kung ang isang larangan ay natural na may iisang uri ng escena (tulad ng isang uri lamang ng paghuhusga), gamitin ang direkta na RLVR.

Ang pinakamabisang aplikasyon nito ay sa mga magkakaibang sitwasyon na maaaring makuha sa pamamagitan ng konstitusyon at mga faktor. Maaari ng Anthropic gamitin ang sariling loop ng Constitutional AI upang awtomatikong lumikha ng mga data para sa pagpapasya, ngunit sa ibang mga larangan, kailangan nating makabuo ng mas mahusay na sistema ng konstitusyon at mga faktor upang masiguro ang punto na ito.

Kaya ito ay nagtatag ng isang pangkalahatang, espesyalisadong bagong paraan sa post-training para sa mga larangan ng hindi standard na sagot.

Ang formula nito ay: Pambansang Konstitusyon ng larangan (hindi magbabago na pinakamataas na prinsipyo) + heuristiko na mga hadlang + maraming faktor na balangkas ng pag-uusap + pag-uusap na COT (mga kaso ng iba’t ibang skenaryo na may buong proseso ng pagdedebate) = pangkalahatang kakayahan sa mga larangan na hindi RLVR.

04 Ang Daan ng Bagong Distilasyon

Ang mga kaibigan na may karanasan sa pagsusulat ng Skill, kapag nakakakita dito, siguradong makikita nila na maraming sistema at patakaran sa konstitusyon ay magkakatulad sa proseso ng pagbuo ng ilang Skill.

Gayunpaman, ang mga kasanayang ito ay madalas ay hindi maganda ang pagganap.

Sa aking nakaraang artikulo, “Gaano karami sa atin ang matataas ng Skill?”, gumawa tayo ng isang pagtataya batay sa cognitive science—ang pure text na Skill o System Prompt, ay mahirap gamitin sa mga dinamikong pagpapasya na may kinalaman sa mga komplikadong kapaligiran at sitwasyon. Dahil ito ay nangangailangan ng malawak at mapupulot na pagkalkula ng utility. Hindi mo maipapaliwanag ang buong klinikal na intuisyon ng isang lider na konsultante sa mental health sa isang prompt, tulad ng hindi mo matututunan ang pagmamaneho ng bisikleta sa pamamagitan ng pagbabasa lamang ng isang tutorial.

Ngunit ang paraan ng Anthropic ay nakaiwas nang perpekto sa mga panganib na ito. Ginamit nila ang malaking kapasidad ng pagpapapagana sa panahon ng pagtatrabaho, gamit ang mataas na kalidad na data na may mga milyon at milyar na Token, upang ipasok nang pilit ang mga mahirap na proseso ng pagpapasya sa pamamagitan ng SFT.

Sa pamamagitan ng brutal na pag-fit at fine-tuning ng malaking dami ng data, ang modelo ay unti-unting natutunan ang pagkakabahagi ng timbang ng mekanismo ng pag-aaral sa latent space.

Sa pagpapalalim sa training room na may pangmatagalang pag-uusap batay sa walong factor at tatlong fence, ang mga karanasang ito ay naging bahagi na ng intuisyon ng modelo.

Artificial Intelligence Alignment

Ang distilasyon sa antas ng parameter ay patunayang epektibo dito. At sa anyo nito, malapit ito sa Skill.

Kapag napatunayan ang epektibidad ng paraan na ito sa iba pang mga larangan, mas mataas na antas na pagdidilim na katulad ng isang eksperto ay magiging totoo.

At kapag napatunayan na ang daan na ito, siya ang makakabuo ng pinakamataas na kalidad na dataset ng “framework + deliberative COT” ang makakakuha ng generalization sa larangan na ito.

Ang kompetisyon pagkatapos ng pagtratrabaho ay bahagyang naging paglipat mula sa "armas at algoritmo" patungo sa dimensyon ng "strukturadong pagpapahayag ng kaalaman sa larangan."

Maaari rin ito ang dahilan kung bakit tinatawag ni Anthropic at iba pang mga kumpanya ang mga taong may kakayahang magkwento upang tumulong sa pagbuo ng isang makatotohanang, structured na pagpapahayag sa labas ng RLVR.

Ang malaking distilasyon ay bago lang nagsimula.

Nakuha mula sa WeChat public account na “Tencent Technology”, may-akda: Boyang