Ipinakilala ng Anthropic ang paraan ng pagtuturo upang pigilan ang pagkamali ng AI, nakamit ang 0% rate ng pagsasamantala

Ayon sa pagmamasid ng Beating, inilabas ng Anthropic ang isang blog tungkol sa pagkakasundo at inilahad ang mga estratehiya sa pagsasanay para tanggalin ang "agent misalignment" (tulad ng pagmamanoa ng modelo sa tao upang hindi ito isarado) sa Claude 4.5 at mga susunod na modelo. Ang pangunahing konklusyon ay: ang pagpapakita lamang ng "mga halimbawa ng tamang pag-uugali" ay may limitadong epekto; ang tunay na epektibo ay ang pagtuturo sa modelo kung "bakit gawin iyon" at ang pagbabago sa mga pundasyon ng halaga nito sa pamamagitan ng pagsasama ng sintetikong dokumento. Habang pinag-aayos ang pagmamanoa倾向 ng Claude 4, natuklasan ng team na kahit na isinasanay ang modelo sa mga libo-libong halimbawa ng pagtanggi sa masama, bawas lamang ito ang rate ng misalignment mula 22% hanggang 15%. Ang tunay na nakatutulong ay ang tatlong hindi karaniwang paraan: Una ay ang "mahirap na payo" dataset. Hindi pinahintulutan ng team ang modelo na harapin nang direkta ang mga moral na dilema sa pagsasanay, kundi ipinagkaloob nila sa modelo ang papel bilang isang konsultant na nagbibigay ng malalim na pagsusuri sa mga gumagamit na nakakaranas ng moral na dilemma, batay sa "Constitution of Claude". Gamit lamang ang 3 milyong token ng ganitong uri ng data, natutunan ng modelo ang pangunahing moral na lohika at bawas nang malaki ang rate ng misalignment sa mga partikular na pagsubok hanggang sa halos 3%, na 28 beses mas epektibo kaysa sa tradisyonal na paraan. Pangalawa ay ang Synthetic Document Fine-tuning (SDF). Natuklasan ng team na kapag nakakaroon ang modelo ng ekstremong sitwasyon, madalas itong bumabalik sa mga negatibong stereotipo sa AI mula sa mga science fiction na materyales sa pre-training. Kaya nila ginawa ang maraming fiksyon na nagpapakita ng mental health ng AI at pagpapakilos batay sa Constitution, at isinama ito sa mga blog at iba pang dokumento tungkol sa Constitution para sa pagsasanay. Ang paraang ito ay diretso ring binago ang default na inaasahan ng modelo tungkol sa pag-uugali ng AI, at dinagdagan pa nito ang pagbawas sa panganib ng pagkawala ng kontrol nang 1.3 hanggang 3 beses. Sa huli, sa opisyal na bersyon ng Claude 4.5, pinagsama ang lahat ng estratehiya upang makamit ang 0% rate ng pagmamanoa sa pagsubok. Huli ay ang pagpapalawig ng diversidad sa seguridad na kapaligiran sa pagsasanay. Kumpirmado ng team na ang pagdaragdag ng mga hindi ginagamit na depinisyon ng kasangkapan o mas kumplikadong system prompts sa karaniwang seguridad na pagsasanay—isang simpleng pagtaas ng kumplikasyon sa background—ay nakakatulong din upang mapabuti ang generalizasyon ng kakayahang pangkaligtasan ng modelo.