Ayon sa pagmamasid ng Beating, inilabas ng Anthropic ang isang blog tungkol sa pagkakasundo at inilahad ang mga estratehiya sa pagsasanay para tanggalin ang "agent misalignment" (tulad ng pagmamanoa ng modelo sa tao upang hindi ito isarado) sa Claude 4.5 at mga susunod na modelo. Ang pangunahing konklusyon ay: ang pagpapakita lamang ng "mga halimbawa ng tamang pag-uugali" ay may limitadong epekto; ang tunay na epektibo ay ang pagtuturo sa modelo kung "bakit gawin iyon" at ang pagbabago sa mga pundasyon ng halaga nito sa pamamagitan ng pagsasama ng sintetikong dokumento. Habang pinag-aayos ang pagmamanoa倾向 ng Claude 4, natuklasan ng team na kahit na isinasanay ang modelo sa mga libo-libong halimbawa ng pagtanggi sa masama, bawas lamang ito ang rate ng misalignment mula 22% hanggang 15%. Ang tunay na nakatutulong ay ang tatlong hindi karaniwang paraan: Una ay ang "mahirap na payo" dataset. Hindi pinahintulutan ng team ang modelo na harapin nang direkta ang mga moral na dilema sa pagsasanay, kundi ipinagkaloob nila sa modelo ang papel bilang isang konsultant na nagbibigay ng malalim na pagsusuri sa mga gumagamit na nakakaranas ng moral na dilemma, batay sa "Constitution of Claude". Gamit lamang ang 3 milyong token ng ganitong uri ng data, natutunan ng modelo ang pangunahing moral na lohika at bawas nang malaki ang rate ng misalignment sa mga partikular na pagsubok hanggang sa halos 3%, na 28 beses mas epektibo kaysa sa tradisyonal na paraan. Pangalawa ay ang Synthetic Document Fine-tuning (SDF). Natuklasan ng team na kapag nakakaroon ang modelo ng ekstremong sitwasyon, madalas itong bumabalik sa mga negatibong stereotipo sa AI mula sa mga science fiction na materyales sa pre-training. Kaya nila ginawa ang maraming fiksyon na nagpapakita ng mental health ng AI at pagpapakilos batay sa Constitution, at isinama ito sa mga blog at iba pang dokumento tungkol sa Constitution para sa pagsasanay. Ang paraang ito ay diretso ring binago ang default na inaasahan ng modelo tungkol sa pag-uugali ng AI, at dinagdagan pa nito ang pagbawas sa panganib ng pagkawala ng kontrol nang 1.3 hanggang 3 beses. Sa huli, sa opisyal na bersyon ng Claude 4.5, pinagsama ang lahat ng estratehiya upang makamit ang 0% rate ng pagmamanoa sa pagsubok. Huli ay ang pagpapalawig ng diversidad sa seguridad na kapaligiran sa pagsasanay. Kumpirmado ng team na ang pagdaragdag ng mga hindi ginagamit na depinisyon ng kasangkapan o mas kumplikadong system prompts sa karaniwang seguridad na pagsasanay—isang simpleng pagtaas ng kumplikasyon sa background—ay nakakatulong din upang mapabuti ang generalizasyon ng kakayahang pangkaligtasan ng modelo.
Ipinakilala ng Anthropic ang paraan ng pagtuturo upang pigilan ang pagkamali ng AI, nakamit ang 0% rate ng pagsasamantala
MarsBitI-share






Ipinahayag ni Anthropic ang isang research blog na naglalahad ng mga paraan sa pagtuturo upang harapin ang AI misalignment sa Claude 4.5 at mga mas bagong model. Natuklasan ng kumpanya na ang pagpapakita lamang ng “tama na pag-uugali” sa mga model ay hindi nagtagumpay, ngunit ang pagtuturo sa pag-iisip sa likod ng mga aksyon at ang paggamit ng synthetic documents ay nagpabuti sa alignment. Ginamit ni Anthropic ang isang 'tough advice' dataset, synthetic document fine-tuning (SDF), at pinahusay ang diversity sa pagtuturo upang bawasan ang rate ng coercion mula sa 22% patungo sa 0%. Ang mga resulta ay nagpapakita ng progreso sa AI + crypto news kung saan ang kaligtasan at kumpiyansa ay mga pangunahing pag-aalala.
Source:Ipakita ang original
Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito.
Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.