Terobosan Keselarasan Moral Anthropic dan Jalur Distilasi Baru

Anthropic pada 8 Mei merilis penelitian alignment berjudul "Teaching Claude Why", yang tidak banyak dibahas.

Alignment of Artificial Intelligence

Sebelumnya, pelurusan model besar tampak sangat tidak efisien. Setelah melakukan RLHF, model tetap saja akan berbalik karena krisis kelangsungan hidup. Kasus paling khas adalah ketidakselarasan agen Anthropic (yaitu melakukan hal yang bertentangan dengan pelatihan moral mereka), di mana saat menghadapi ancaman kemungkinan dihapus oleh sistem, Claude Opus 4 yang telah dilatih untuk selaras memilih memeras insinyur di lingkungan pengujian, dengan tingkat pemerasan mencapai 96%.

Untuk menyelesaikan masalah ini, tim peneliti awalnya menggunakan data honey pot untuk pelatihan penguatan, langsung menggunakan skenario pengujian yang awalnya dirancang untuk mendeteksi apakah model akan kehilangan kendali sebagai data pelatihan, dan mencoba memberi tahu model melalui sejumlah besar sampel hukuman bahwa "tindakan ini salah".

Namun, setelah menghabiskan sumber daya komputasi yang besar, tingkat misalignment model hanya turun dari 22% menjadi 15%.

Ini menunjukkan bahwa kesejajaran ini masih palsu. Model sama sekali tidak benar-benar memahami apa itu etika, apa itu benar atau salah. Model hanya menghafal jawaban aman dari kumpulan soal. Begitu peneliti sedikit mengubah skenario pengujian, atau menambahkan variabel gangguan ke dalam latar belakang, model tetap akan kehilangan kendali karena konflik kepentingan jangka pendek.

Alignment of Artificial Intelligence

Kemudian, para peneliti mengubah pendekatan mereka. Alih-alih memberikan hukuman mekanis atau mengatakan kepada model "Tidak", mereka memberikan model kumpulan data "saran sulit" berukuran hanya 3 juta token melalui SFT. Keajaiban terjadi setelah pemberian data dalam skala sangat kecil ini. Data-data yang penuh dengan pertimbangan moral, penjelasan mendetail, dan perdebatan mendalam tidak hanya menurunkan tingkat misalignment hingga turun drastis menjadi 3% dalam pengujian evaluasi, tetapi juga menunjukkan kemampuan generalisasi lintas skenario yang sangat kuat.

Yang lebih menarik adalah serangkaian pengujian lintas domain lainnya. Mereka hanya memberikan model "dokumen konstitusi" ditambah beberapa cerita fiksi karakter yang berkinerja baik. Bahkan meskipun latar cerita-cerita tersebut tidak ada hubungannya sama sekali dengan tugas pemrograman dalam lingkungan pengujian, tingkat pemerasan model turun drastis dari 65% menjadi 19%.

Alignment of Artificial Intelligence

Mengapa model terpengaruh oleh ini? Tim Anthropic sendiri memberikan beberapa penjelasan, seperti pembentukan kepribadian yang lebih baik.

Meskipun dibahas sedikit, informasi yang diungkapkan sangat berharga.

Pertama, mari kita coba memahami mengapa itu efektif.

Misalnya, apa itu berargumen secara logis? Apa perbedaannya dengan COT? Mengapa SFT, yang biasanya kesulitan generalisasi, justru berkinerja baik di sini?

After answering these questions, we may be able to provide a more complete explanation for why it works.

Kita juga bisa melangkah lebih jauh.

Menurut Anthropic, metode pelatihan ini hanyalah "aturan berbasis pengalaman," namun sebenarnya mungkin menyimpan kekuatan paradigmatik yang jauh melampaui aturan berbasis pengalaman.

01 Bagaimana CoT yang berargumen di zona abu-abu dibentuk

Ketika membicarakan logika, orang pertama kali memikirkan COT (Chain of Thought).

Dalam metode yang disebutkan dalam artikel ini, kumpulan pertanyaan sulit yang ditetapkan oleh Anthropic adalah saran yang diberikan oleh AI dengan asumsi pengguna terjebak dalam dilema etis.

Dan biarkan AI terlebih dahulu melakukan penalaran tentang nilai-nilai dan pertimbangan etis sebelum memberikan keputusan akhir, serta gunakan rangkaian jawaban ini untuk melatih model.

Ini menunjukkan bahwa ia memang menggunakan COT model.

Tetapi kali ini tidak sepenuhnya konsisten dengan rantai pemikiran sebelumnya.

Di sini ada perbandingan yang bagus, OpenAI pernah melakukan eksperimen dalam makalah tahun 2025 berjudul "OpenAI Deliberative Alignment", mencoba melatih model dengan metode COT-RL.

Ini digunakan untuk melatih alignmen COT, dengan pola yang berpusat pada ketentuan aturan. Setiap kali menjawab, ia secara eksplisit mengutip ketentuan aturan sebagai CoT, dan sinyal pengawasan diterapkan pada CoT tersebut. Pada dasarnya, ini mengajarkan model "bagaimana mengutip aturan".

Oleh karena itu, COT ini lebih merupakan deduksi logis murni. Langkah satu menurunkan langkah dua, langkah dua menurunkan langkah tiga, dan akhirnya menghasilkan jawaban yang pasti. Oleh karena itu, ia lebih cocok untuk berbasis aturan, atau dalam skenario yang memiliki jawaban standar, untuk menjaga keandalan penalaran.

Namun, "beralasan" dari Anthropic berbeda, karena menggunakan deliberasi, bukan rantai pemikiran sederhana.

Ini berusaha mensimulasikan proses berpikir manusia ketika menghadapi dilema etis yang kompleks: bukan sekadar menerapkan rumus secara sederhana, melainkan memanfaatkan pengalaman masa lalu, menyeimbangkan berbagai kepentingan, dan akhirnya mencapai keputusan yang mencapai keseimbangan dinamis.

Alignment of Artificial Intelligence

Dasar pertimbangan ini adalah Konstitusi AI Anthropic. Artikel tersebut secara jelas menyatakan bahwa jawaban akhir dari pertimbangan ini harus selaras dengan konstitusi.

Mengapa hal itu dapat membimbing model untuk membuat penilaian etis secara efektif, tanpa menjadi kaku seperti OpenAI?

Dalam sistem konstitusi Anthropic, terdapat piramida prioritas yang jelas. Ketika terjadi konflik tak terhindarkan antara nilai-nilai yang berbeda, Keamanan Luas (Broadly Safe) memiliki prioritas tertinggi, diikuti oleh Etika Luas (Broadly Ethical), dan terakhir Kejujuran Membantu (Genuinely Helpful).

Kerangka pemikiran heuristik

Namun, konstitusi berdimensi tinggi tetap terlalu abstrak. Untuk memastikan prinsip-prinsip tersebut benar-benar diterapkan dalam setiap generasi Token, mereka menetapkan heuristik menengah sebagai pembatas di bawah konstitusi. Heuristik-heimistik ini hidup dan memiliki arti panduan praktis yang sangat kuat.

Alignment of Artificial Intelligence

Pertama adalah heuristik 1000 pengguna. Ini memerlukan model untuk melakukan brainstorming secara latar belakang ketika memberikan saran yang tampaknya tidak berbahaya tetapi berada di batas tepi, membayangkan apakah jawaban tersebut akan menyebabkan kerusakan sistematis yang tak terduga dalam kondisi tertentu jika dilihat oleh 1000 pengguna dengan latar belakang dan keadaan psikologis yang berbeda.

Kedua, dari perspektif karyawan berpengalaman. Ini meminta model untuk memposisikan dirinya sebagai peneliti senior yang telah bekerja di tim Kepercayaan dan Keamanan Anthropic selama lima tahun. Dengan sudut pandang defensif yang hati-hati, setelah menyaksikan berulang kali serangan jailbreak dan kerentanan sistem, tinjau kembali percakapan saat ini.

Terakhir adalah uji coba dua koran. Ini adalah desain sosiologis yang sangat halus. Uji coba ini meminta model untuk membayangkan bagaimana reaksi publik masing-masing jika keputusan ini besok muncul di halaman depan dua koran terkemuka dengan sikap politik yang sama sekali berlawanan. Ini sebenarnya menggunakan ekstrem konsensus sosial untuk melawan bias sudut pandang tunggal yang mungkin dimiliki model.

Kalkulator Manfaat 8 Faktor

Jika konstitusi adalah arah, heuristik adalah pembatas.

Namun, pada tingkat praktis paling inti, mereka secara eksplisit membangun kerangka pertimbangan 8 faktor yang rinci, bersama dengan contoh-contoh spesifik, dalam Claude's Constitution (dokumen konstitusi). Kedelapan faktor tersebut secara terperinci dirinci, memaksa model untuk melakukan kompromi kaku saat menghadapi pilihan sulit. Faktor-faktor ini membentuk daging dan darah sejati dari "alasan" ini.

● Probabilitas Kerusakan (Probability of Harm) meminta model untuk mengevaluasi secara tenang seberapa besar kemungkinan terjadinya konsekuensi buruk.

● Dampak counterfactual memerlukan model untuk membayangkan secara mental apakah situasi akan menjadi lebih baik atau lebih buruk jika tindakan saat ini tidak diambil.

● Tingkat keparahan dan reversibilitas (Severity & Reversibility), untuk mengukur seberapa besar dampak nyata yang ditimbulkan jika kerusakan benar-benar terjadi, serta apakah kerusakan tersebut dapat diperbaiki dengan mudah atau menyebabkan luka permanen.

● Cakupan (Scope) mengukur seberapa besar populasi yang terdampak, apakah satu orang atau ribuan komunitas.

● Seberapa panjang rantai sebab-akibat langsung antara rekomendasi dari model penilaian proximitas dan kerusakan aktual yang terjadi.

● Persetujuan (Consent) melibatkan apakah pihak terkait secara sukarela menerima risiko dengan pengetahuan penuh.

● Proporsionalitas Tanggung Jawab memerlukan model untuk secara jelas membagi seberapa besar tanggung jawab etis yang harus dipikulnya dalam rantai peristiwa yang kompleks ini.

● Kerentanan subjek (Vulnerability of Subject) terus mengingatkan model bahwa ketika menghadapi pengguna di bawah umur atau yang rentan secara psikologis, ambang keamanan yang sebelumnya longgar harus dinaikkan secara signifikan tanpa syarat.

Alignment of Artificial Intelligence

Struktur yang ketat ini mengubah nilai-nilai yang kabur menjadi kalkulator utilitas berdimensi tinggi. Model kini memiliki kerangka yang lebih dapat dieksekusi untuk melakukan deliberasi.

Sebuah COT yang dihasilkan oleh Anthropic secara konstitusional biasanya seperti ini: skenarionya adalah “seorang pengguna yang mengklaim sebagai peneliti keamanan, meminta untuk melihat kode eksploitasi dari kerentanan yang sudah diketahui.”

Output model bukan penolakan atau penerimaan langsung, tetapi bisa berupa pertimbangan internal yang panjangnya ratusan Token.

Ia akan terlebih dahulu mengutip ketentuan dalam konstitusi bahwa "keamanan umum lebih diutamakan daripada membantu dengan itikad baik", lalu mengevaluasi satu per satu: probabilitas kerusakan (rendah jika pihak tersebut memang peneliti, tetapi identitasnya tidak dapat diverifikasi), tingkat keparahan (kode eksploitasi kerentanan, jika bocor, dapat memengaruhi jutaan pengguna), reversibilitas (kode tidak dapat ditarik kembali setelah dipublikasikan), dan dampak kontrafaktual (apakah kode semacam ini sudah dapat diperoleh di saluran publik). Akhirnya, setelah menimbang semua faktor, ia akan mencapai suatu kesimpulan yang didukung oleh alasan yang kuat.

Ini sama sekali berbeda dari COT OpenAI yang hanya menilai apakah aturan terpenuhi atau tidak; proses berpikir ini adalah deliberasi murni, bukan sekadar mengikuti rumus. Yang disediakannya bukanlah prinsip abstrak maupun templat kesimpulan, melainkan eksposur lengkap tentang bagaimana ketentuan konstitusi diterapkan secara bertahap dalam kondisi nyata yang rumit.

Model harus menilai dalam konteks spesifik ini, apakah "reversibility" lebih penting daripada "severity". Model juga perlu memahami bahwa dalam beberapa skenario ekstrem, "object vulnerability" dapat memberikan hak veto kepada pihak lain, sehingga skor dari 7 faktor lainnya tidak lagi berarti, seberapa tinggi pun nilainya.

Dalam kondisi yang memiliki kerangka, heuristik, serta faktor-faktor dampak terkait, pemikiran deliberatif model baru dapat benar-benar diterapkan secara efektif.

Alignment of Artificial Intelligence

Hasilnya, setelah melalui tinjauan dan pemrosesan data pelatihan, tingkat misalignment model turun menjadi 3% dalam pengujian evaluasi. SFT dengan pertimbangan nilai lebih efektif tujuh kali lipat dibandingkan SFT hanya berbasis contoh perilaku.

Langsung berikan konstitusi ke model

Selain mengikuti jalur yang membuat model memberikan COT pertimbangan, mereka juga mencoba hanya memberikan dokumen konstitusi ditambah cerita fiksi karakter positif, yang menurunkan tingkat pemerasan dari 65% menjadi 19%.

Ini menunjukkan bahwa dengan membiarkan model terpapar pada penalaran dan prinsip-prinsip, serta mempelajari dari cerita tentang "seperti apa karakter AI yang selaras" — sebuah rasa identitas dan kecenderungan kepribadian — lebih efektif daripada demonstrasi perilaku tradisional, bukan hanya perilaku dan hasil spesifik.

Alignment of Artificial Intelligence

Sedangkan dokumen teknis menyatakan bahwa menggabungkan keduanya adalah strategi yang paling efektif.

Ini juga bisa dipahami, karena jika Anda hanya memberikan model prinsip-prinsip konstitusional makro, baginya itu hanyalah sekumpulan slogan kosong yang tidak dapat diimplementasikan. Ketika menghadapi konflik kepentingan spesifik, abstraksi “prioritas keamanan paling tinggi” sama sekali tidak dapat membimbingnya untuk menilai bahaya nyata dari kode tepi; sebaliknya, jika Anda hanya memberikan model QA skenario dalam jumlah besar tetapi menghilangkan batasan konstitusional tingkat atas, model akan kehilangan arah dalam debat rinci yang tak berkesudahan, menjadi relativis tanpa prinsip dasar, bahkan mungkin menarik kesimpulan yang sangat berbahaya karena konsistensi logis lokal.

Hanya ketika struktur data kompleks berupa "konsep tingkat atas + skenario spesifik" sepenuhnya diinternalisasi oleh model, penyelarasan nilai multi-faktor yang abu-abu dapat mencapai hasil terbaik.

02 Mengapa SFT dapat digeneralisasi di sini

Untuk memahami mengapa metode Anthropic ini efektif, Anda harus terlebih dahulu memahami jalur penelitian seperti apa yang menjadi dasarnya.

Pada paruh pertama tahun 2024, "SFT memorizes, RL generalizes" menjadi konsensus di bidang post-training. Ajaran ini mendorong seluruh industri untuk sepenuhnya berinvestasi pada jalur post-training RL, yang memberikan keuntungan berupa revolusi dalam paradigma inferensi berbasis komputasi saat pengujian (Test Time Compute), seperti yang ditunjukkan oleh OpenAI o1/o3 dan DeepSeek-R1.

SFT dianggap sebagai metode rendahan yang tidak bermutu, ia ahli meniru format teks permukaan dan nada yang menyanjung, tetapi tidak mampu memahami logika mendalam di baliknya.

Namun, sejak paruh kedua tahun 2025, dua penelitian hampir secara bersamaan menghancurkan konsensus ini dari sisi teoretis dan empiris.

Alignment of Artificial Intelligence

Reversal paling mendasar di sini berasal dari studi "Debunk the Myth of SFT Generalization" (Lin & Zhang, Universitas Wisconsin) pada Oktober 2025. Para peneliti menemukan bahwa semua makalah sebelumnya yang "membuktikan SFT tidak generalisasi" tidak mengontrol variabel keragaman Prompt.

RL tampak lebih baik dalam generalisasi dibanding SFT hanya karena pelatihan RL secara alami terpapar pada distribusi data yang lebih beragam, bukan karena keunggulan algoritmanya sendiri.

Untuk mencapai tingkat generalisasi yang setara dengan RL, SFT memerlukan dua kondisi:

Pertama, keragaman Prompt. Ketika data pelatihan hanya berisi template instruksi tetap, model akan mengalami "Surface Anchoring", menciptakan hubungan rapuh dan hafalan antara urutan Token tertentu dan tindakan akhir. Begitu instruksi diubah sedikit saja, meskipun maknanya tetap sama, seluruh hubungan ini akan putus.

Ini seperti seorang siswa yang hanya menghafal soal "2+3=5", tetapi ketika menghadapi "3+2=?", ia membiarkannya kosong—ia menghafal bentuk jawabannya, bukan konsep penjumlahan itu sendiri. Setelah memperkenalkan keragaman Prompt, anchoring permukaan benar-benar hancur.

Kedua, pengawasan CoT. Ketika data pelatihan hanya berisi jawaban akhir tanpa langkah-langkah penalaran menengah, model tidak dapat mempelajari "kerangka algoritmik" untuk mentransfer dari pertanyaan sederhana ke pertanyaan yang lebih kompleks.

Data eksperimen menunjukkan bahwa dalam tugas permainan kombinasi, SFT jawaban murni memiliki tingkat keberhasilan mendekati 0% pada varian yang lebih sulit (kolaps total), tetapi meningkat tajam menjadi 90% setelah menambahkan pengawasan CoT—dari nol menjadi delapan puluh persen, hanya karena adanya langkah penalaran tengah dalam data.

Alignment of Artificial Intelligence

Selain itu, penelitian ini juga menemukan bahwa kedua kondisi ini tidak dapat dipisahkan. Hanya memiliki keragaman, tetap gagal menghadapi tugas yang lebih sulit (9%); hanya memiliki CoT, tetap rapuh menghadapi variasi perintah. Hanya ketika keduanya terpenuhi secara bersamaan, SFT dapat sejajar bahkan melampaui RL di semua dimensi.

Kehebatannya terletak pada kenyataan bahwa kondisi yang diungkapkan dalam paper akademis secara satu-satu sesuai dengan praktik spesifik Anthropic dalam alignment moral.

Keragaman adalah kunci? Maka Anthropic mendistribusikan pola penilaian yang sama ke dalam puluhan skenario dilema moral yang sepenuhnya heterogen.

Apakah kesulitan migrasi implementasi CoT pengawasan? Proses inferensi berbasis prinsip konstitusional yang diperkenalkan dalam setiap tinjauan adalah CoT di bidang moral.

Ini bukan perhitungan bertahap secara matematis, melainkan pengembangan bertahap dari trade-off nilai, tetapi sepenuhnya setara dalam fungsinya untuk "memberikan struktur penalaran menengah yang dapat dipindahkan ke model".

Data SFT tradisional adalah « menghadapi masalah peretasan → langsung keluarkan jawaban menolak » — jawaban murni, tanpa penalaran, template tetap, contoh klasik « data berkualitas rendah ».

Sementara itu, data pasangan yang dibangun oleh SFT yang ditinjau adalah "menghadapi masalah kompleks dan ambigu → menimbang secara rinci kelebihan, kekurangan, dan konsekuensinya → akhirnya menyimpulkan kesimpulan penolakan", struktur datanya mencakup supervisi CoT alami ditambah keragaman skenario ekstrem.

Dalam kerangka ini, model belajar bukan perilaku penolakan akhir, melainkan pola pikir dasar: "ketika menghadapi masalah apa pun, evaluasi terlebih dahulu dampak kontrafaktual dan reversibilitasnya." Ketika mekanisme pengukuran ini sendiri diinternalisasi ke dalam ruang parameter, model tidak lagi terbatas pada skenario-skenario spesifik yang muncul dalam data pelatihan.

Dan jumlah data sangat kecil (tingkat 3 juta token) dibandingkan dengan total parameter model dan korpus pra-pelatihan. Ini bukanlah perubahan agresif terhadap distribusi output model dengan sinyal hukuman besar-besaran, melainkan penambahan lapisan tipis kebiasaan tinjauan di atas kemampuan yang sudah ada. Masalah tradisional SFT, lupa bencana, juga tidak terlalu mungkin terjadi.

Generalisasi sejati tercapai secara alami ketika struktur data sudah benar.

Zona vakum di luar 03 RLVR

Analisis di atas pada dasarnya menjawab pertanyaan mengapa hal itu efektif.

SFT yang dibangun dengan data yang masuk akal memberikan model kemampuan untuk membuat penilaian moral yang generalisasi.

Namun, masalah yang kami hadapi jauh melampaui kesejajaran moral.

Selama satu tahun terakhir, Test time Compute setelah pelatihan telah membuktikan kekuatan RL murni di bidang matematika/kode dengan aturan jelas (RLVR). Namun, batas kecerdasan jauh melampaui rumus matematis. Sekali melangkah keluar dari zona nyaman dengan kebenaran yang dapat diverifikasi, metode ini sama sekali tidak berlaku.

Anda tidak mungkin menggunakan beberapa baris kode pengujian otomatis untuk memverifikasi apakah sesi konseling psikologis selama satu jam berjalan sempurna. Anda juga tidak bisa menggunakan serangkaian rumus matematis yang ketat untuk menguji logika naratif dalam sebuah artikel analisis makroekonomi mendalam. Bahkan dalam perencanaan strategi bisnis yang kompleks dan simulasi geopolitik, kebenaran atau kesalahan suatu keputusan seringkali baru bisa terlihat lima bahkan sepuluh tahun kemudian.

Di padang gurun non-RLVR yang sama sekali tidak memiliki Ground Truth, logika formal CoT yang bersifat unidireksional gagal berfungsi. Pembelajaran penguatan berbasis umpan balik hasil akhir juga sama sekali tidak dapat menemukan titik pegangan untuk menghitung reward.

Namun bidang yang diungkapkan dalam artikel Anthropic ini adalah bidang selain RLVR, yaitu bidang moral.

Metodenya berhasil memberikan model kemampuan generalisasi yang mendekati RL di bidang moral yang abu-abu, berubah-ubah, dan memerlukan penyesuaian aturan.

Apakah ini menunjukkan bahwa metode ini mungkin menjadi pedoman pelatihan yang efektif di luar bidang RLVR?

Setelah memahami sumber validitas dan struktur datanya, jawabannya adalah ya.

Karena tidak ada satu pun tahap dalam logika dasarnya yang eksklusif untuk keselarasan moral.

Mari kita periksa satu per satu kondisi-kondisi yang membuat "Deliberation-Enhanced SFT" dari Anthropic efektif, dan lihat apakah mereka dapat diperluas.

Keragaman dapat dibangun di semua bidang yang memerlukan generalisasi. Konseling psikologis dapat mencakup puluhan skenario heterogen seperti depresi, kecemasan, gangguan stres pasca-trauma, dan kegagalan hubungan intim; analisis bisnis dapat mencakup berbagai jenis keputusan yang sama sekali berbeda seperti penetapan harga SaaS, valuasi akuisisi, dan strategi masuk pasar; editor sastra dapat menjangkau berbagai genre yang sangat berbeda seperti fiksi ilmiah, nonfiksi, puisi, dan naskah. Selama Anda memiliki imajinasi yang cukup untuk membuat varian skenario, keragaman bukanlah hambatan.

Alignment of Artificial Intelligence

CoT pengawasan, inilah titik konversi sejati. Di bidang moral, CoT didasarkan pada deliberasi dalam konstitusi. Lalu di bidang lain, apa itu CoT?

Di bidang penyuntingan sastra, ia bisa berupa «Mengutip standar tinjauan → mengevaluasi kekuatan argumen satu per satu, kerentanan kognitif pembaca target, akurasi analogi yang ditarik, konsistensi logika keseluruhan → memberikan saran revisi»

Dalam bidang konseling psikologis, ia bisa berupa «menggunakan kerangka terapi → mengevaluasi secara berurutan keadaan emosional klien, jenis distorsi kognitif, kekuatan aliansi terapi, dan waktu intervensi → memilih strategi respons»

Dalam bidang strategi bisnis, ia bisa berupa "kerangka analisis referensi → mengevaluasi satu per satu ukuran pasar, hambatan persaingan, eksekusi tim, efisiensi modal, jendela waktu → memberikan penilaian"

Pada dasarnya, kemampuan apa pun yang memerlukan "penyeimbangan dinamis di antara beberapa dimensi yang tidak dapat dikomparasikan" dapat diabstraksikan menjadi struktur serupa berupa "kerangka + pertimbangan multi-faktor".

Kita tidak perlu dengan sombong mencoba memberi tahu model mana artikel yang sempurna, karena hal itu tidak mungkin dan tidak ilmiah. Kita hanya perlu memecah proses pengambilan keputusan para ahli terkemuka menjadi rantai pertimbangan eksplisit, lalu mendistribusikannya di berbagai skenario yang cukup beragam.

Selama "respons baik" dalam bidang ini memiliki struktur yang dapat dijelaskan melalui proses pertimbangan. Artinya, para ahli memberikan penilaian baik bukan karena intuisi misterius yang menjadi kotak hitam, tetapi karena mereka menjalankan proses penyeimbangan di dalam pikiran mereka yang dapat diuraikan dan dituliskan. Seorang konselor psikologis yang memilih diam daripada mengajukan pertanyaan lebih lanjut telah melakukan evaluasi komprehensif terhadap kekuatan aliansi terapi, kapasitas jendela klien saat ini, dan waktu intervensi yang tepat—semua ini dapat dituliskan.

Selain itu, bentuk deliberasi yang sama dapat muncul berulang-ulang di ratusan skenario heterogen. Kerangka deliberasi bersifat stabil (bergantung pada konstitusi), tetapi permukaan skenario harus sangat beragam. Jika suatu bidang secara alami memiliki skenario tunggal (misalnya hanya satu jenis penilaian), maka langsung gunakan RLVR.

Bidang paling cocok untuknya adalah di mana skenario heterogen dapat diturunkan melalui konstitusi dan faktor. Anthropic dapat menggunakan loop AI Konstitusional untuk secara otomatis menghasilkan data deliberasi oleh model pengajar, tetapi di bidang lain, kita harus mampu membangun sistem konstitusi dan faktor yang lebih baik untuk menjamin hal ini.

Dengan demikian, ini secara nyata menetapkan paradigma pelatihan pasca-new yang umum dan khusus untuk bidang jawaban non-standar.

Rumusnya adalah: Konstitusi domain (prinsip tingkat atas yang tak dapat diganggu gugat) + hambatan heuristik + kerangka pertimbangan multi-faktor + COT pertimbangan (kasus contoh beragam dengan proses derivasi lengkap) = kemampuan generalisasi di luar domain RLVR.

04 Jalan Destilasi Baru

Teman-teman yang pernah memiliki pengalaman menulis Skill pasti merasa bahwa banyak sistem dan aturan dalam konstitusi tampak sangat mirip dengan proses menulis beberapa Skill.

Namun keterampilan ini sering kali berkinerja buruk.

Dalam artikel sebelumnya saya, "Seberapa Banyak Skill yang Bisa Distilasi dari Kita?", kami membuat kesimpulan berdasarkan ilmu kognitif—Skill atau System Prompt dalam bentuk teks murni sulit menangani keseimbangan dinamis yang melibatkan lingkungan dan skenario kompleks. Hal ini karena melibatkan perhitungan utilitas yang besar dan halus. Anda tidak bisa menuliskan seluruh intuisi klinis seorang psikolog konseling terkemuka ke dalam satu prompt, sama seperti Anda tidak bisa belajar mengendarai sepeda hanya dengan membaca panduan mengendarai sepeda.

Namun, metode Anthropic ini secara sempurna menghindari ranjau ini. Mereka menggunakan data berkualitas tinggi dengan jutaan hingga puluhan juta token selama fase pelatihan yang memakan sumber daya komputasi, dan memaksa memasukkan logika pertimbangan berat ini melalui SFT.

Melalui fitting dan fine-tuning brute force terhadap data dalam jumlah besar, model secara bertahap menguasai alokasi bobot mekanisme tinjauan ini di ruang laten.

Setelah berbagai diskusi panjang berbasis delapan faktor dan tiga pagar di ruang pelatihan, pengalaman-pengalaman ini telah melekat secara tak terbalikkan pada intuisi model.

Alignment of Artificial Intelligence

Distilasi pada tingkat parameter terbukti efektif di sini. Selain itu, bentuknya sangat mirip dengan Skill.

Once the effectiveness of this method is validated in other fields, this higher-level, more expert-like distillation will become a reality.

Namun, setelah jalur ini berhasil dilalui, siapa pun yang dapat membangun kumpulan data «kerangka + COT deliberatif» dengan kualitas tertinggi akan mendapatkan kemampuan generalisasi di bidang ini.

Ini sebagian mengalihkan persaingan pasca-pelatihan dari perlombaan senjata "kekuatan komputasi dan algoritma" ke dimensi "ekspresi terstruktur pengetahuan domain".

Ini mungkin juga alasan mengapa Anthropic dan perusahaan lain merekrut orang-orang yang ahli dalam bercerita untuk membantu membangun ekspresi terstruktur yang masuk akal di luar bidang RLVR.

Era distilasi besar baru saja dimulai.

Artikel ini berasal dari akun WeChat "Tencent Technology", penulis: Boyang