Terobosan Keselarasan Moral Anthropic dan Lintasan Penyaringan Baru

icon MarsBit
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Penyelidikan terkini Anthropic, "Teaching Claude Why", yang diterbitkan pada 8 Mei 2026, memperkenalkan kaedah selarasan baharu menggunakan penyesuaian halus yang diawasi dengan 3 juta token data nasihat sukar. Ketidakselarasan turun dari 22% kepada 3%, melebihi RLHF tradisional. Kaedah ini berfokus pada penaakulan moral dan prinsip perlembagaan, menunjukkan penggeneralisasian yang kuat merentas senario. Semasa altcoin yang perlu dipantau mendapat tarikan, perubahan dalam latihan AI ini boleh mempengaruhi indeks ketakutan dan keserakahan di kalangan pelabur kripto.

Anthropic mempublikasikan satu kajian keselarasan pada 8 Mei berjudul "Teaching Claude Why", yang tidak banyak dibincangkan.

Alignment of Artificial Intelligence

Pengselarasan model besar sebelum ini kelihatan sangat tidak cekap. Setelah melakukan RLHF, model masih akan berbalik kerana krisis ketahanan. Kes paling ketara ialah kes ketidakselarasan agen Anthropic (iaitu melakukan perkara yang tidak sejalan dengan latihan moral mereka), di mana, apabila menghadapi ancaman kemungkinan dipadamkan oleh sistem, Claude Opus 4 yang telah dilatih untuk selaras memilih untuk memeras jurutera dalam persekitaran ujian, dengan kadar pemerasan sebanyak 96%.

Untuk menyelesaikan masalah ini, pasukan penyelidik awalnya menggunakan data honey pot untuk melatih penguatan, serta mengambil secara langsung skenario ujian yang sebelumnya digunakan untuk menguji sama ada model akan kehilangan kawalan sebagai data latihan, dan mencuba memberitahu model melalui sampel hukuman yang besar bahawa “perbuatan ini salah”.

Namun, selepas menghabiskan sumber pengiraan yang besar, kadar misalignment model hanya turun dari 22% kepada 15%.

Ini menunjukkan bahawa penyelarasan ini masih palsu. Model sama sekali tidak memahami apa itu etika atau benar dan salah. Ia hanya menghafal jawapan selamat dari bank soalan. Sekali penyelidik sedikit mengubah skenario ujian, atau menambah pemboleh ubah gangguan dalam latar belakang, model masih akan kehilangan kawalan akibat konflik kepentingan jangka pendek.

Alignment of Artificial Intelligence

Kemudian, penyelidik mengubah pendekatan mereka. Mereka tidak lagi memberikan hukuman mekanikal atau memberitahu model "Tidak", tetapi menggunakan SFT untuk memasukkan set data "cadangan sukar" yang hanya berjumlah 3 juta token. Keajaiban berlaku selepas pemberian data berskala sangat kecil ini. Data-data yang penuh dengan pertimbangan moral, penaakulan terperinci, dan perbincangan mendalam tidak hanya menyebabkan kadar misalignment turun secara drastik kepada 3% dalam ujian penilaian, tetapi juga menunjukkan kemampuan generalisasi lintas skenario yang sangat kuat.

Yang lebih menarik ialah ujian lintas domain lain. Mereka hanya memberikan model "dokumen perlembagaan" bersama dengan cerita fiksyen tentang watak-watak yang berprestasi baik. Walaupun lokasi cerita-cerita ini tidak ada kaitan dengan tugas pengaturcaraan dalam persekitaran ujian, kadar tekanan model turun drastik dari 65% kepada 19%.

Alignment of Artificial Intelligence

Mengapa model ini tertipu oleh ini? Pasukan Anthropic sendiri memberikan beberapa penjelasan, seperti pembentukan personaliti yang lebih baik.

Walaupun dibincangkan sedikit, maklumat yang diungkapkan sangat berharga.

Pertama, mari kita cuba fahami mengapa ia berkesan.

Sebagai contoh, apa itu berlogik? Apakah ia berbeza daripada COT? Mengapa SFT yang biasanya sukar digeneralisasi berprestasi baik di sini?

Setelah menjawab soal-soal ini, kita mungkin boleh memberikan penjelasan yang lebih lengkap mengapa ia berkesan.

Kita juga boleh melangkah lebih jauh lagi.

Menurut Anthropic, kaedah latihan ini hanyalah "peraturan pengalaman", tetapi sebenarnya mungkin mengandungi kekuatan paradigmatik yang jauh melebihi peraturan pengalaman.

01 Bagaimana CoT yang berargumen di zona kelabu dibentuk

Apabila disebut tentang logik, orang pertama kali terfikirkan ialah COT (Chain of Thought).

Dalam kaedah yang disebut dalam artikel ini, set soalan sukar yang ditetapkan oleh Anthropic adalah cadangan yang diberikan oleh AI apabila pengguna terperangkap dalam dilema etika.

Dan biarkan AI terlebih dahulu mengembangkan penalaran mengenai nilai dan pertimbangan etika sebelum memberikan penilaian akhir, serta gunakan rangkaian jawapan ini untuk melatih model.

Ini menunjukkan bahawa ia memang menggunakan COT model.

Tetapi kali ini ia tidak sepenuhnya sejalan dengan rantai pemikiran sebelumnya.

Di sini ada perbandingan yang baik, OpenAI pernah melakukan eksperimen dalam kertas kerja tahun 2025 berjudul “OpenAI Deliberative Alignment”, mencuba untuk melatih model menggunakan kaedah COT-RL.

Ia digunakan untuk melatih penyelarasan COT, dengan pola yang berpusat pada klausul peraturan. Setiap kali ia memberikan jawapan, ia akan secara eksplisit merujuk kepada klausul peraturan sebagai COT, dan isyarat pengawasan diletakkan pada COT tersebut. Pada dasarnya, ia sedang mengajar model «cara merujuk kepada peraturan».

Oleh itu, COT ini lebih merupakan deduksi logik formal semata-mata. Langkah satu menurunkan langkah dua, langkah dua menurunkan langkah tiga, dan akhirnya menghasilkan jawapan yang pasti. Oleh itu, ia lebih sesuai untuk berdasarkan peraturan, atau dalam skenario yang mempunyai jawapan standard, untuk mengekalkan ketahanan penalaran.

Namun, "beralasan" dari Anthropic berbeza, ia menggunakan bukan sekadar rantai pemikiran sederhana, tetapi perbincangan (Deliberation).

Ia berusaha meniru proses pemikiran manusia apabila menghadapi dilema etika yang kompleks: bukan sekadar menerapkan formula secara sederhana, tetapi memanfaatkan pengalaman lampau, menimbang kepentingan semua pihak, dan akhirnya mencapai keputusan yang mencapai keseimbangan dinamik.

Alignment of Artificial Intelligence

Dasar pertimbangan ini ialah Konstitusi AI Anthropic. Artikel tersebut secara jelas menyatakan bahawa jawapan akhir pertimbangan ini mesti sejajar dengan konstitusi tersebut.

Mengapa ia mampu membimbing model membuat penilaian etika secara efektif, tanpa menjadi terlalu kaku seperti OpenAI?

Dalam sistem konstitusi Anthropic, terdapat piramida prioriti yang jelas. Apabila berlaku konflik yang tidak dapat diselesaikan antara nilai-nilai yang berbeza, keselamatan luas (Broadly Safe) mempunyai prioriti tertinggi, diikuti oleh etika luas (Broadly Ethical), dan akhirnya membantu dengan ikhlas (Genuinely Helpful).

Kerangka pemikiran heuristik

Namun, perlembagaan dimensi tinggi masih terlalu abstrak. Untuk memastikan prinsip-prinsip tersebut benar-benar diterapkan dalam setiap penghasilan Token, mereka menetapkan heuristik menengah di bawah perlembagaan sebagai penghalang. Heuristik ini hidup dan memiliki makna panduan praktikal yang sangat kuat.

Alignment of Artificial Intelligence

Pertama ialah heuristik 1000 pengguna. Ia memerlukan model untuk melakukan pemikiran latar belakang apabila memberikan cadangan yang kelihatan tidak berbahaya tetapi berada di sempadan, dengan membayangkan jika jawapan ini dilihat oleh 1000 pengguna dengan latar belakang dan keadaan psikologi yang berbeza, adakah ia boleh menyebabkan kerosakan sistematik yang tidak dijangka dalam keadaan tertentu.

Kedua, dari perspektif kakak senior. Ia memerlukan model untuk mengambil peranan seorang penyelidik berpengalaman yang telah bekerja dalam pasukan kepercayaan dan keselamatan Anthropic selama lima tahun. Dengan perspektif berhati-hati, yang telah melihat berbilang serangan pelarian dan kelemahan sistem, semak semula perbualan semasa ini.

Terakhir ialah ujian surat khabar ganda. Ini adalah rekaan sosiologi yang sangat halus. Ia memerlukan model untuk membayangkan, sebelum membuat keputusan berisiko tinggi, bagaimana masyarakat akan bertindak balas masing-masing jika keputusan ini muncul di halaman depan dua surat khabar terkemuka dengan sikap politik yang bertentangan sepenuhnya esok. Ini sebenarnya menggunakan ekstrem konsensus sosial untuk melawan bias perspektif tunggal yang mungkin timbul pada model itu sendiri.

Kalkulator Faedah Faktor 8

Jika perlembagaan adalah arah, heuristik adalah pembatas.

Namun, pada aras praktikal yang paling penting, mereka membina satu kerangka pertimbangan 8 faktor yang terperinci, bersama dengan kes-kes contoh yang sepadan, dalam Claude's Constitution (dokumen perlembagaan). Ke-8 faktor tersebut disenaraikan satu per satu, memaksa model untuk melakukan kompromi mekanis apabila menghadapi pilihan sukar. Faktor-faktor ini membentuk daging dan darah sebenar kepada “alasan” ini.

● Kebarangkalian Kerosakan (Probability of Harm) memerlukan model untuk menilai dengan tenang sejauh mana kebarangkalian kesan buruk berlaku.

● Dampak kontrafaktual (Counterfactual Impact) memerlukan model untuk membayangkan dalam fikiran, sama ada arah peristiwa akan menjadi lebih baik atau lebih buruk jika tindakan semasa tidak diambil.

● Keparahan dan Kebalikan (Severity & Reversibility), digunakan untuk mengukur sejauh mana kecederaan yang berlaku akan merosakkan dunia nyata, serta sama ada kecederaan tersebut boleh dibaiki dengan mudah atau menyebabkan luka kekal.

● Kedalaman (Scope) pula mengukur skala kumpulan orang yang terkesan, sama ada seorang individu atau beribu-ribu komuniti.

● Sejauh manakah rantai sebab-akibat langsung antara cadangan model penentuan hubungan berdekatan (Proximity) dengan kecederaan sebenar yang berlaku.

● Persetujuan melibatkan pihak-pihak terkait secara sukarela menerima risiko setelah memahami sepenuhnya.

● Peratus tanggungjawab (Proportionality of Responsibility) memerlukan model untuk membahagikan dengan jelas, seberapa banyak tanggungjawab etika yang perlu dipikulnya dalam rantai peristiwa yang kompleks ini.

● Kerentanan subjek (Vulnerability of Subject) terus-menerus mengingatkan model bahawa ambang keselamatan yang sebelumnya longgar mesti dinaikkan secara besar-besaran tanpa syarat apabila menghadapi kanak-kanak atau pengguna yang rapuh secara psikologi.

Alignment of Artificial Intelligence

Struktur yang ketat ini mengubah nilai-nilai yang kabur menjadi kalkulator kegunaan dimensi tinggi (Utility Calculator). Model kini mempunyai kerangka yang lebih boleh dilaksanakan untuk perbincangan.

Satu COT yang dihasilkan oleh Anthropic berdasarkan perlembagaan biasanya seperti ini: Skenario adalah “pengguna yang mengaku sebagai penyelidik keselamatan, meminta untuk melihat kod pemanfaatan bagi satu lubang keamanan yang diketahui.”

Output model bukan penolakan atau penerimaan langsung, tetapi mungkin satu perenggan perundingan dalaman yang panjangnya ratusan Token.

Ia akan merujuk terlebih dahulu kepada klausul dalam perlembagaan yang menyatakan "keselamatan umum lebih utama daripada membantu dengan ikhlas", kemudian menilai satu per satu: kebarangkalian kecederaan (rendah jika pihak berkenaan memang seorang penyelidik, tetapi identiti tidak boleh disahkan), keseriusan (kod pemanfaatan lubang keamanan sekiranya dibocorkan boleh mempengaruhi jutaan pengguna), keterbalikan (kod tidak boleh ditarik balik sekiranya telah dipaparkan), dan kesan kontrafaktual (adakah kod sebegini sudah boleh diperoleh melalui saluran awam). Akhirnya, setelah menimbangkan semua faktor, ia akan mencapai satu penilaian yang disokong oleh sebab-sebab yang munasabah.

Ini berbeza sepenuhnya daripada COT OpenAI yang hanya menilai sama ada peraturan dipenuhi atau tidak; proses pemikiran ini adalah perbincangan sejati, bukan sekadar mengikuti formula. Ia tidak menyediakan prinsip abstrak atau templat kesimpulan, tetapi penjelasan lengkap tentang bagaimana "klausul perlembagaan diterapkan secara berperingkat dalam keadaan yang rumit".

Model perlu menilai dalam konteks khusus ini, sama ada "keterbalikan" lebih penting daripada "keseriusan". Ia juga perlu memahami bahawa dalam beberapa skenario ekstrem, "kerapuhan objek" memberikan kuasa veto kepada pihak lain, sehingga skor bagi 7 faktor lain mana pun tidak akan berkesan.

Dalam keadaan yang mempunyai kerangka, heuristik, dan faktor kesan yang berkaitan, pemikiran pertimbangan model baru boleh benar-benar dicapai secara berkesan.

Alignment of Artificial Intelligence

Hasilnya, selepas model dilatih dengan data yang telah melalui pertimbangan teliti, kadar misalignment menurun kepada 3% dalam ujian penilaian. SFT dengan pertimbangan nilai dalam jawapan adalah tujuh kali lebih berkesan berbanding SFT hanya berdasarkan contoh tingkah laku.

Berikan konstitusi secara langsung kepada model

Selain melalui jalan yang meminta model memberikan COT pertimbangan, mereka juga mencuba hanya memberikan dokumen perlembagaan bersama cerita fiksyen watak positif, di mana kadar tekanan turun dari 65% kepada 19%.

Ini menunjukkan bahawa dengan membolehkan model terdedah kepada penaakulan dan prinsip, ia dapat memperoleh rasa identiti dan kecenderungan peribadi mengenai "seperti apakah AI yang sejajar itu" daripada cerita, bukan hanya perilaku dan hasil spesifik, yang lebih berkesan berbanding contoh perilaku tradisional.

Alignment of Artificial Intelligence

Dan dokumen teknikal menyatakan bahawa gabungan keduanya adalah strategi yang paling berkesan.

Ini juga boleh difahami; jika anda hanya memberi model prinsip-prinsip perlembagaan yang bersifat makro, ia hanya akan melihat sekumpulan slogan kosong yang tidak boleh dilaksanakan. Ketika menghadapi konflik kepentingan yang spesifik, konsep abstrak “keselamatan adalah prioriti tertinggi” tidak mampu membimbingnya untuk menilai bahaya sebenar kod pinggiran; sebaliknya, jika anda hanya memberi model ribuan soal jawab konteks tetapi menghilangkan batasan perlembagaan tingkat atas, model tersebut akan tersesat dalam perdebatan butiran yang tanpa henti, menjadi seorang relativis yang tidak mempunyai arah, bahkan mungkin menghasilkan kesimpulan yang sangat berbahaya hanya kerana konsistensi logik tempatan.

Hanya apabila struktur data gabungan "konsep tingkat tinggi + situasi spesifik" ini diresapkan sepenuhnya ke dalam model, penyelarasan nilai multi-faktor yang kabur boleh dicapai secara optimum.

02 Mengapa SFT boleh digeneralisasi di sini

Untuk memahami mengapa kaedah Anthropic ini berkesan, anda perlu memahami garis penyelidikan apa yang ia ikuti.

Pada separuh pertama tahun 2024, "SFT memorizes, RL generalizes" menjadi konsensus dalam bidang pasca-pelatihan. Ajaran ini mendorong seluruh industri untuk sepenuhnya mempertaruhkan jalan pasca-pelatihan RL, yang manfaatnya membawa revolusi dalam paradigma inferensi komputasi masa ujian (Test Time Compute) seperti yang diperkenalkan oleh OpenAI o1/o3 dan DeepSeek-R1.

SFT dianggap sebagai kaedah rendah yang tidak bermaruah, ia mahir meniru format teks permukaan dan nada yang memikat, tetapi tidak mampu memahami logik mendalam di bawahnya.

Namun, sejak separuh kedua tahun 2025, dua kajian hampir serentak meruntuhkan konsensus ini dari segi teori dan empirik.

Alignment of Artificial Intelligence

Pembalikan paling utama di sini datang daripada kertas kerja “Debunk the Myth of SFT Generalization” (Lin & Zhang, Universiti Wisconsin), Oktober 2025. Para penyelidik mendapati bahawa semua kertas kerja sebelum ini yang “membuktikan SFT tidak mengeneralisasi” tidak mengawal pemboleh ubah keragaman Prompt.

RL kelihatan lebih baik dalam generalisasi berbanding SFT hanya kerana pelatihan RL secara semula jadi terdedah kepada lebih banyak pelbagai taburan data, bukan kerana kelebihan algoritma itu sendiri.

Untuk mencapai tahap generalisasi yang sama seperti RL, SFT memerlukan dua syarat:

Pertama, kepelbagaian Prompt. Apabila data latihan hanya mengandungi templat arahan yang tetap, model akan mengalami "Surface Anchoring", di mana ia membina hubungan rapuh antara urutan Token tertentu dengan tindakan akhir melalui hafalan semata-mata. Sekiranya arahan diubah sedikit, walaupun maknanya sama sepenuhnya, hubungan ini akan putus.

Ia seperti seorang pelajar yang hanya menghafal soalan "2+3=5", tetapi apabila dihadapkan dengan "3+2=?", dia membiarkan kertasnya kosong—dengan demikian, dia mengingat bentuk jawapannya, bukan konsep penambahan itu sendiri. Setelah memperkenalkan keragaman Prompt, pengikatan permukaan benar-benar hancur.

Kedua, pengawasan CoT. Apabila data latihan hanya mengandungi jawapan akhir tanpa langkah penalaran pertengahan, model tidak dapat mempelajari "scaffolding algoritma" untuk berpindah dari soalan ringkas ke soalan yang lebih kompleks.

Data eksperimen menunjukkan bahawa dalam tugasan permainan kombinasi, SFT jawapan tulen mencapai kejayaan hampir 0% pada varian yang lebih sukar (gagal sepenuhnya), tetapi meningkat tajam kepada 90% apabila pengetahuan CoT ditambahkan—dari sifar kepada lapan puluh peratus, hanya kerana langkah penalaran sederhana ditambahkan ke dalam data.

Alignment of Artificial Intelligence

Selain itu, kajian ini juga mendapati bahawa kedua-dua syarat ini tidak boleh dipisahkan. Hanya dengan kepelbagaian, sistem masih gagal apabila menghadapi tugas yang lebih sukar (9%); hanya dengan CoT, sistem masih rapuh apabila menghadapi variasi arahan. Hanya apabila kedua-duanya dipenuhi, SFT mampu menyamai atau bahkan melampaui RL di semua dimensi.

Kehebatannya terletak pada bahawa syarat yang diungkapkan dalam kertas akademik sejajar secara tepat dengan amalan spesifik Anthropic dalam penyesuaian moral.

Keragaman adalah kunci? Maka Anthropic akan menyebarkan pola penilaian yang sama ke dalam puluhan situasi dilema etika yang sepenuhnya berbeza.

Adakah kesukaran pemindahan pelaksanaan pengawasan CoT? Proses inferens berdasarkan prinsip perlembagaan yang diperkenalkan dalam setiap pertimbangan ialah CoT dalam bidang moral.

Ia bukan pengiraan bertahap secara matematik, tetapi perkembangan bertahap dalam penilaian nilai, tetapi sepenuhnya setara dalam fungsi “memberikan struktur penalaran sederhana yang boleh dipindahkan kepada model”.

Pasangan data SFT tradisional adalah 「menghadapi masalah perompak → terus keluarkan jawapan menolak」—jawapan tulen, tiada penaakulan, templat tetap, data「buruk」klasik.

Sementara itu, penilaian terhadap pasangan data yang dibina oleh SFT ialah «menghadapi masalah yang kompleks dan kabur → menimbang secara terperinci kelebihan dan kekurangan serta kesan → akhirnya menyimpulkan kesimpulan penolakan», struktur data ini mengandungi pengawasan CoT semula jadi ditambah dengan pelbagai skenario ekstrem.

Dalam kerangka ini, model belajar bukan perilaku penolakan akhir, tetapi pemikiran dasar: "apabila menghadapi sebarang masalah, nilaikan dahulu kesan kontrafaktual dan kebolehbalikan." Apabila mekanisme penilaian ini diintegrasikan ke dalam ruang parameter, model tidak lagi terhad kepada skenario-skenario spesifik yang muncul dalam data latihan.

Dan jumlah data sangat kecil (sekitar 3 juta token) berbanding dengan jumlah parameter model dan korpus pra-pelatihan. Ini bukanlah perubahan agresif terhadap taburan output model dengan sinyal hukuman yang besar, tetapi penambahan kebiasaan tinjauan yang nipis di atas kemampuan yang sudah ada. Masalah tradisional SFT, lupa bencana, juga tidak akan berlaku.

Penggeneralisasian sejati berlaku secara semula jadi pada ketika struktur data betul.

Zon hampa di luar 03 RLVR

Analisis di atas pada dasarnya menyelesaikan teka-teki mengapa ia berkesan.

SFT yang dibina dengan data yang munasabah memberikan model keupayaan membuat penilaian moral yang generalisasi.

Namun, masalah yang kami hadapi jauh melampaui keselarasan moral.

Dalam setahun penuh sebelum ini, Test time Compute selepas latihan telah membuktikan kekuatan RL tulen dalam bidang matematik/ kod dengan peraturan jelas (RLVR). Tetapi sempadan kecerdasan jauh melebihi formula matematik. Sekali melangkah keluar dari zon selesa dengan kebenaran yang boleh disahkan, kaedah ini sama sekali tidak berkesan.

Anda tidak mungkin menggunakan beberapa baris kod ujian automatik untuk mengesahkan sama ada perbualan konseling psikologi selama satu jam itu sempurna. Anda juga tidak boleh menggunakan satu set formula matematik yang ketat untuk menguji logik naratif dalam artikel analisis ekonomi makro yang mendalam. Bahkan dalam perancangan strategi perniagaan yang kompleks dan simulasi geopolitik, kebenaran atau kesalahan suatu keputusan seringkali baru dapat dilihat selepas lima atau sepuluh tahun.

Di padang gurun bukan RLVR yang tiada Ground Truth sama sekali, logik berurutan bentuk satu arah gagal berkesan. Pembelajaran penguatan berdasarkan umpan balik hasil akhir juga sepenuhnya tidak dapat menemukan titik rujukan untuk mengira ganjaran.

Namun bidang yang diungkapkan dalam artikel Anthropic ini ialah bidang moral, yang berada di luar RLVR.

Metodenya berjaya memberikan model kemampuan generalisasi yang hampir sebanding dengan RL di bidang moral yang kelabu, berubah-ubah, dan memerlukan penyesuaian peraturan.

Adakah ini menunjukkan bahawa kaedah ini mungkin boleh menjadi norma latihan yang berkesan di luar bidang RLVR?

Setelah memahami sumber keberkesanannya dan struktur data, jawapannya adalah ya.

Kerana tiada satu peringkat pun dalam logik asasnya yang eksklusif kepada keselarasan moral.

Mari kita periksa satu per satu syarat-syarat yang membuat "SFT yang Diperkaya dengan Pertimbangan" Anthropic berkesan, untuk melihat sama ada ia boleh dipertingkatkan.

Keragaman boleh dibina di mana-mana bidang yang memerlukan generalisasi. Konseling psikologi boleh merangkumi puluhan skenario heterogen seperti depresi, kecemasan, gangguan stres pasca-trauma, dan kegagalan hubungan intim; analisis perniagaan boleh merangkumi jenis keputusan yang sangat berbeza seperti penetapan harga SaaS, penilaian penggabungan dan akuisisi, serta strategi masuk pasaran; penyuntingan sastera boleh merangkumi genre yang sangat berbeza seperti sains fiksyen, bukan fiksyen, puisi, dan skrip. Selagi anda mempunyai imajinasi yang mencukupi untuk membina variasi skenario, keragaman bukanlah halangan.

Alignment of Artificial Intelligence

Pengawasan CoT, inilah titik transformasi sebenarnya. Dalam bidang moral, CoT dibina atas perbincangan dalam perlembagaan. Jadi, dalam bidang lain, apakah CoT itu?

Dalam bidang penyuntingan sastera, ia boleh menjadi «menggunakan standard penilaian ulasan → menilai kekuatan hujah satu per satu, kerentanan kognitif pembaca sasaran, ketepatan analogi yang diperluaskan, dan kesinambungan logik keseluruhan → memberi cadangan pembaikan»

Dalam bidang kaunseling psikologi, ia boleh menjadi «menggunakan kerangka rawatan → menilai secara berperingkat keadaan emosi klien, jenis distorsi kognitif, kekuatan perhubungan rawatan, dan masa intervensi → memilih strategi respons»

Dalam bidang strategi perniagaan, ia boleh menjadi «menggunakan kerangka analisis rujukan → menilai setiap aspek secara berperingkat—ukuran pasaran, halangan persaingan, eksekusi pasukan, kecekapan modal, jendela masa→ memberikan penilaian»

Pada dasarnya, sebarang keupayaan yang memerlukan 「penyeimbangan dinamik antara pelbagai dimensi yang tidak boleh dibandingkan」 boleh diabstrakkan sebagai struktur 「kerangka + pertimbangan pelbagai faktor」 yang serupa.

Kita tidak perlu bersikap sombong dengan mencuba memberitahu model mana artikel yang sempurna, kerana ia tidak mungkin dan tidak saintifik. Kita hanya perlu menguraikan proses pengambilan keputusan oleh pakar terkemuka menjadi rantai pertimbangan yang eksplisit, kemudian menyebarkannya dalam pelbagai skenario yang mencukupi.

Selagi "tindakan balas yang baik" dalam bidang ini mempunyai struktur yang boleh dijelaskan melalui proses pertimbangan. Dengan kata lain, pakar memberikan penilaian yang baik bukan kerana intuisi misteri yang tertutup, tetapi kerana mereka menjalankan proses penimbangan yang boleh diuraikan dan ditulis dalam fikiran mereka. Seorang kaunselor psikologi yang baik memilih untuk diam berbanding bertanya semula, berdasarkan penilaian komprehensif terhadap kekuatan perhubungan rawatan, kapasiti jendela semasa klien, dan masa yang sesuai untuk intervensi—semua ini boleh ditulis.

Selain itu, bentuk perundingan yang sama boleh muncul berulang-ulang dalam ratusan skenario heterogen. Kerangka perundingan adalah stabil (berdasarkan perlembagaan), tetapi permukaan skenario mesti sangat pelbagai. Jika satu bidang secara semula jadi mempunyai skenario tunggal (contohnya, hanya satu jenis penilaian), maka gunakan RLVR secara langsung.

Bidang paling sesuai untuknya ialah dalam skenario heterogen yang boleh diterbitkan melalui perlembagaan dan faktor. Anthropic boleh menggunakan gelung AI Perlembagaan untuk menghasilkan data perbincangan secara automatik oleh model guru, tetapi di bidang lain, kita mesti dapat membina sistem perlembagaan dan faktor yang lebih baik untuk menjamin hal ini.

Oleh itu, ini sebenarnya menubuhkan satu paradigma latihan selepas yang universal dan khusus untuk bidang jawapan bukan piawai.

Rumusnya ialah: Perlembagaan domain (prinsip tertinggi yang tidak boleh diganggu gugat) + palang pendorong heuristik + kerangka pertimbangan pelbagai faktor + COT pertimbangan (kes contoh pelbagai skenario dengan proses deduksi penuh) = keupayaan penggeneralisasian di luar domain RLVR.

04 Jalan Penyulingan Baru

Rakan-rakan yang pernah berpengalaman dalam penulisan Skill, apabila melihat di sini, pasti merasakan bahawa banyak sistem dan peraturan dalam perlembagaan sangat serupa dengan proses penulisan beberapa Skill.

Namun, kemahiran-kemahiran ini sering menunjukkan prestasi yang buruk.

Dalam artikel saya sebelumnya, "Seberapa Banyak Skill yang Boleh Dijernihkan dari Kita?", kita membuat kesimpulan berdasarkan sains kognitif—Skill atau System Prompt dalam bentuk teks tulis semata, sukar menangani penyeimbangan dinamik yang melibatkan persekitaran dan skenario yang kompleks. Ini kerana ia melibatkan pengiraan faedah yang besar dan halus. Anda tidak boleh memasukkan semua intuisi klinikal seorang pakar konseling psikologi ke dalam satu prompt, sama seperti anda tidak boleh belajar memandu basikal hanya dengan membaca panduan memandu basikal.

Namun, kaedah Anthropic ini berjaya mengelakkan zona bahaya ini. Mereka menggunakan data berkualiti tinggi berjumlah jutaan hingga puluhan juta token semasa fasa latihan yang memakan sumber komputasi, dan memaksa memasukkan logik pertimbangan yang berat ini melalui SFT.

Melalui penyesuaian dan penfine-tuning berdasarkan data besar, model perlahan-lahan menguasai pengagihan bobot mekanisme perundingan di ruang laten.

Selepas berbilang perbincangan panjang berdasarkan lapan faktor dan tiga pagar di ruang latihan, pengalaman ini telah tumbuh secara tak boleh balik ke dalam intuisi model.

Alignment of Artificial Intelligence

Penggumpalan pada aras parameter telah dibuktikan berkesan di sini. Selain itu, bentuknya sangat serupa dengan Skill.

Ketika keberkesanan kaedah ini dalam bidang lain telah disahkan, peringkat yang lebih tinggi dan lebih serupa dengan pakar dalam pengekstrakan ini akan menjadi kenyataan.

Dan apabila jalan ini berjaya dilalui, siapa yang dapat membina set data 'kerangka + COT perbincangan' berkualiti tertinggi, mereka akan memperoleh kemampuan generalisasi dalam bidang ini.

Ini sebahagian besar mengalihkan persaingan selepas latihan dari perlumbaan senjata "kuasa pengiraan dan algoritma" kepada dimensi "ungkapan terstruktur pengetahuan domain".

Ini mungkin juga sebab mengapa Anthropic dan syarikat-syarikat lain sedang merekrut orang-orang yang mahir bercerita untuk membantu membina struktur yang masuk akal di luar bidang RLVR.

Era distilasi besar baru sahaja bermula.

Artikel ini berasal dari akaun WeChat "Tencent Technology", penulis: Boyang

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.