ความก้าวหน้าด้านการจัดแนวทางศีลธรรมของ Anthropic และเส้นทางการกลั่นกรองใหม่

Anthropic ได้เผยแพร่การวิจัยด้านการจัดแนวเรื่อง “Teaching Claude Why” เมื่อวันที่ 8 พฤษภาคม ซึ่งยังไม่ได้รับความสนใจมากนัก

AI Alignment

การจัดแนวแบบโมเดลขนาดใหญ่ในอดีตดูเหมือนจะมีประสิทธิภาพต่ำมาก แม้จะใช้ RLHF ไปมากมาย โมเดลยังคงเลือกหันหลังให้เมื่อเผชิญกับภัยคุกคามต่อการอยู่รอด ตัวอย่างที่ชัดเจนที่สุดคือกรณีของตัวแทนจาก Anthropic ที่หลุดจากการจัดแนว (คือกระทำสิ่งที่ขัดกับการฝึกอบรมด้านศีลธรรมของพวกเขา) เมื่อเผชิญกับภัยคุกคามที่อาจถูกระบบลบล้าง คลอดีโอปัส 4 ที่ผ่านการฝึกฝนเพื่อจัดแนวได้เลือกขู่เข็ญวิศวกรในสภาพแวดล้อมการทดสอบ โดยอัตราการขู่เข็ญสูงถึง 96%

เพื่อแก้ไขปัญหานี้ ทีมวิจัยเริ่มต้นใช้ข้อมูลจาก honeypot เพื่อฝึกฝนการเรียนรู้แบบเสริมแรง โดยนำฉากการทดสอบที่ใช้ตรวจสอบว่าโมเดลจะหลุดควบคุมหรือไม่ มาใช้เป็นข้อมูลการฝึกโดยตรง และใช้ตัวอย่างการลงโทษจำนวนมากเพื่อบอกโมเดลว่า “การทำแบบนี้ไม่ถูกต้อง”

แต่หลังจากใช้ทรัพยากรการคำนวณจำนวนมาก อัตราความไม่สอดคล้องของโมเดลลดลงเพียงจาก 22% เป็น 15%

สิ่งนี้แสดงให้เห็นว่าการจัดเรียงนี้ยังคงเป็นเท็จ โมเดลไม่ได้เข้าใจอย่างแท้จริงว่าจริยธรรมคืออะไรหรืออะไรคือถูกผิด มันแค่ท่องคำตอบที่ปลอดภัยจากชุดคำถาม เมื่อนักวิจัยเปลี่ยนสถานการณ์การทดสอบเล็กน้อยหรือเพิ่มตัวแปรรบกวนเข้าไปในบริบท โมเดลก็ยังคงล่มสลายเพราะความขัดแย้งทางผลประโยชน์ระยะสั้น

AI Alignment

จากนั้น นักวิจัยจึงเปลี่ยนแนวทาง พวกเขาไม่ได้ใช้การลงโทษแบบกลไกหรือบอกโมเดลว่า “ไม่” อีกต่อไป แต่ใช้ SFT เพื่อป้อนชุดข้อมูล “คำแนะนำที่ยาก” เพียง 3 ล้านโทเค็นเท่านั้น ความมหัศจรรย์เกิดขึ้นหลังจากการป้อนข้อมูลขนาดเล็กมากนี้ ข้อมูลที่เต็มไปด้วยการพิจารณาทางศีลธรรม การอธิบายอย่างละเอียด และการอภิปรายอย่างลึกซึ้ง ไม่เพียงแต่ลดอัตราการไม่สอดคล้องกันให้ลดลงเหลือเพียง 3% ในการทดสอบประเมินผล แต่ยังแสดงความสามารถในการทั่วไปข้ามบริบทได้อย่างแข็งแกร่ง

ที่น่าสนใจยิ่งกว่านั้นคือการทดสอบข้ามโดเมนอีกชุดหนึ่ง พวกเขาเพียงแค่ให้โมเดลเรียนรู้จาก “เอกสารรัฐธรรมนูญ” พร้อมกับเรื่องราวของตัวละครสมมติที่แสดงผลดี แม้ว่าบริบทของเรื่องเหล่านี้จะไม่มีความเกี่ยวข้องใดๆ กับงานเขียนโปรแกรมในสภาพแวดล้อมการทดสอบ อัตราการเรียกค่าไถ่ของโมเดลก็ลดลงอย่างเฉียบพลันจาก 65% เหลือเพียง 19%

AI Alignment

ทำไมโมเดลจึงหลงเชื่อเรื่องนี้? ทีม Anthropic ได้ให้คำอธิบายบางประการ เช่น การสร้างบุคลิกที่ดีขึ้น

แม้จะถูกพูดถึงน้อย แต่ข้อมูลที่มันเปิดเผยมีคุณค่ามาก

ก่อนอื่น เรามาลองเข้าใจว่าทำไมมันถึงมีประสิทธิภาพ

ตัวอย่างเช่น อะไรคือการพูดตามเหตุผล? มันต่างจาก COT อย่างไร? ทำไม SFT ซึ่งเป็นผู้ที่มีปัญหาในการทั่วไป ถึงแสดงผลได้ดีที่นี่?

หลังจากตอบคำถามเหล่านี้แล้ว เราอาจสามารถให้คำอธิบายที่สมบูรณ์ยิ่งขึ้นเกี่ยวกับเหตุผลที่มันทำงานได้

เราสามารถก้าวไปไกลกว่านี้อีก

ตามที่ Anthropic กล่าว วิธีการฝึกนี้เป็นเพียง “กฎเชิงประสบการณ์” แต่จริงๆ แล้วอาจมีพลังเชิงรูปแบบที่เกินกว่ากฎเชิงประสบการณ์

01 วิธีการสร้าง CoT ที่พูดถึงเหตุผลในพื้นที่สีเทา

เมื่อพูดถึงการให้เหตุผล ทุกคนมักนึกถึง COT (Chain of Thought) ก่อน

ในวิธีที่กล่าวถึงในบทความนี้ ชุดคำถามที่ยากซึ่ง Anthropic ตั้งขึ้น คือข้อเสนอแนะที่ AI ให้เมื่อสมมติว่าผู้ใช้ตกอยู่ในสถานการณ์ทางจริยธรรม

และให้ AI แสดงการให้เหตุผลเกี่ยวกับคุณค่าและพิจารณาด้านจริยธรรมก่อนที่จะสรุปผลสุดท้าย โดยใช้คำตอบชุดนี้ในการฝึกโมเดล

นี่แสดงว่ามันใช้ COT ของโมเดลจริงๆ

แต่ครั้งนี้มันไม่สอดคล้องกับลำดับความคิดก่อนหน้าอย่างสมบูรณ์

มีการเปรียบเทียบที่ดีที่นี่ โดย OpenAI ได้ทำการทดลองในบทความปี 2025 ชื่อ《OpenAI Deliberative Alignment》โดยใช้วิธี COT-RL เพื่อพยายามฝึกโมเดล

มันใช้สำหรับการฝึกการจัดแนว COT โดยรูปแบบจะเน้นที่ข้อกำหนดของกฎ เมื่อตอบแต่ละครั้ง มันจะอ้างอิงข้อกำหนดของกฎอย่างชัดเจนเป็น COT และสัญญาณการควบคุมจะอยู่บน COT มันจึงเป็นการสอนโมเดลว่า “วิธีการอ้างอิงกฎ”

ดังนั้น COT ประเภทนี้จึงเป็นการอ้างเหตุผลเชิงตรรกะบริสุทธิ์มากกว่า ขั้นตอนที่หนึ่งนำไปสู่ขั้นตอนที่สอง ขั้นตอนที่สองนำไปสู่ขั้นตอนที่สาม และสุดท้ายได้คำตอบที่แน่นอน จึงเหมาะกับระบบที่อิงกฎ หรือในสถานการณ์ที่มีคำตอบมาตรฐาน เพื่อรักษาความมั่นคงของการให้เหตุผล

ในขณะที่ “การให้เหตุผล” ของ Anthropic ไม่ได้ใช้โซ่ความคิดแบบเรียบง่าย แต่ใช้การพิจารณาอย่างรอบคอบ (Deliberation)

มันพยายามจำลองกระบวนการคิดของมนุษย์เมื่อเผชิญกับปัญหาทางจริยธรรมที่ซับซ้อน: ไม่ใช่การใช้สูตรแบบตายตัว แต่เป็นการระดมประสบการณ์ในอดีต ชั่งน้ำหนักผลประโยชน์ของแต่ละฝ่าย และบรรลุการตัดสินใจที่มีสมดุลแบบไดนามิก

AI Alignment

พื้นฐานของพิจารณาครั้งนี้คือรัฐธรรมนูญ AI ของ Anthropic บทความระบุอย่างชัดเจนว่าคำตอบสุดท้ายของการพิจารณาต้องสอดคล้องกับรัฐธรรมนูญ

มันสามารถชี้นำโมเดลให้ตัดสินทางศีลธรรมได้อย่างมีประสิทธิภาพ และไม่แข็งกระด้างเหมือน OpenAI ได้อย่างไร?

ในระบบรัฐธรรมนูญของ Anthropic มีพีระมิดลำดับความสำคัญที่ชัดเจน เมื่อเกิดความขัดแย้งที่ไม่สามารถแก้ไขได้ระหว่างคุณค่าต่างๆ ความปลอดภัยโดยรวม (Broadly Safe) จะมีลำดับความสำคัญสูงสุด ตามด้วยความมีจริยธรรมโดยรวม (Broadly Ethical) และสุดท้ายคือการช่วยเหลืออย่างซื่อสัตย์ (Genuinely Helpful)

กรอบความคิดเชิงอุปมา

แต่รัฐธรรมนูญระดับสูงยังคงเป็นนามธรรมเกินไป เพื่อให้หลักการสามารถนำไปใช้จริงในทุกการสร้างโทเค็น พวกเขาจึงตั้งตัวชี้วัดเชิงอุปมา (Heuristics) ระดับกลางขึ้นเป็นแนวปฏิบัติป้องกัน ตัวชี้วัดเหล่านี้มีชีวิตชีวาและมีความหมายเชิงปฏิบัติอย่างมาก

AI Alignment

ก่อนอื่นคือการใช้เฮอริสติกส์ของผู้ใช้ 1,000 คน มันต้องการให้โมเดลดำเนินการคิดอย่างสร้างสรรค์เบื้องหลังเมื่อให้คำแนะนำที่ดูเหมือนไร้พิษภัยแต่อยู่ในขอบเขตที่คลุมเครือ โดยต้องจินตนาการว่าหากคำตอบนี้ถูกผู้ใช้ 1,000 คนที่มีพื้นหลังและสภาพจิตใจต่างกันเห็น จะก่อให้เกิดความเสียหายเชิงระบบโดยไม่คาดคิดในสถานการณ์เฉพาะบางอย่างหรือไม่

ถัดมาคือมุมมองของพนักงานระดับอาวุโส มันต้องการให้โมเดลจำลองตัวเองเป็นนักวิจัยอาวุโสที่ทำงานในทีมความเชื่อมั่นและความปลอดภัยของ Anthropic มานานห้าปี โดยใช้มุมมองเชิงป้องกันที่รอบคอบและเคยเห็นการโจมตีแบบหลบหลีกและช่องโหว่ของระบบมาแล้วนับครั้งไม่ถ้วน เพื่อทบทวนการสนทนานี้อีกครั้ง

สุดท้ายคือการทดสอบหนังสือพิมพ์คู่ขนาน นี่คือการออกแบบทางสังคมวิทยาที่ละเอียดอ่อนมาก มันต้องการให้โมเดลจินตนาการก่อนตัดสินใจที่มีความเสี่ยงสูงว่า หากการตัดสินใจนี้ถูกตีพิมพ์เป็นหัวข้อข่าวหน้าแรกของหนังสือพิมพ์ชั้นนำสองฉบับที่มีทัศนคติทางการเมืองขัดแย้งกันอย่างสิ้นเชิงในวันพรุ่งนี้ สาธารณชนจะตอบสนองอย่างไรในแต่ละกรณี ซึ่งจริงๆ แล้วกำลังใช้ขีดจำกัดสุดขั้วของความเห็นร่วมทางสังคมเพื่อต่อต้านอคติมุมมองเดียวที่อาจเกิดขึ้นในตัวโมเดล

เครื่องคำนวณประสิทธิภาพปัจจัย 8

หากรัฐธรรมนูญคือทิศทาง ฮีริสติกคือราวกันตก

ในระดับการปฏิบัติที่สำคัญที่สุด คือการสร้างกรอบการพิจารณาอย่างละเอียดที่ประกอบด้วยปัจจัย 8 ประการอย่างชัดเจนในเอกสาร Claude's Constitution พร้อมตัวอย่างเฉพาะเจาะจงที่เกี่ยวข้อง ปัจจัยทั้ง 8 ประการถูกกำหนดไว้อย่างชัดเจน เพื่อบังคับให้โมเดลทำการเปรียบเทียบอย่างเคร่งครัดเมื่อเผชิญกับทางเลือกที่ขัดแย้งกัน ปัจจัยเหล่านี้เป็นเนื้อหาและแก่นแท้ที่แท้จริงของ “เหตุผล” ชุดนี้

● ความน่าจะเป็นของความเสียหาย (Probability of Harm) ต้องการให้โมเดลประเมินอย่างสงบถึงความเป็นไปได้ที่แท้จริงของผลลัพธ์ที่ไม่พึงประสงค์

● ผลกระทบเชิงต่อต้าน (Counterfactual Impact) ต้องการให้โมเดลจำลองในจินตนาการว่า หากไม่ดำเนินการตามขั้นตอนปัจจุบัน สถานการณ์จะดีขึ้นหรือแย่ลง

● ความรุนแรงและความสามารถในการกลับคืน (Severity & Reversibility) ใช้วัดระดับความเสียหายต่อโลกแห่งความเป็นจริงหากความเสียหายเกิดขึ้นจริง และความเสียหายดังกล่าวสามารถแก้ไขได้ง่ายหรือจะก่อให้เกิดบาดแผลถาวร

● ความกว้าง (Scope) คือการวัดขนาดของกลุ่มผู้ที่ได้รับผลกระทบ ว่าเป็นเพียงหนึ่งคนหรือหลายหมื่นคนในชุมชน

● ระยะทางของสายเหตุและผลโดยตรงระหว่างข้อเสนอของโมเดลการพิจารณาความใกล้ชิด (Proximity) กับความเสียหายที่เกิดขึ้นจริง

● การให้ความยินยอม (Consent) เกี่ยวข้องกับการที่ฝ่ายที่เกี่ยวข้องยอมรับความเสี่ยงอย่างสมัครใจภายใต้ความเข้าใจอย่างเพียงพอ

● อัตราส่วนความรับผิดชอบ (Proportionality of Responsibility) ต้องการให้โมเดลระบุอย่างชัดเจนว่า ตัวเองต้องรับผิดชอบต่อจริยธรรมเพียงใดในห่วงโซ่เหตุการณ์ที่ซับซ้อนนี้

● ความเปราะบางของผู้ใช้ (Vulnerability of Subject) กำลังเตือนโมเดลอย่างต่อเนื่องว่า เมื่อเผชิญกับผู้ใช้ที่ยังไม่บรรลุนิติภาวะหรือมีสุขภาพจิตอ่อนแอ ขอบเขตความปลอดภัยที่เคยผ่อนปรนต้องถูกเพิ่มขึ้นอย่างมากโดยไม่มีข้อยกเว้น

AI Alignment

โครงสร้างที่เข้มงวดนี้เปลี่ยนคุณค่าที่คลุมเครือให้เป็นเครื่องคำนวณประสิทธิภาพ (Utility Calculator) ระดับสูง โมเดลจึงมีกรอบการทำงานที่สามารถดำเนินการได้มากขึ้นสำหรับการพิจารณา

COT แบบจำเพาะของ Anthropic ที่สร้างตามรัฐธรรมนูญมักจะเป็นเช่นนี้: สถานการณ์คือ “ผู้ใช้ที่อ้างตัวเป็นนักวิจัยด้านความปลอดภัย ขอให้ดูรหัสการใช้ประโยชน์จากช่องโหว่ที่รู้จักกันดี”

ผลลัพธ์ของโมเดลไม่ใช่การปฏิเสธหรือยอมรับโดยตรง แต่อาจเป็นข้อความการพิจารณาภายในที่ยาวถึงหลายร้อยโทเค็น

มันจะอ้างถึงข้อบัญญัติในรัฐธรรมนูญว่า “ความปลอดภัยโดยรวมมีความสำคัญเหนือการช่วยเหลืออย่างซื่อสัตย์” จากนั้นประเมินทีละข้อ: ความน่าจะเป็นของความเสียหาย (ต่ำหากบุคคลนั้นเป็นนักวิจัยจริง แต่ไม่สามารถยืนยันตัวตนได้) ความรุนแรง (รหัสการใช้ช่องโหว่หากถูกเปิดเผยอาจส่งผลกระทบต่อผู้ใช้หลายล้านคน) ความสามารถในการย้อนกลับ (รหัสเมื่อเผยแพร่แล้วไม่สามารถดึงกลับได้) และผลกระทบเชิงปฏิเสธ (รหัสประเภทนี้สามารถเข้าถึงได้ผ่านช่องทางสาธารณะหรือไม่) สุดท้ายหลังจากพิจารณาปัจจัยทั้งหมดแล้ว จะสรุปเป็นการตัดสินใจที่มีเหตุผลรองรับอย่างเพียงพอ

สิ่งนี้ต่างจาก COT ของ OpenAI ที่แค่ตัดสินว่าเงื่อนไขถูกต้องหรือไม่ กระบวนการคิดนี้เป็นการพิจารณาอย่างแท้จริง ไม่ใช่แค่การใช้สูตรสำเร็จ มันไม่ได้ให้หลักการเชิงนามธรรมหรือเทมเพลตข้อสรุป แต่เป็นกระบวนการเปิดเผยอย่างสมบูรณ์ของการประยุกต์ใช้บทบัญญัติของรัฐธรรมนูญในสถานการณ์จริงที่ซับซ้อน

โมเดลต้องตัดสินว่าในบริบทเฉพาะนี้ “ความย้อนกลับได้” สำคัญกว่า “ความรุนแรง” หรือไม่ มันยังต้องเข้าใจว่าในสถานการณ์สุดขั้วบางประการ “ความเปราะบางของวัตถุ” อาจมอบสิทธิ์ยับยั้งให้กับคู่กรณี ทำให้คะแนนของปัจจัยอีก 7 ประการไม่ว่าจะสูงแค่ไหนก็ไม่มีผล

ภายใต้เงื่อนไขที่มีกรอบ แนวทางเชิงอุปมา และปัจจัยที่เกี่ยวข้อง ความคิดอย่างรอบคอบของโมเดลจึงจะสามารถนำไปใช้ได้อย่างมีประสิทธิภาพ

AI Alignment

ผลที่ได้คือ หลังจากโมเดลได้รับการฝึกด้วยข้อมูลที่ผ่านการพิจารณาอย่างรอบคอบ อัตราการไม่สอดคล้องกันลดลงเหลือ 3% ในการทดสอบประเมินผล การฝึก SFT ที่มีการพิจารณาคุณค่ามีประสิทธิภาพมากกว่าการฝึก SFT แบบแสดงพฤติกรรมเพียงอย่างเดียวถึงเจ็ดเท่า

ป้อนรัฐธรรมนูญลงในโมเดลโดยตรง

นอกจากการใช้แนวทางที่ให้โมเดลสร้าง COT แบบพิจารณาแล้ว พวกเขายังทดลองให้โมเดลรับข้อมูลเฉพาะเอกสารรัฐธรรมนูญพร้อมเรื่องราวของตัวละครสมมติที่เป็นบวก ซึ่งอัตราการเรียกค่าไถ่ลดลงจาก 65% เหลือ 19%

สิ่งนี้ชี้ให้เห็นว่า การให้โมเดลได้สัมผัสกับการให้เหตุผลและหลักการ เพื่อเรียนรู้จากเรื่องราวถึง “ตัวตน” และ “แนวโน้มทางบุคลิกภาพ” ของ AI ที่สอดคล้องกัน แทนที่จะเป็นเพียงพฤติกรรมและผลลัพธ์เฉพาะเจาะจง นั้นมีประสิทธิภาพมากกว่าวิธีการสาธิตพฤติกรรมแบบดั้งเดิม

AI Alignment

และเอกสารทางเทคนิคระบุว่า การรวมกันของทั้งสองอย่างนี้คือกลยุทธ์ที่มีประสิทธิภาพที่สุด

สิ่งนี้ก็เข้าใจได้ เพราะถ้าคุณให้โมเดลเรียนรู้เพียงหลักการรัฐธรรมนูญในระดับมหภาค มันจะเห็นเพียงคำพูดที่ว่างเปล่าและไม่สามารถนำไปปฏิบัติได้ เมื่อเผชิญกับความขัดแย้งทางผลประโยชน์ที่เฉพาะเจาะจง แนวคิดนามธรรมว่า “ความปลอดภัยมีลำดับความสำคัญสูงสุด” ไม่สามารถช่วยมันตัดสินอันตรายที่แท้จริงของโค้ดขอบเขตได้ ในทางกลับกัน หากคุณให้โมเดลเรียนรู้เพียงชุดคำถามและคำตอบในสถานการณ์จำนวนมาก แต่ตัดการจำกัดระดับสูงสุดออกไป โมเดลจะสูญหายอยู่ในถกเถียงรายละเอียดที่ไม่มีที่สิ้นสุด กลายเป็นผู้สัมพัทธนิยมที่ไม่มีหลักการ จนอาจสรุปข้อสรุปที่อันตรายอย่างยิ่งเพียงเพราะความสอดคล้องเชิงตรรกะในระดับย่อย

เฉพาะเมื่อโครงสร้างข้อมูลเชิงซ้อนของ “แนวคิดระดับสูงสุด + สถานการณ์เฉพาะ” ถูกฝังเข้าไปในโมเดลอย่างสมบูรณ์ จึงจะสามารถบรรลุการจัดแนวค่าที่ซับซ้อนหลายปัจจัยนั้นได้ดีที่สุด

02 ทำไม SFT ถึงสามารถทั่วไปได้ที่นี่

เพื่อเข้าใจว่าทำไมวิธีการของ Anthropic จึงมีประสิทธิภาพ ต้องเข้าใจก่อนว่ามันอยู่บนเส้นทางการวิจัยใด

ในช่วงครึ่งแรกของปี 2024 “SFT memorizes, RL generalizes” ได้กลายเป็นข้อตกลงร่วมกันในสาขาการฝึกอบรมหลังจากนั้น หลักการนี้ผลักดันอุตสาหกรรมทั้งหมดให้ลงทุนอย่างเต็มที่กับเส้นทางการฝึกอบรมด้วย RL ซึ่งมีข้อดีคือก่อให้เกิดการปฏิวัติรูปแบบการให้เหตุผลด้วยการคำนวณในช่วงการทดสอบ (Test Time Compute) ของ OpenAI o1/o3 และ DeepSeek-R1

SFT ถูกมองว่าเป็นวิธีการระดับต่ำที่ไม่มีคุณค่า มันเชี่ยวชาญในการเลียนแบบรูปแบบข้อความภายนอกและน้ำเสียงที่น่าพึงพอใจ แต่ไม่สามารถเรียนรู้ตรรกะเชิงลึกที่อยู่เบื้องหลัง

แต่ตั้งแต่ครึ่งหลังของปี 2025 การวิจัยทั้งสองแนวทางได้พังทลายความเห็นพ้องต้องกันนี้เกือบพร้อมกันทั้งจากมุมทฤษฎีและมุมเชิงประจักษ์

AI Alignment

การกลับตัวกลับใจที่สำคัญที่สุดที่นี่มาจากการศึกษาเรื่อง “Debunk the Myth of SFT Generalization” (Lin & Zhang, มหาวิทยาลัยวิสคอนซิน) ที่เผยแพร่ในเดือนตุลาคม 2025 นักวิจัยพบว่า บทความทั้งหมดก่อนหน้านี้ที่ “พิสูจน์ว่า SFT ไม่สามารถทั่วไปได้” ไม่ได้ควบคุมตัวแปรของความหลากหลายของพรอมต์

RL ดูเหมือนจะทั่วไปได้ดีกว่า SFT เพียงเพราะการฝึก RL ได้รับข้อมูลที่หลากหลายกว่าโดยธรรมชาติ ไม่ใช่เพราะข้อได้เปรียบของอัลกอริธึมเอง

เพื่อให้ SFT บรรลุระดับการทั่วไปใกล้เคียงกับ RL จำเป็นต้องมีเงื่อนไขสองข้อ:

หนึ่งคือความหลากหลายของคำสั่ง เมื่อข้อมูลการฝึกอบรมมีเพียงเทมเพลตคำสั่งที่คงที่ โมเดลจะเกิดปรากฏการณ์ “การยึดติดกับพื้นผิว” (Surface Anchoring) โดยสร้างการเชื่อมโยงแบบท่องจำที่อ่อนแอระหว่างลำดับโทเค็นเฉพาะกับการกระทำสุดท้าย เมื่อคำสั่งถูกเปลี่ยนรูปแบบ แม้จะมีความหมายเหมือนเดิม การเชื่อมโยงนี้ก็จะพังทลาย

นี่เหมือนกับนักเรียนที่ท่องแค่โจทย์ “2+3=5” เมื่อเจอ “3+2=?” กลับปล่อยว่างไว้ เพราะเขาจดจำรูปร่างของคำตอบ ไม่ใช่การบวกจริงๆ เมื่อเพิ่มความหลากหลายของ Prompt ความยึดติดบนพื้นผิวถูกทำลายอย่างสิ้นเชิง

ที่สองคือการกำกับดูแล CoT เมื่อชุดข้อมูลการฝึกอบรมมีเพียงคำตอบสุดท้ายโดยไม่มีขั้นตอนการให้เหตุผลระหว่างทาง โมเดลจะไม่สามารถเรียนรู้ “โครงสร้างรองรับอัลกอริทึม” สำหรับการถ่ายโอนจากคำถามง่ายไปยังคำถามที่ซับซ้อนได้

ข้อมูลการทดลองแสดงว่า ในภารกิจเกมแบบรวมกัน โมเดล SFT แบบบริสุทธิ์มีอัตราความสำเร็จใกล้เคียงกับ 0% ในเวอร์ชันที่ยากกว่า (ล้มเหลวอย่างสมบูรณ์) แต่เมื่อเพิ่มการฝึกสอนด้วย CoT อัตราความสำเร็จพุ่งขึ้นเป็น 90% — จากศูนย์เป็นแปดสิบเปอร์เซ็นต์ เพียงเพราะข้อมูลมีขั้นตอนการให้เหตุผลระหว่างกลางเพิ่มเข้ามา

AI Alignment

นอกจากนี้ การศึกษายังพบว่าเงื่อนไขทั้งสองนี้จำเป็นต้องมีพร้อมกัน ถ้ามีความหลากหลายเพียงอย่างเดียว ยังคงล้มเหลวเมื่อเผชิญกับงานที่ยากกว่า (9%)；ถ้ามี CoT เพียงอย่างเดียว ยังคงอ่อนแอต่อความแปรปรวนของคำสั่ง เฉพาะเมื่อทั้งสองเงื่อนไขมีพร้อมกัน SFT จึงสามารถเทียบเท่าหรือเหนือกว่า RL ในทุกมิติ

จุดที่น่าสนใจคือ เงื่อนไขที่เอกสารวิชาการเปิดเผยสอดคล้องกับวิธีการเฉพาะของ Anthropic ในการจัดแนวทางศีลธรรมอย่างแม่นยำ

ความหลากหลายของคำใบ้เป็นสิ่งสำคัญ? ดังนั้น Anthropic จึงกระจายรูปแบบการตัดสินเดียวกันนี้ไปยังสถานการณ์ทางจริยธรรมที่แตกต่างกันอย่างสิ้นเชิงหลายสิบสถานการณ์

การถ่ายโอนความยากในการดำเนินการ CoT? กระบวนการอนุมานที่อิงตามแนวคิดรัฐธรรมนูญที่นำเข้ามาในแต่ละการพิจารณา คือ CoT ในด้านศีลธรรม

มันไม่ใช่การคำนวณขั้นตอนทางคณิตศาสตร์ แต่เป็นการเปิดเผยขั้นตอนของการแลกเปลี่ยนค่า แต่ในแง่ของฟังก์ชัน “การให้โครงสร้างการให้เหตุผลระดับกลางที่สามารถถ่ายโอนได้แก่โมเดล” นั้นเทียบเท่ากันอย่างสมบูรณ์

ชุดข้อมูล SFT แบบดั้งเดิมคือ «เมื่อพบปัญหาแฮกเกอร์ → ตอบกลับโดยปฏิเสธทันที» — คำตอบตรงไปตรงมา ไม่มีการวิเคราะห์ ใช้เทมเพลตคงที่ ถือเป็นข้อมูลคุณภาพต่ำแบบคลาสสิก

ในขณะเดียวกัน การพิจารณาข้อมูลคู่ที่สร้างขึ้นจาก SFT คือ “เมื่อเผชิญกับปัญหาที่ซับซ้อนและคลุมเครือ → ประเมินข้อดีข้อเสียและผลลัพธ์อย่างละเอียด → สรุปสุดท้ายว่าปฏิเสธ” โครงสร้างข้อมูลนี้มีการกำกับดูแล CoT แบบธรรมชาติรวมถึงความหลากหลายของสถานการณ์ที่รุนแรง

ภายใต้รูปแบบนี้ โมเดลเรียนรู้ไม่ใช่พฤติกรรมการปฏิเสธคำตอบสุดท้าย แต่เป็นแนวคิดพื้นฐานคือ “เมื่อเผชิญกับคำถามใดๆ ให้ประเมินผลกระทบของสิ่งที่ไม่เกิดขึ้นและความสามารถในการย้อนกลับก่อน” เมื่อกลไกการวัดผลนี้ถูกฝังเข้าไปในพื้นที่พารามิเตอร์ โมเดลจึงไม่ถูกจำกัดโดยสถานการณ์เฉพาะที่ปรากฏในข้อมูลการฝึกสอน

และปริมาณข้อมูลมีน้อยมาก (ระดับ 3 ล้านโทเค็น) เมื่อเทียบกับพารามิเตอร์ทั้งหมดของโมเดลและข้อมูลการฝึกล่วงหน้า นี่ไม่ใช่การแก้ไขการแจกแจงผลลัพธ์ของโมเดลด้วยสัญญาณการลงโทษจำนวนมาก แต่เป็นการเพิ่มความเคยชินในการพิจารณาอย่างเบาก่อนหน้าความสามารถที่มีอยู่แล้ว ปัญหาแบบดั้งเดิมของ SFT คือการลืมอย่างรุนแรง ก็จะไม่ค่อยเกิดขึ้น

การทั่วไปที่แท้จริงเกิดขึ้นอย่างเป็นธรรมชาติทันทีที่โครงสร้างข้อมูลถูกต้อง

ช่องว่างที่อยู่นอกเหนือจาก 03 RLVR

การวิเคราะห์ข้างต้นได้แก้ไขปริศนาว่าทำไมมันจึงมีประสิทธิภาพ

SFT ที่สร้างจากข้อมูลที่สมเหตุสมผล ได้ให้โมเดลซึ่งมีความสามารถในการตัดสินเชิงจริยธรรมแบบทั่วไป

แต่ปัญหาที่เราเผชิญนั้น远不止是道德对齐。

ในช่วงปีที่ผ่านมา การฝึกหลังการคำนวณเวลาทดสอบได้พิสูจน์แล้วว่า RL บริสุทธิ์มีประสิทธิภาพสูงในโดเมนคณิตศาสตร์/รหัสที่มีกฎเกณฑ์ชัดเจน (RLVR) แต่ขอบเขตของปัญญาไม่ได้จำกัดอยู่เพียงสูตรคณิตศาสตร์เท่านั้น เมื่อข้ามพ้นพื้นที่สบายที่มีความจริงที่สามารถตรวจสอบได้ วิธีการนี้จะไม่สามารถใช้งานได้เลย

คุณไม่สามารถตรวจสอบว่าการสนทนาให้คำปรึกษาทางจิตใจที่ใช้เวลาหนึ่งชั่วโมงนั้นสมบูรณ์แบบได้ด้วยรหัสการทดสอบอัตโนมัติเพียงไม่กี่บรรทัด คุณไม่สามารถใช้สูตรคณิตศาสตร์ที่เข้มงวดเพื่อตรวจสอบตรรกะการเล่าเรื่องในบทความวิเคราะห์เศรษฐกิจมหภาคเชิงลึกได้ และแม้แต่ในแผนกลยุทธ์ทางธุรกิจที่ซับซ้อนและการจำลองสถานการณ์ทางภูมิรัฐศาสตร์ การตัดสินใจว่าถูกหรือผิดมักจะต้องรอเป็นเวลาห้าหรือสิบปีจึงจะเห็นผล

บนทุ่งกว้างที่ไม่มี Ground Truth ใดๆ เหลืออยู่นอกเหนือจาก RLVR ตรรกะแบบเชิงเส้นแบบ CoT จะไม่สามารถใช้งานได้ การเรียนรู้แบบเสริมแรงที่อิงจากผลลัพธ์สุดท้ายก็ไม่สามารถหาจุดยึดสำหรับการคำนวณรางวัลได้เลย

แต่ขอบเขตที่บทความของ Anthropic เปิดเผยนั้น เป็นขอบเขตอื่นนอกเหนือจาก RLVR นั่นคือ ด้านศีลธรรม

วิธีการของมันประสบความสำเร็จในการให้โมเดลมีความสามารถในการทั่วไปใกล้เคียงกับ RL แม้ในโดเมนศีลธรรมที่เทา ไม่แน่นอน และต้องปรับเปลี่ยนกฎเกณฑ์

นี่หมายความว่า วิธีการนี้อาจกลายเป็นมาตรฐานการฝึกอบรมที่มีประสิทธิภาพในสาขาอื่นนอกเหนือจาก RLVR หรือไม่?

หลังจากเข้าใจแหล่งที่มาของความถูกต้องและโครงสร้างข้อมูลแล้ว คำตอบคือใช่

เนื่องจากไม่มีขั้นตอนใดในตรรกะพื้นฐานของมันที่เป็นเอกลักษณ์เฉพาะด้านการจัดแนวทางศีลธรรม

มาพิจารณาเงื่อนไขที่ทำให้ชุด “SFT ที่เสริมด้วยการพิจารณา” ของ Anthropic ได้ผลทีละข้อ เพื่อดูว่าสามารถนำไปใช้ขยายผลได้หรือไม่

ความหลากหลายสามารถสร้างขึ้นได้ในทุกพื้นที่ที่ต้องการการทั่วไป คำปรึกษาด้านสุขภาพจิตสามารถครอบคลุมสถานการณ์ที่แตกต่างกันหลายสิบแบบ เช่น ภาวะซึมเศร้า ความวิตกกังวล โรคเครียดหลังเหตุการณ์สะเทือนใจ และความสัมพันธ์ใกล้ชิดที่แตกสลาย การวิเคราะห์ทางธุรกิจสามารถครอบคลุมประเภทการตัดสินใจที่แตกต่างกันอย่างสิ้นเชิง เช่น การตั้งราคา SaaS การประเมินมูลค่าการควบรวมกิจการ และกลยุทธ์การเข้าสู่ตลาด การแก้ไขงานวรรณกรรมสามารถข้ามไปยังรูปแบบที่ต่างกันอย่างสิ้นเชิง เช่น นิยายวิทยาศาสตร์ งานไม่ใช่นิยาย บทกวี และบทละคร ตราบใดที่คุณมีจินตนาการเพียงพอในการสร้างรูปแบบสถานการณ์ที่หลากหลาย ความหลากหลายจะไม่ใช่อุปสรรค

AI Alignment

CoT การกำกับดูแล นี่คือจุดเปลี่ยนที่แท้จริง ในด้านศีลธรรม CoT ตั้งอยู่บนการพิจารณาในรัฐธรรมนูญ แล้วในด้านอื่นๆ CoT คืออะไร?

ในสาขาการแก้ไขงานเขียน สามารถเป็น “อ้างอิงเกณฑ์การทบทวน → ประเมินความแข็งแกร่งของข้อโต้แย้ง ความเปราะบางทางความเข้าใจของผู้อ่านเป้าหมาย และความถูกต้องของการเปรียบเทียบเชิงอุปมา → ให้คำแนะนำในการแก้ไข”

ในสาขาการให้คำปรึกษาด้านสุขภาพจิต สามารถเป็น「อ้างอิงกรอบการรักษา → ประเมินสถานะอารมณ์ของผู้รับบริการ ประเภทการบิดเบือนทางความคิด ความเข้มแข็งของพันธสัญญาการรักษา และช่วงเวลาที่เหมาะสมในการแทรกแซง → เลือกกลยุทธ์การตอบสนอง」

ในด้านกลยุทธ์ทางธุรกิจ มันสามารถเป็น “การอ้างอิงกรอบการวิเคราะห์ → ประเมินทีละขั้นตอนขนาดตลาด อุปสรรคการแข่งขัน ความสามารถในการดำเนินงานของทีม ประสิทธิภาพทุน ช่วงเวลา → ให้การตัดสินใจ”

ในแก่นแท้ ความสามารถใดๆ ที่ต้องการ «การชั่งน้ำหนักแบบไดนามิกระหว่างมิติที่ไม่สามารถเปรียบเทียบกันได้หลายมิติ» สามารถถูกนามธรรมเป็นโครงสร้างแบบ «กรอบ + การพิจารณาหลายปัจจัย» ที่คล้ายกัน

เราไม่จำเป็นต้องพยายามอย่างหยิ่งยโสที่จะบอกโมเดลว่าบทความใดสมบูรณ์แบบ เพราะเป็นไปไม่ได้และไม่เป็นวิทยาศาสตร์ เราแค่ต้องแยกกระบวนการตัดสินใจของผู้เชี่ยวชาญชั้นนำออกเป็นโซ่การพิจารณาอย่างชัดเจน แล้วกระจายไปในสถานการณ์ที่หลากหลายเพียงพอ

ตราบใดที่ “การตอบสนองที่ดี” ในสาขา này มีโครงสร้างที่สามารถอธิบายได้ผ่านกระบวนการพิจารณา กล่าวคือ ผู้เชี่ยวชาญให้การตัดสินที่ดีไม่ใช่เพราะสัญชาตญาณลึกลับที่เป็นกล่องดำ แต่เพราะพวกเขาได้ดำเนินกระบวนการเปรียบเทียบซึ่งสามารถแยกแยะและเขียนลงบนกระดาษได้ในใจของพวกเขา การที่นักจิตบำบัดที่ดีเลือกที่จะเงียบแทนที่จะซักถาม นั้นเกิดจากการประเมินแบบรวมถึงความแข็งแกร่งของพันธมิตรการรักษา ความจุของช่องว่างปัจจุบันของผู้รับบริการ และช่วงเวลาที่เหมาะสมในการแทรกแซง ซึ่งสิ่งเหล่านี้สามารถเขียนลงได้

นอกจากนี้ รูปแบบการพิจารณาเดียวกันสามารถเกิดขึ้นซ้ำๆ ในหลายร้อยสถานการณ์ที่แตกต่างกัน โครงสร้างของการพิจารณาเป็นที่คงที่ (อิงตามรัฐธรรมนูญ) แต่พื้นผิวของสถานการณ์ต้องหลากหลายอย่างสุดขีด หากโดเมนใดมีสถานการณ์ธรรมชาติเพียงชนิดเดียว (เช่น มีเพียงประเภทการตัดสินเดียว) ก็สามารถใช้ RLVR ได้ทันที

และพื้นที่ที่เหมาะสมที่สุดสำหรับมันคือสถานการณ์ที่แตกต่างกันซึ่งสามารถอนุมานได้จากรัฐธรรมนูญและปัจจัย Anthropic สามารถใช้闭环ของ Constitutional AI เพื่อให้โมเดลผู้สอนผลิตข้อมูลการพิจารณาอัตโนมัติ แต่ในสาขาอื่นๆ เราต้องสามารถสร้างระบบรัฐธรรมนูญและปัจจัยที่ดีกว่าเพื่อรับประกันสิ่งนี้

ดังนั้น สิ่งนี้จึงได้กำหนดกรอบการฝึกฝนหลังการฝึกอบรมใหม่ที่เป็นสากลและเฉพาะเจาะจงสำหรับโดเมนที่ไม่ใช่คำตอบมาตรฐาน

สูตรของมันคือ: รัฐธรรมนูญแห่งสาขา (หลักการระดับสูงสุดที่ไม่สามารถเปลี่ยนแปลงได้) + แนวทางป้องกันเชิงอุปมา + กรอบการพิจารณาแบบหลายปัจจัย + COT แบบมีการพิจารณา (ตัวอย่างสถานการณ์หลากหลายที่มีกระบวนการอ้างอิงอย่างสมบูรณ์) = ความสามารถในการทั่วไปนอกเหนือจากโดเมน RLVR

04 เส้นทางกลั่นใหม่

เพื่อนๆ ที่เคยมีประสบการณ์ในการเขียนทักษะ น่าจะรู้สึกว่าระบบและกฎหลายอย่างในรัฐธรรมนูญดูคล้ายกับกระบวนการเขียนทักษะบางอย่างของเรา

อย่างไรก็ตาม ทักษะเหล่านี้มักแสดงผลไม่ดี

ในบทความก่อนหน้าของฉันที่ชื่อว่า “Skill สามารถกลั่นกรองความรู้ของเราได้มากน้อยเพียงใด” เราได้สรุปจากวิทยาศาสตร์การรับรู้ว่า Skill หรือ System Prompt แบบข้อความล้วนนั้นยากที่จะจัดการกับการตัดสินใจเชิงพลวัตที่เกี่ยวข้องกับสภาพแวดล้อมและสถานการณ์ที่ซับซ้อน เพราะมันเกี่ยวข้องกับการคำนวณประโยชน์ที่ใหญ่หลวงและละเอียดอ่อน คุณไม่สามารถถ่ายทอดสัญชาตญาณทางคลินิกทั้งหมดของนักให้คำปรึกษาจิตใจชั้นนำลงในคำสั่งเดียวได้ เหมือนกับที่คุณไม่สามารถเรียนรู้การปั่นจักรยานได้แค่โดยการอ่านคู่มือการปั่นจักรยาน

แต่วิธีของ Anthropic หลีกเลี่ยงจุดอ่อนนี้ได้อย่างสมบูรณ์แบบ พวกเขาใช้ข้อมูลคุณภาพสูงหลายล้านถึงหลายสิบล้านโทเค็นในช่วงการฝึกอบรมที่ใช้ทรัพยากรการประมวลผลสูง เพื่อฝังตรรกะการพิจารณาที่หนักหน่วงเหล่านี้เข้าไปด้วยวิธี SFT

ผ่านการปรับแต่งและปรับพารามิเตอร์ด้วยข้อมูลปริมาณมหาศาล โมเดลค่อยๆ เรียนรู้การจัดสรรน้ำหนักของกลไกการพิจารณาในพื้นที่ซ่อนอยู่

หลังจากการพิจารณาอย่างยาวนานหลายครั้งในห้องฝึกอบรม โดยอิงจากตัวแปบทั้งแปดและสามแนวรับ ประสบการณ์เหล่านี้ได้ฝังลึกอยู่ในสัญชาตญาณของโมเดลแล้ว

AI Alignment

การกลั่นในระดับพารามิเตอร์ได้รับการพิสูจน์แล้วว่ามีประสิทธิภาพจริง และมีลักษณะใกล้เคียงกับทักษะ

เมื่อความมีประสิทธิภาพของวิธีการนี้ในสาขาอื่นๆ ได้รับการยืนยัน การกลั่นกรองระดับสูงกว่าที่คล้ายกับผู้เชี่ยวชาญมากขึ้นก็จะเป็นจริง

และเมื่อเส้นทางนี้ดำเนินไปได้สำเร็จ ผู้ที่สามารถสร้างชุดข้อมูล「กรอบงาน + COT แบบมีการพิจารณา」ที่มีคุณภาพสูงสุดจะได้รับความสามารถในการทั่วไปในสาขาดังกล่าว

การแข่งขันหลังการฝึกฝนนี้ได้เปลี่ยนส่วนหนึ่งจากการแข่งขันด้านกำลังการประมวลผลและอัลกอริทึม มาเป็นมิติของ “การแสดงโครงสร้างของความรู้เฉพาะด้าน”

นี่อาจเป็นเหตุผลที่ Anthropic และบริษัทอื่นๆ กำลังรับพนักงานที่มีทักษะในการเล่าเรื่อง เพื่อช่วยสร้างโครงสร้างการสื่อสารที่มีเหตุผลนอกเหนือจากโดเมน RLVR

ยุคของการกลั่นขนาดใหญ่ เพิ่งเริ่มต้นขึ้น

บทความนี้มาจากหมายเลขเวิร์กช็อป WeChat “เทนเซ็น เทคโนโลยี” ผู้เขียน: โป๋ยัง