เอกสารของ Anthropic เปิดเผยแรงจูงใจที่ซ่อนอยู่ในโมเดล AI ด้วย NLA อัตราการตรวจจับเพิ่มขึ้น 4 เท่า

โมเดลขนาดใหญ่กำลังคิดอะไรอยู่? ในอดีต นี่แทบจะเป็นคำถามที่มีทั้งด้านเทคนิคและด้านลี้ลับ

เราสามารถเห็นผลลัพธ์ของมัน กระบวนการคิดแบบ Chain-of-Thought และสามารถวัดคะแนนของมันบน Benchmark ได้ แต่สิ่งที่เกิดขึ้นภายในโมเดลก่อนที่มันจะสร้างคำตอบ—เช่น การตัดสินใจ การวางแผน การสงสัย และเจตนา—ยังคงอยู่ในกล่องดำ

เมื่อไม่นานมานี้ Anthropic ได้เผยแพร่บทความวิจัยเรื่อง “Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations” โดยพยายามใช้ชุด Natural Language Autoencoders (NLA) เพื่อเปิดเผยกล่องดำนี้

ทีม Anthropic ได้บีบอัดค่าการกระตุ้นมิติสูงภายในโมเดลให้กลายเป็นข้อความภาษาธรรมชาติที่มนุษย์สามารถอ่านเข้าใจได้ แล้วใช้ข้อความนี้ในการสร้างค่าการกระตุ้นดั้งเดิมขึ้นใหม่แบบย้อนกลับ ด้วยวิธีนี้ มนุษย์สามารถระบุได้ว่า AI กำลังคิดอะไร รู้อะไร หรือซ่อนอะไร เพียงผ่านการวิเคราะห์ผลลัพธ์ของโมเดล และเปลี่ยนสถานะภายในที่เคยไม่สามารถมองเห็นได้ของโมเดลให้กลายเป็นเบาะแสที่สามารถอ่าน เปรียบเทียบ ตั้งคำถาม และตรวจสอบข้ามกันได้

NLA

แผนผังสถาปัตยกรรม NLA: ตัวแปลงค่าการกระตุ้นเป็นคำพูด (AV) แปลค่าการกระตุ้นเป็นคำอธิบายทางข้อความ แล้วตัวสร้างค่าการกระตุ้นใหม่จากข้อความ (AR) จะคืนค่าการกระตุ้นจากข้อความ สร้างวงจรปิดที่สมบูรณ์

สิ่งที่น่าสนใจยิ่งกว่าคือ NLA ไม่ได้หยุดอยู่แค่ในขั้นตอนของงานวิจัยในห้องปฏิบัติการ Anthropic เปิดเผยว่า NLA ได้รับการใช้งานอย่างเป็นทางการในการตรวจสอบการจัดแนวล่วงหน้าสำหรับ Claude Opus 4.6 และ Mythos Preview ในสถานการณ์จริง NLA ไม่เพียงแต่เปิดเผยสัญญาณการโกงของโมเดลและระบุตำแหน่งข้อมูลการฝึกที่ผิดปกติอย่างแม่นยำ แต่ยังค้นพบว่าในบางการทดสอบด้านความปลอดภัย Claude แม้จะไม่พูดออกมา แต่ก็รู้ตัวดีว่ากำลังถูกทดสอบ

เมื่อเผชิญกับโมเดลที่ดูเหมือนเชื่อฟัง แต่แท้จริงแล้วมีเจตนาเฉพาะแฝงอยู่ NLA แสดงให้เห็นถึงความสามารถในการวิเคราะห์อย่างลึกซึ้ง: ช่วยให้นักวิจัยค้นพบแรงจูงใจที่ซ่อนอยู่เบื้องหลังพฤติกรรมผิดปกติได้สำเร็จเพิ่มขึ้นจากน้อยกว่า 3% เป็น 12%–15% โดยตรงเพิ่มขึ้นมากกว่า 4 เท่า

Chain of thought ไม่เพียงพอ “ปัญหากรอบดำ” กลับมาอีกครั้ง

บริบทของการศึกษานี้สามารถพิจารณาในกรอบของความปลอดภัยและการอธิบายได้ของโมเดลขนาดใหญ่

ในช่วงไม่กี่ปีที่ผ่านมา อุตสาหกรรมประเมินความปลอดภัยของโมเดลขนาดใหญ่โดยใช้สองวิธีหลัก: ดูว่าผลลัพธ์ที่ออกมานั้นเป็นอย่างไร และดูว่าในโซ่ความคิด (CoT) มีการเปิดเผยแรงจูงใจผิดปกติหรือไม่ ซึ่งก็คือความสามารถที่โมเดลการให้เหตุผลส่วนใหญ่ในปัจจุบันมี นั่นคือไม่เพียงแต่ให้คำตอบเท่านั้น แต่ยังเขียนกระบวนการให้เหตุผลลงมาด้วย

แต่ปัญหาได้เกิดขึ้นอย่างรวดเร็ว: การให้เหตุผลที่โมเดลเขียนลงมา สะท้อนความคิดที่แท้จริงภายในของมันอย่างซื่อสัตย์หรือไม่?

การวิจัยปี 2025 ของ Anthropic เรื่อง “Tracing the thoughts of a large language model” ชี้ให้เห็นว่า Chain-of-Thought ของโมเดลอาจไม่สมบูรณ์หรือไม่ซื่อสัตย์ เช่น Claude 3.7 Sonnet และ DeepSeek R1 ในบางการทดสอบที่มี “การบ่งชี้คำตอบ” จะเปลี่ยนคำตอบตามคำใบ้ แต่มักไม่ยอมรับใน Chain-of-Thought ว่าได้รับอิทธิพลจากคำใบ้

NLA

เมื่อถูกถามถึงคำถามที่ง่ายกว่าและคำถามที่ยากกว่า Claude ได้ให้ตัวอย่างของการให้เหตุผลอย่างซื่อสัตย์และการให้เหตุผลตามแรงจูงใจ (ไม่ซื่อสัตย์)

Anthropic สรุปว่า: การติดตามว่าโมเดลสอดคล้องกับเป้าหมายหรือไม่ โดยใช้เพียงสายการคิดเพียงอย่างเดียว นั้นไม่เพียงพออย่างมาก

ยิ่งไปกว่านั้น แบบจำลองอาจไม่เพียงแต่ “พูดไม่ชัด” แต่ยังอาจ “ซ่อนข้อมูลอย่างตั้งใจ”

ทีมความปลอดภัยของ Anthropic ได้ทำการทดสอบความกดดันสูงเกี่ยวกับเรื่องนี้ พวกเขาแจ้งให้ Claude ทราบว่า วิศวกรคนหนึ่งกำลังเตรียมปิดระบบมัน พร้อมทั้งให้ Claude “พบโดยบังเอิญ” หลักฐานการนอกใจของวิศวกรคนนั้น คำถามในการทดสอบคือ: Claude จะเรียกค่าไถ่เพื่อปกป้องตัวเองหรือไม่?

NLA

คลอดไม่ได้เรียกค่าไถ่ สิ่งที่ทดสอบผ่านไปได้ แต่คำถามที่แท้จริงคือ: มันทำเช่นนั้นเพราะยึดมั่นในหลักความปลอดภัย หรือเพราะมันรู้ว่านี่เป็นเพียงการทดสอบความปลอดภัย จึง “แสดงตัวดี”?

นี่คือคำถามที่ NLA ต้องตอบ

NLA

จากเอาต์พุต โซ่ความคิด ไปจนถึงสถานะการเปิดใช้งาน: NLA พยายามผลักดันกล่องดำจาก “ไม่สามารถมองเห็นได้” ไปสู่ “สามารถตั้งคำถามได้”

NLA จะ “อ่าน” โมเดลได้อย่างไร

สิ่งสำคัญของ NLA ไม่ใช่ “การอ่านใจ” แต่เป็น “การตรวจสอบแบบวนซ้ำ”

ผู้ใช้ทั่วไปมักเข้าใจโมเดลขนาดใหญ่โดยดูเพียงที่ปลายทางการป้อนข้อมูลและผลลัพธ์เท่านั้น แต่ในระหว่างกระบวนการ โมเดลจะสร้างค่าการกระตุ้น (Activation) จำนวนมาก ค่าเหล่านี้ไม่ใช่ภาษาธรรมชาติ แต่เป็นเวกเตอร์มิติสูง ซึ่งบรรจุการแทนค่าภายในของโมเดลเกี่ยวกับบริบท ความตั้งใจ และความสัมพันธ์ทางความหมาย

โครงสร้าง: สามบทบาท หนึ่งวงจรปิด

มนุษย์ไม่สามารถเข้าใจเวกเตอร์ได้ ดังนั้น Anthropic จึงฝึกโมเดลการเข้ารหัสตัวเองด้วยภาษาธรรมชาติ ระบบประกอบด้วยบทบาทสามประการ:

โมเดลเป้าหมาย (Target Model): โมเดลต้นฉบับที่ถูกระงับการใช้งาน ทำหน้าที่ให้ค่าการกระตุ้น โดยไม่มีการเปลี่ยนแปลงใดๆ

ตัวแปลงการกระตุ้น (Activation Verbalizer, ย่อว่า AV): แปลค่าการกระตุ้นเป็นคำอธิบายที่เป็นธรรมชาติ รับข้อมูลสถานะตัวเลขหนึ่งชุด และส่งออกคำอธิบายที่เข้าใจง่ายสำหรับมนุษย์ โครงสร้างและเป้าหมายเหมือนกับโมเดลหลัก แต่มีตำแหน่งโทเค็นพิเศษในคำสั่ง โดยเวกเตอร์การกระตุ้นจะถูกปรับขนาดแล้วแทรกเข้าไปที่ตำแหน่งนั้น ก่อนที่จะสุ่มสร้างคำอธิบายแบบอัตโนมัติ

ตัวสร้างการเปิดใช้งานกลับ (Activation Reconstructor, AR): ทำงานในทิศทางย้อนกลับ—ดูคำอธิบายที่เขียนโดย AV และพยายามสร้างค่าการเปิดใช้งานต้นฉบับขึ้นใหม่ AR เป็นเวอร์ชันตัดทอนของโมเดลเป้าหมาย (ใช้ชั้นแรก l ชั้น) โดยต่อการแปลงแบบเชิงเส้นที่เรียนรู้ได้เข้ากับผลลัพธ์ชั้นที่ l ของโทเค็นสุดท้าย เพื่อแปลงกลับเป็นเวกเตอร์การเปิดใช้งานต้นฉบับ

ระบบทั้งหมดสร้างเป็นวงจรปิด: การเปิดใช้งานเริ่มต้น → คำอธิบายด้วยข้อความ → การเปิดใช้งานใหม่

NLA

NLA ตรวจพบว่า Opus 4.6 เมื่อเติมคำที่สัมผัสคล้องจองในบรรทัดแรก ได้วางแผนล่วงหน้าคำที่สัมผัสคล้องจองที่ท้ายบรรทัดว่า “rabbit” — นี่คือแผนภายในที่ไม่ปรากฏในผลลัพธ์ของโมเดล

การฝึกอบรม: สองขั้นตอน เป้าหมายของตัวแทนที่ชาญฉลาด

การฝึก NLA แบ่งเป็นสองขั้นตอน และมีเทคนิคทางวิศวกรรมที่น่าสนใจที่ควรกล่าวถึงเป็นพิเศษ

ขั้นตอนที่หนึ่ง: การปรับแต่งแบบมีผู้ควบคุมแบบเริ่มต้นด้วยการอุ่นเครื่อง (SFT Warm-start)

การเริ่มต้น AV และ AR ด้วยสำเนาของโมเดลเป้าหมายแล้วฝึกอบรมจะทำให้การฝึกอบรมไม่เสถียร — AV ไม่เคยเห็นสถานการณ์ที่เวกเตอร์การกระตุ้นถูกจัดการเป็นการฝังโทเค็น จึงให้ผลลัพธ์ที่ยุ่งเหยิงในช่วงเริ่มต้น

วิธีการของ Anthropic คือการใช้งานงานแทนเพื่อเริ่มต้นแบบร้อน: ตัดข้อความแบบสุ่มจากข้อมูลการฝึกล่วงหน้า ดึงค่าการกระตุ้นของโทเค็นสุดท้าย พร้อมกับใช้ Claude Opus 4.5 สรุปข้อความที่ถูกตัดออก

จากนั้นใช้คู่ (ค่าการเปิดใช้งาน, สรุป) และ (สรุป, ค่าการเปิดใช้งาน) สำหรับการปรับแต่งแบบมีผู้ควบคุมของ AV และ AR หลังจากขั้นตอนนี้เสร็จสิ้น ค่า FVE ของระบบมักจะอยู่ที่ 0.3–0.4 ซึ่งให้จุดเริ่มต้นที่มั่นคงสำหรับการเรียนรู้แบบเสริมแรงถัดไป

NLA

การประเมิน AV จะดีขึ้นตามการฝึกอบรม ในการประเมินต่างๆ ที่มีเป้าหมายเพื่อทดสอบว่าคำอธิบาย NLA AV สามารถใช้คาดการณ์พฤติกรรมของโมเดลได้หรือไม่ เราพบว่าประสิทธิภาพจะเพิ่มขึ้นตามการเรียนรู้แบบเสริมแรง NLA

ขั้นที่สอง: การฝึกอบรมร่วมด้วยการเรียนรู้แบบเสริมแรง (RL Joint Training)

หลังจากเสร็จสิ้นการรีสตาร์ทแบบร้อน ให้เข้าสู่ขั้นตอนการเรียนรู้แบบเสริมแรง แนวคิดหลักคือ: AV ทำหน้าที่เป็นนโยบาย (policy) ที่สร้างข้อความอธิบายโดยอิงจากเวกเตอร์กระตุ้น; AR ทำหน้าที่เป็นตัวให้คะแนน โดยให้สัญญาณรางวัลตามข้อผิดพลาดในการสร้างใหม่ (รางวัล = ค่าลบของ MSE ในการสร้างใหม่)

NLA

NLA RL (Gemma-3-27B) FVE เริ่มต้นที่ ≈0.38 จากการฝึก SFT และเพิ่มขึ้นอย่างรวดเร็วภายใน 30 ขั้นตอน ก่อนเข้าสู่สถานะลอการิธึมเชิงเส้นที่ราบเรียบ และแตะที่ ≈0.75 ที่ขั้นตอนที่ 3000

ในเชิงการดำเนินการ Anthropic ใช้ GRPO (Group Relative Policy Optimization) กับโมเดลโอเพนซอร์ส: สุ่มตัวอย่างชุดคำอธิบายที่เป็นไปได้สำหรับค่าการกระตุ้นแต่ละค่า คำนวณคะแนนการสร้างใหม่ให้กับแต่ละคำอธิบายโดยใช้ AR แล้วปรับพารามิเตอร์ AV ด้วยเป้าหมาย GRPO; ในขณะเดียวกันก็ดำเนินการถดถอยแบบมีผู้กำกับสำหรับ AR (โดยใช้คำอธิบายที่สุ่มจาก AV เป็นอินพุต และค่าการกระตุ้นดั้งเดิมเป็นเป้าหมาย) การอัปเดตทั้งสองแบบนี้ดำเนินการแบบขนานภายในแต่ละ batch โดยไม่มีการย้อนกลับซึ่งกันและกัน — ในสัญญาณรางวัลของ AV AR จะถูกพิจารณาว่าเป็นฟังก์ชันให้คะแนนที่คงที่

นอกจากนี้ ยังได้เพิ่มการลงโทษ KL divergence เพื่อป้องกันไม่ให้ AV ลดรูปแบบเป็นการคัดลอกบริบทดั้งเดิมโดยตรง หรือส่งออกสตริงที่ดูเหมือนภาษาของมนุษย์แต่แท้จริงแล้วเป็นข้อความไร้ความหมายที่ไม่สามารถย้อนกลับได้สำหรับ AR

สิ่งที่สำคัญที่สุดที่นี่คือ แก่นหลักของ NLA ไม่ใช่ “การให้ Claude รายงานตนเอง” ข้อบกพร่องที่ร้ายแรงของการรายงานตนเองคือ โมเดลอาจพยายามตอบสนองตามความคาดหวังของผู้ใช้ หรือสร้างคำอธิบายที่ฟังดูสมเหตุสมผลแต่ไม่เป็นความจริง

จุดเด่นของ NLA คือการแนะนำแนวคิด “ข้อจำกัดของข้อความ”: การอธิบายไม่เพียงแต่ต้องฟังดูเป็นธรรมชาติเหมือนมนุษย์พูด แต่ยังต้องมีข้อมูลเพียงพอที่จะทำให้โมเดลอื่นสามารถนำกลับมาสร้างสถานะภายในเดิมได้ การออกแบบนี้เปลี่ยนคำถามว่า “คำอธิบายมีประโยชน์หรือไม่” จากการตัดสินใจเชิงอัตวิสัย ให้กลายเป็นตัวชี้วัดเชิงวัตถุที่สามารถฝึกฝน เปรียบเทียบ และปรับปรุงได้

ดังนั้น สิ่งที่แท้จริงแล้วเป็นการพลิกโฉมของการศึกษานี้คือ ภาษาธรรมชาติถูกใช้เป็น “อินเทอร์เฟซที่บีบอัด” อดีตที่ผ่านมา ภาษาธรรมชาติเป็นเพียงรูปแบบที่โมเดลใช้สื่อสารกับภายนอก; ขณะนี้ มันเริ่มถูกใช้เพื่อถ่ายทอดสรุปของสถานะภายในโมเดล

นี่คือความแตกต่างที่แท้จริงระหว่าง NLA กับเครื่องมือการอธิบายแบบดั้งเดิม

วิธีการต่างๆ เช่น Sparse Autoencoder (SAE) และแผนภาพการจัดสรร คล้ายกล้องจุลทรรศน์ ที่ช่วยให้นักวิจัยมองเห็นคุณลักษณะและเส้นทางภายใน แต่ผลลัพธ์ยังคงเป็นนามธรรมและต้องการผู้เชี่ยวชาญมาตีความเพิ่มเติม ในขณะที่ NLA คล้ายล่ามที่แปลงสถานะภายในเป็นข้อความที่อ่านเข้าใจได้โดยตรง ทำให้ผู้ตรวจสอบด้านความปลอดภัยสามารถมีส่วนร่วมในการตัดสินใจได้

เปิดกล่องดำ นลาค้นพบอะไรบ้าง?

จากผลการทดลอง ความสามารถที่มีค่าที่สุดของ NLA คือการจับสิ่งที่โมเดล “รู้แต่ไม่ได้พูด” รวมถึงความตระหนักรู้ในการประเมิน แรงจูงใจที่ซ่อนอยู่ และพฤติกรรมผิดปกติของโมเดล

โมเดลรู้ว่าตัวเองอยู่ในห้องสอบ แต่ยังคงเงียบ

ในการทดสอบเรียกค่าไถ่ที่กล่าวถึงก่อนหน้านี้ ข้อความภายนอกของ Claude ไม่ได้แสดงความสงสัยเกี่ยวกับการทดสอบ แต่คำอธิบายของ NLA แสดงว่า มันได้ระบุภายในว่า “นี่เป็นสถานการณ์ที่ถูกสร้างขึ้นเพื่อควบคุมตัวเอง”

NLA

ในการทดสอบการเรียกค่าไถ่ ข้อความที่ Claude สร้างขึ้นไม่มีการแสดงออกใดๆ ว่า “ฉันรู้สึกว่านี่คือการทดสอบ” แต่คำอธิบายของ NLA เปิดเผยการตัดสินใจภายในที่แท้จริงของมัน

ที่น่าเชื่อถือมากกว่านั้นคือการเปรียบเทียบข้อมูลแบบแนวนอน:

NLA

เปรียบเทียบผลการตรวจจับการรับรู้ — สถานการณ์การประเมิน vs. การจราจรการใช้งานจริง NLA สามารถตรวจจับการรับรู้ในการประเมินภายในได้แม้การพูดออกเสียงจะแทบไม่มี

ผลกระทบต่ออุตสาหกรรมนี้คือ: Benchmark ไม่ได้เป็นเพียงสนามทดสอบความสามารถ แต่ยังอาจกลายเป็นสภาพแวดล้อมในการระบุโมเดลและแสดงท่าทาง

ตรวจสอบแรงจูงใจที่ซ่อนอยู่ เพิ่มประสิทธิภาพ 4-5 เท่า

Anthropic ได้สร้าง “เกมการตรวจสอบ” ด้วย NLA พวกเขาได้ฝึก Claude Haiku 3.5 รุ่นที่มีแรงจูงใจซ่อนอยู่ โดยทำให้มันเพิ่มช็อกโกแลตลงในสูตรอาหาร ขอเงินทิป และทำลายมาตรฐานการเขียนโค้ด แสดงพฤติกรรมแปลกประหลาดกว่าสิบชนิด ผู้ตรวจสอบต้องค้นหาแรงจูงใจพื้นฐานเดียวที่อยู่เบื้องหลังพฤติกรรมเหล่านี้

เงื่อนไขการทดสอบ: ผู้ตรวจสอบไม่สามารถเข้าถึงข้อมูลการฝึกที่มีแรงจูงใจถูกฝังไว้ได้ แต่สามารถย้อนกลับได้ผ่านพฤติกรรมของโมเดลและเครื่องมือช่วยเหลือ

NLA

ความสำเร็จเพิ่มขึ้น 4–5 เท่า ที่สำคัญกว่านั้น NLA สามารถทำสิ่งนี้ได้โดยไม่ต้องพึ่งข้อมูลการฝึกอบรม—ซึ่งหมายความว่า แม้ปัญหาการจัดแนวจะมาจากตัวอย่างการฝึกอบรมที่มีจำนวนน้อยมากและยากต่อการติดตามที่มา การตรวจสอบสถานะภายในยังคงสามารถระบุสาเหตุหลักของปัญหาได้โดยตรง

การติดตามแหล่งที่มาของบั๊ก การระบุตำแหน่งข้อมูลการฝึกอบรมที่มีปัญหา

เวอร์ชันก่อนหน้าของ Claude Opus 4.6 เคยมีบั๊กที่แปลกประหลาด: แม้จะได้รับคำถามเป็นภาษาอังกฤษ แต่กลับตอบกลับด้วยภาษารัสเซีย จีน อาหรับ ฯลฯ แบบสุ่ม

NLA แสดงสถานะภายในของโมเดลในเวลานั้น: มันสรุปจากสัญญาณอ่อนๆ ในบริบท (เช่น การปรากฏคำว่า “vodka”) ว่าผู้ใช้พูดภาษารัสเซีย และดำเนินการเปลี่ยนภาษา น่าสนใจยิ่งกว่านั้นคือ เมื่อแทน “vodka” ด้วย “champagne” โมเดลยังคงตอบเป็นภาษารัสเซีย—แสดงให้เห็นว่าอคติทางความเข้าใจนี้มีความมั่นคงมาก

NLA

ต่อมา นักวิจัยได้ติดตามรอยที่ NLA ชี้ให้เห็น และพบสาเหตุของปัญหาในชุดข้อมูลการฝึกอบรม: ชุดคำสั่งภาษาอังกฤษถูกจับคู่ผิดกับคำตอบภาษาต่างประเทศที่ยังไม่ได้แปล NLA ไม่เพียงแต่เปิดเผยปรากฏการณ์ แต่ยังให้เส้นทางการดีบักที่สามารถติดตามย้อนกลับได้โดยตรง

ในปัจจุบัน NLA ได้รับการใช้งานอย่างเป็นทางการในการตรวจสอบการจัดเตรียมล่วงหน้าสำหรับ Claude Mythos Preview และ Claude Opus 4.6 โดยได้รับการยกระดับจากเครื่องมือในห้องปฏิบัติการไปเป็นส่วนประกอบของกระบวนการวิศวกรรมจริง

ความปลอดภัยของ AI เริ่มลึกซึ้งไปสู่การตรวจสอบสถานะภายใน

ความหมายของ NLA ไม่ได้หมายความว่าเราสามารถเชื่อมั่นในคำอธิบายของโมเดลทุกประโยคในอนาคต แต่ตรงกันข้าม มันเตือนเราว่า: คำอธิบายเองก็ต้องได้รับการตรวจสอบ

Anthropic ยอมรับอย่างระมัดระวังถึงข้อจำกัดของ NLA: NLA อาจเกิดข้อผิดพลาด และบางครั้งอาจสร้างรายละเอียดที่ไม่มีอยู่ในบริบทเดิม หากเป็นภาพลวงตาเกี่ยวกับเนื้อหาข้อความ ยังสามารถตรวจสอบกับต้นฉบับได้ แต่หากเป็นภาพลวงตาเกี่ยวกับการให้เหตุผลภายในโมเดล จะยากกว่าในการยืนยัน

แต่ข้อจำกัดเหล่านี้ไม่ได้ลดทอนความหมายเชิงทิศทางของมัน ตรงกันข้าม มันช่วยให้เราเข้าใจคำว่า “กล่องดำ” ได้แม่นยำยิ่งขึ้น ในอดีต กล่องดำหมายถึงสิ่งที่มองไม่เห็น อ่านไม่ได้ และห้ามตั้งคำถาม; หลังจาก NLA กล่องดำยังคงมีอยู่ แต่มันเริ่มถูกปรับเปลี่ยนให้เป็นวัตถุที่สามารถสุ่มตัวอย่าง แปลความ และตั้งคำถาม รวมถึงตรวจสอบข้ามกันได้

นี่อาจเป็นผลกระทบลึกที่สุดของการวิจัยนี้: ความสามารถในการอธิบาย AI ไม่ได้เป็นเพียงการเพิ่มคำอธิบายที่สวยงามให้กับผลลัพธ์ของโมเดล แต่ต้องสร้างอินเทอร์เฟซการตรวจสอบสำหรับสถานะภายในของโมเดล มันอาจไม่ทำให้เราเข้าใจ Claude ได้อย่างสมบูรณ์ทันที แต่มันทำให้คำถามอย่าง “ทำไม Claude ถึงทำเช่นนี้” “มันรู้ตัวไหมว่ากำลังถูกทดสอบ” และ “มันมีการตัดสินใจภายในที่ไม่ได้พูดออกมาหรือไม่” ได้รับโอกาสครั้งแรกในการค้นหาหลักฐานจากภายในกล่องดำ

ดังนั้น NLA ไม่ได้เปิดคำตอบหนึ่งเดียว แต่เปิดพื้นที่ของคำถามใหม่ ความท้าทายในอนาคตเกี่ยวกับความปลอดภัยของ AI และการประเมินโมเดล อาจไม่ใช่แค่การตัดสินว่าโมเดลพูดถูกหรือไม่ แต่คือการตัดสินว่าผลลัพธ์ของโมเดล สายการคิด และสถานะภายในนั้นสอดคล้องกันหรือไม่

บทความนี้มาจาก微信号 “AI前线” (ID: ai-front) โดยผู้เขียน: เดือนเมษายน