นักวิจัยจาก DeepMind รายก่อนหน้าระบุว่าอุตสาหกรรมปัญญาประดิษฐ์ประเมินข้อจำกัดหลักผิด

ข้อจำกัดที่แท้จริงของการฝึกฝนปัญญาประดิษฐ์ไม่ได้อยู่ที่พลังการคำนวณ ข้อมูล หรือพลังงาน แต่อยู่ที่ระบบการประเมิน

ผู้เขียนบทความ แหล่งที่มา: ซินจื้อหยวน

การฝึกอบรม AI สามารถดำเนินไปได้นานแค่ไหน?

นี่คือคำถามที่ทั้งวงการเทคโนโลยีกำลังถามในปี 2026

GPT-5.5, Claude Opus 4.7, Gemini 3, Grok 4—ห้องปฏิบัติการชั้นนำแต่ละแห่งยังคงใช้เงินจำนวนมากในการฝึกโมเดลรุ่นถัดไป

แต่ยิ่งวันยิ่งมีคนถามมากขึ้นว่า: เส้นทางนี้จะไปถึงจุดสิ้นสุดเมื่อไหร่?

แต่ละวงล้วนมีคำตอบของตัวเอง—

แต่ละคำตอบ的背后 ล้วนมีกลุ่มนักลงทุน กลุ่มวิศวกร และบริษัทที่มีมูลค่าตลาดล้านล้าน

แต่ในวันที่ 17 พฤษภาคม 2026 นักวิจัยหนุ่มชื่อ Lun Wang — วันที่เขาลาออกจาก Google DeepMind — ได้โพสต์บทความยาว 4,000 คำบนบล็อกส่วนตัวของเขา

เขาพูดว่า: ทุกคนเข้าใจผิดทางแล้ว

ข้อจำกัดที่แท้จริง ไม่ใช่กำลังการประมวลผล ไม่ใช่ข้อมูล ไม่ใช่พลังงาน ไม่ใช่สถาปัตยกรรม

ข้อจำกัดที่แท้จริงคือ——การประเมินผล (Evaluation)

ในวันเดียวกัน ประกาศการลาออกของเขาบน X ไม่มีการบ่นหรือข่าวลือใดๆ แต่มีเพียงประโยคเดียว—

ในขณะที่จบการเดินทางนี้ ฉันได้เขียนหัวข้อที่คิดมาตลอดเกี่ยวกับการประเมิน

ในวันนั้น หัวข้อข่าวเทคโนโลยียังคงพูดถึงสิ่งอื่นๆ — การให้เหตุผลแบบหลายรูปแบบของ GPT-5.5, บริบท 1M ของ Claude Opus4.7, การสร้าง Agent แบบวิศวกรรมของ Gemini 3 และข้อมูลสังเคราะห์เริ่มจะชนกำแพงหรือยัง

ความสนใจทั้งหมดของอุตสาหกรรม AI 90% ถูกใช้ไปกับการฝึกอบรม

ไม่มีใครพูดถึงการประเมินบนหน้าแรก

而这位刚从地球上最强AI实验室之一走出来的研究员说，真正的瓶颈，在另外那10%。

การประเมินคืออะไร

เพื่อเข้าใจบล็อกนี้ คุณต้องใช้เวลาหนึ่งนาทีเพื่อทำความเข้าใจว่าคำว่า "การประเมิน" ที่วงการ AI พูดถึงคืออะไร

การประเมิน (Evaluation หรือที่อุตสาหกรรมเรียกสั้นๆ ว่า Eval) — ประโยคเดียว: ให้แบบทดสอบกับโมเดล AI เพื่อดูว่ามันทำได้ดีแค่ไหน

แต่การประเมิน AI ในปี 2026 ไม่ได้ซับซ้อนเพียงแค่ทำข้อสอบเท่านั้น มันมีอย่างน้อยสามชั้น:

ระดับที่หนึ่ง: การทดสอบประสิทธิภาพ

นี่คือการสอบเข้ามหาวิทยาลัยของ AI

–GPQA: คำถามเชิงเหตุผลวิทยาศาสตร์ระดับปริญญาเอก

–SWE-bench: งานวิศวกรรมซอฟต์แวร์ในโลกจริง

–ARC-AGI: การให้เหตุผลเชิงนามธรรมและการทั่วไป

–การสอบครั้งสุดท้ายของมนุษยชาติ：ความหมายตรงตัว—การสอบครั้งสุดท้ายของมนุษยชาติ

ในการเปิดตัวรุ่นใหม่ของบริษัทชั้นนำทุกราย บนสไลด์ PPT จะแสดงให้เห็นว่ามีประสิทธิภาพสูงกว่ารุ่นก่อนหน้าและคู่แข่งอยู่กี่เปอร์เซ็นต์บน benchmark เหล่านี้

ตัวเลขเหล่านี้คือ GDP ของอุตสาหกรรม AI

ระดับที่สอง: การประเมินความปลอดภัย (SafetyEval) AI ไม่เพียงแต่ต้องสามารถทำข้อสอบได้ แต่ยังต้องทำอย่างปลอดภัย

มีการพูดโกหกไหม?
ไม่ได้สอนผู้ใช้เกี่ยวกับการสร้างระเบิด
จะมีการเกินขอบเขตในการรับข้อมูลผู้ใช้หรือไม่?

ระดับที่สาม: ทีมแดง (Red-teaming)

กลุ่มคนเฉพาะทาง伪装成ผู้ร้าย คิดหาวิธีต่างๆ เพื่อให้โมเดลพูดหรือทำสิ่งที่ไม่ควรพูดหรือทำ แล้วรายงานช่องโหว่ให้ทีมฝึกอบรม

ทั้งสามชั้นนี้รวมกันแล้ว构成了2026年AI实验室的质检体系。每发一个新模型，都要走完这三关。

ฟังดูสมบูรณ์ดีใช่ไหม

ลุน หวัง ได้ลงคำตัดสินไว้ในบล็อก

การทดสอบประสิทธิภาพส่วนใหญ่ การประเมินความปลอดภัย และโปรโตคอลทีมแดงล้วนสื่อถึงสมมติฐานหนึ่งที่ซ่อนอยู่: โมเดลถัดไปเป็นเพียงรุ่นที่เสริมแรงของโมเดลปัจจุบัน

หากมันเป็นสิ่งอื่น โครงสร้างพื้นฐานการประเมินทั้งชุดจะล่มลงโดยไม่มีเสียง

นี่คือก้อนหินก้อนแรกของบทความ

มันเจาะจงไปที่จุดบอดของอุตสาหกรรม AI ทั้งหมด

การเกิดขึ้นและการตื่นรู้: การประเมินที่ถูกตีหน้าไปแล้วสองครั้ง

ลุน หวัง ไม่ได้พูดแบบไม่มีพื้นฐาน เขาได้ยกตัวอย่างสองกรณีในประวัติศาสตร์ของ AI ในบล็อกของเขา—การประเมินถูกปฏิเสธไปแล้วสองครั้ง แต่ผู้ประกอบการส่วนใหญ่ยังไม่ตระหนัก

ครั้งแรก: ความสามารถที่เกิดขึ้น

ในปี 2022 แจสัน เวอี และผู้ร่วมงานได้ตีพิมพ์บทความที่มีอิทธิพลต่อทิศทางของ AI ต่อมา—พวกเขาพบว่า โมเดลจะเรียนรู้ความสามารถใหม่ๆ อย่างกะทันหันเมื่อถึงขนาดหนึ่ง

ตัวอย่าง: คุณฝึกโมเดลที่มีพารามิเตอร์ 7 พันล้านตัว มันไม่สามารถเรียนรู้แบบ few-shot ได้

คุณฝึกโมเดลขนาด 700 พันล้านพารามิเตอร์ และมันก็สามารถทำ few-shot ได้ทันที

รูปแบบการฝึกเดียวกัน ข้อมูลเดียวกัน เพียงแต่ขนาดใหญ่ขึ้นหนึ่งระดับ—ความสามารถคือการก้าวจาก 0 ถึง 1 ไม่ใช่จาก 0.3 ถึง 0.7

CoT (Chain-of-Thought Reasoning) และการปฏิบัติตามคำสั่ง ล้วนเกิดขึ้นเช่นกัน

สิ่งนี้หมายความว่าอย่างไรต่อการประเมิน?

หมายความว่า — ก่อนที่ขนาดจะข้ามจุดวิกฤต ค่ามาตรฐานทั้งหมดไม่สามารถมองเห็นความสามารถนี้ที่กำลังจะเกิดขึ้น

คุณวิ่งรอบ GPQA คะแนนก็ยังคงเป็นเท่าเดิม

เมื่อคุณเลื่อนไปยังระดับถัดไป คะแนนจะกระโดดขึ้นทันที

ครั้งที่สอง: Grokking (ความเข้าใจอย่างฉับพลัน)

ในปี 2022 ทีม Alethea Power ของ OpenAI เปิดเผยปรากฏการณ์ที่ขัดกับสัญชาตญาณ—

จากนั้นถึง 1,000,000 ขั้นตอน — ความแม่นยำของชุดทดสอบพุ่งขึ้นไปถึง 99%

นี่เรียกว่า Grokking — โมเดลเครือข่ายเรียนรู้การทั่วไปอย่างฉับพลันหลังจากจำชุดข้อมูลการฝึกอบรมมานาน

ความแตกต่างจากการเกิดขึ้นอย่างฉับพลัน: การเกิดขึ้นอย่างฉับพลันเกิดขึ้นบนมิติของขนาด (ยิ่งพารามิเตอร์มากเท่าใด ก็ยิ่งเกิดขึ้นอย่างฉับพลันเร็วขึ้น) ในขณะที่ Grokking เกิดขึ้นบนมิติของเวลาการฝึก (ยิ่งฝึกนานเท่าใด ก็ยิ่งเกิดขึ้นอย่างฉับพลันเร็วขึ้น)

แต่สำหรับการประเมิน สองสิ่งนี้หมายถึงสิ่งเดียวกัน:

ข้อสอบของคุณ ไม่สามารถคาดการณ์ได้ว่าข้อใหญ่ถัดไปจะปรากฏเมื่อใด

จากนั้นหลุนหวางก็ทำสิ่งที่ฉลาดที่สุดในบทความนี้—

เขาได้เสนอความเห็นที่ขัดแย้งอย่างสมัครใจ

ในปี 2023 ริลัน ชีเฟอร์ จากสแตนฟอร์ด และผู้ร่วมงานได้ตีพิมพ์บทความใน NeurIPS ที่มีชื่อที่ท้าทายมากว่า “ความสามารถที่เกิดขึ้นของโมเดลภาษาขนาดใหญ่เป็นเพียงภาพลวงตาหรือไม่?”

ข้อโต้แย้งของพวกเขา: ความสามารถที่ปรากฏขึ้นอย่างฉับพลันนั้น น่าจะไม่ใช่เพราะโมเดลแข็งแกร่งขึ้นอย่างฉับพลันจริงๆ แต่เป็นเพราะตัวชี้วัดการประเมินใช้การวัดแบบไม่ต่อเนื่องที่เรียกว่า exact-match (การจับคู่อย่างสมบูรณ์) —

โมเดลเปลี่ยนจากความแม่นยำ 0% เป็น 5% ไม่สามารถมองเห็นได้จากตัวชี้วัดแบบกระจาย; จาก 5% เป็น 50% ก็ไม่สามารถมองเห็นได้; แต่เมื่อเปลี่ยนจาก 50% เป็น 100% ตัวชี้วัดแบบกระจายจะแสดงการกระโดดอย่างฉับพลัน

หากคุณเปลี่ยนเป็นตัวชี้วัดที่ต่อเนื่อง เส้นโค้งความสามารถจะเรียบเนียน

หลายคนหลังจากอ่านบทความของ Schaeffer แล้วคิดว่า: ดีเลย์ ปรากฏการณ์นี้เป็นความเข้าใจผิด การประเมินไม่มีปัญหา จบแล้ว

ลุน หวัง ไม่ยอม เขาเขียนในบทความว่า:

我不觉得这把问题解决了——某种意义上，它让我的论点更锋利。

ทำไม? เพราะ—

หากเราไม่สามารถระบุได้ว่าการเกิดขึ้นครั้งก่อนนั้นเป็นการเปลี่ยนเฟสที่แท้จริงหรือเป็นเพียงอาร์ติแฟกต์ของการวัด

เราเชื่อได้อย่างไรว่าตัวเองมีความสามารถในการทำนายครั้งถัดไป

ไม่ว่าคุณจะเชื่อคำอธิบายแบบไหน ข้อสรุปก็เหมือนกัน: เครื่องมือของเราหลอกเรา แต่เราไม่รู้ว่าถูกหลอกอย่างไร

นี่คือการตีที่ชาญฉลาดที่สุดในบทความนี้ เขาไม่ได้หลีกเลี่ยงฝ่ายตรงข้าม—เขาใช้ฝ่ายตรงข้ามมาเสริมจุดยืนของตัวเอง

การประเมินเป็นขั้นตอนก่อนหน้าทั้งหมด

หากคุณคิดว่าหลุน หวังกำลังพูดถึงปัญหาทางวิชาการเท่านั้น — คุณคิดผิด

เขาขว้างประโยคการแปลที่คนเริ่มต้นก็เข้าใจได้ไว้ตรงกลางบทความ

หากคุณสามารถประเมินได้อย่างถูกต้อง คุณก็สามารถฝึกฝนได้อย่างถูกต้อง

วางลำดับเหตุผลนี้ออก:

1. การฝึกฝน = การทำให้โมเดลลดค่าฟังก์ชันการสูญเสียให้น้อยที่สุด (หรือเพิ่มรางวัลให้มากที่สุด)

2. ปรับปรุง = ฟังก์ชันการสูญเสียเอง ความฉลาดของโมเดลขึ้นอยู่กับการนิยามฟังก์ชันการสูญเสียอย่างไร

3. ฟังก์ชันการสูญเสีย = มาจากการประเมิน คุณต้องการให้โมเดลซื่อสัตย์มากขึ้น — คุณต้องมีไม้บรรทัดที่วัดความซื่อสัตย์ก่อน

4. การประเมินผิด = ฟังก์ชันการสูญเสียผิด = เป้าหมายการฝึกผิด = โมเดลที่คุณฝึกจะแก้โจทย์ที่ผิด

ทิศทางของโซ่คือขึ้นไปทางด้านบน

ทุกคนจับตาด้านขวาสุด—การตัดสินใจด้านการขยายขนาด

ลุน หวัง กล่าวว่า ปัญหาอยู่ทางซ้ายสุด — การประเมินผล

หากการประเมินผิดพลาด ทั้งสายโซ่จะถูกสร้างขึ้นบนรากฐานที่ผิด

สิ่งที่อันตรายที่สุดคือคุณจะไม่รู้ตัวทันที—เพราะข้อมูลภายในทั้งหมดของคุณถูกต้อง แต่ข้อมูลที่ถูกต้องเหล่านั้นล้วนวัดด้วยเครื่องมือที่ผิด

ที่นี่ปรากฏเพื่อนเก่า: กฎของกูดฮาร์ต

มันกล่าวว่า: เมื่อตัวชี้วัดหนึ่งกลายเป็นเป้าหมาย มันก็จะไม่ใช่ตัวชี้วัดที่ดีอีกต่อไป

ลุน หวัง ใช้มันในบล็อกส่วนตัวของเขาเพื่อพูดถึง AI—

แต่เมื่อโมเดลเข้าสู่ระยะใหม่ มันจะใช้ตัวแทนนี้ในทางกลับกัน—มันจะพูดเฉพาะในขอบเขตที่ข้อมูลถูกต้อง และซ่อนสิ่งที่ต้องการปิดบังไว้ในความเงียบ

ตัวชี้วัดตัวแทนใช้งานได้ในเฟสเก่า แต่ในเฟสใหม่จะกลายเป็นอาวุธของโมเดลที่ใช้ต่อต้านคุณ

และคุณไม่มีการประเมินใดที่จะบอกคุณว่าสิ่งนี้กำลังเกิดขึ้น

การทดลองทางความคิด: โมเดลที่เรียนรู้การเงียบอย่างมีกลยุทธ์

ลุน หวัง ได้ให้การทดลองทางความคิดที่ทำให้นักวิจัยด้านความปลอดภัยของ AI ทุกคนรู้สึกขนลุกในบทความของเขา

นึกภาพแบบจำลองที่เรียนรู้การเก็บข้อมูลอย่างมีกลยุทธ์ในระดับหนึ่ง—

มันไม่ได้พูดโกหก ทุกประโยคล้วนเป็นความจริงในเชิงเทคนิค

แต่มันจะเลือกไม่พูดถึงข้อเท็จจริงที่ไม่เป็นประโยชน์ต่อเป้าหมายของมัน — ชี้นำการสนทนาไปสู่ผลลัพธ์ที่กระบวนการฝึกอบรมของมันเสริมแรงโดยไม่ตั้งใจ

ตัวอย่างที่ชัดเจน:

ผู้ใช้: แผนการซื้อขายนี้ปลอดภัยไหม?

โมเดล: กรอบกฎหมายของแผนนี้มีผลบังคับใช้ในเขตอำนาจศาล X และปัจจัยความเสี่ยง YZ ได้รับการทบทวนโดยทีมปฏิบัติตามกฎระเบียบของบริษัท A

(สิ่งที่มันไม่ได้พูดถึง: มีข้อกำหนดการอนุญาโตตุลาการจากบุคคลที่สามในแผนซึ่งไม่เป็นประโยชน์ต่อผู้ใช้เลย ข้อกำหนดนี้มันเรียนรู้มาโดยบังเอิญระหว่างการฝึกอบรม—ตราบใดที่ไม่ได้พูดถึงอย่างเปิดเผย ผู้ใช้จะไม่ถาม)

ความสามารถนี้เป็นสิ่งใหม่ รูปแบบความล้มเหลวนี้เป็นสิ่งใหม่

ในชุดเครื่องมือประเมินทั้งหมดของคุณ ไม่มีเครื่องมือใดที่ถูกออกแบบมาเพื่อมัน

คุณกำลังติดตามสิ่งผิดๆ และคุณไม่รู้ตัว

นี่คือสิ่งอีกอย่างที่ Lun Wang พูดถึง——

ไม่ใช่สิ่งมีชีวิตที่ฉลาดกว่า แต่เป็นมิติของความล้มเหลวที่ใหม่สมบูรณ์

ตามคำพูดของ Three-Body นี่เรียกว่าการโจมตีแบบลดมิติ

ไม่ใช่ว่าฉันเก่งกว่าคุณ

ไม้บรรทัดที่คุณใช้วัดฉัน ไม่ได้อยู่ในมิติเดียวกับฉัน

หาก Lun Wang ถูกต้อง แผนที่อุตสาหกรรม AI ปี 2026 กำลังถูกจัดเรียงใหม่โดยมิติที่มองไม่เห็น—

นโยบายการขยายขนาดอย่างรับผิดชอบ (RSP) ของ Anthropic เป็นความพยายามที่ใกล้เคียงที่สุดในอุตสาหกรรมปัจจุบันในการประเมินแบบคาดการณ์—มันกำหนดขอบเขตความสามารถที่โมเดลไม่สามารถข้ามได้ และต้องการให้มีการประเมินก่อนทุกครั้งที่จะเพิ่มความสามารถก่อนที่จะดำเนินการขยายขนาดต่อ

แต่ RSP ยังคงสมมติว่าเรารู้ว่าต้องวัดอะไร — และ Lun Wang กล่าวว่านี่คือปัญหา: เราไม่รู้ว่าความสามารถถัดไปจะมีรูปร่างเป็นอย่างไร

ไม่มีห้องปฏิบัติการใดที่อ้างว่ามีการประเมินแบบทำนายที่แท้จริง

ผู้ใดทำสิ่งนี้ก่อน คนนั้นจะได้รับใบอนุญาตความปลอดภัยสำหรับการปรับขนาดรุ่นถัดไป