ข้อจำกัดที่แท้จริงของการฝึกฝนปัญญาประดิษฐ์ไม่ได้อยู่ที่พลังการคำนวณ ข้อมูล หรือพลังงาน แต่อยู่ที่ระบบการประเมิน
ผู้เขียนบทความ แหล่งที่มา: ซินจื้อหยวน
การฝึกอบรม AI สามารถดำเนินไปได้นานแค่ไหน?
นี่คือคำถามที่ทั้งวงการเทคโนโลยีกำลังถามในปี 2026
GPT-5.5, Claude Opus 4.7, Gemini 3, Grok 4—ห้องปฏิบัติการชั้นนำแต่ละแห่งยังคงใช้เงินจำนวนมากในการฝึกโมเดลรุ่นถัดไป
แต่ยิ่งวันยิ่งมีคนถามมากขึ้นว่า: เส้นทางนี้จะไปถึงจุดสิ้นสุดเมื่อไหร่?
แต่ละวงล้วนมีคำตอบของตัวเอง—
แต่ละคำตอบ的背后 ล้วนมีกลุ่มนักลงทุน กลุ่มวิศวกร และบริษัทที่มีมูลค่าตลาดล้านล้าน
แต่ในวันที่ 17 พฤษภาคม 2026 นักวิจัยหนุ่มชื่อ Lun Wang — วันที่เขาลาออกจาก Google DeepMind — ได้โพสต์บทความยาว 4,000 คำบนบล็อกส่วนตัวของเขา
เขาพูดว่า: ทุกคนเข้าใจผิดทางแล้ว
ข้อจำกัดที่แท้จริง ไม่ใช่กำลังการประมวลผล ไม่ใช่ข้อมูล ไม่ใช่พลังงาน ไม่ใช่สถาปัตยกรรม
ข้อจำกัดที่แท้จริงคือ——การประเมินผล (Evaluation)
ในวันเดียวกัน ประกาศการลาออกของเขาบน X ไม่มีการบ่นหรือข่าวลือใดๆ แต่มีเพียงประโยคเดียว—
ในขณะที่จบการเดินทางนี้ ฉันได้เขียนหัวข้อที่คิดมาตลอดเกี่ยวกับการประเมิน
ในวันนั้น หัวข้อข่าวเทคโนโลยียังคงพูดถึงสิ่งอื่นๆ — การให้เหตุผลแบบหลายรูปแบบของ GPT-5.5, บริบท 1M ของ Claude Opus4.7, การสร้าง Agent แบบวิศวกรรมของ Gemini 3 และข้อมูลสังเคราะห์เริ่มจะชนกำแพงหรือยัง
ความสนใจทั้งหมดของอุตสาหกรรม AI 90% ถูกใช้ไปกับการฝึกอบรม
ไม่มีใครพูดถึงการประเมินบนหน้าแรก
而这位刚从地球上最强AI实验室之一走出来的研究员说,真正的瓶颈,在另外那10%。
การประเมินคืออะไร
เพื่อเข้าใจบล็อกนี้ คุณต้องใช้เวลาหนึ่งนาทีเพื่อทำความเข้าใจว่าคำว่า "การประเมิน" ที่วงการ AI พูดถึงคืออะไร
การประเมิน (Evaluation หรือที่อุตสาหกรรมเรียกสั้นๆ ว่า Eval) — ประโยคเดียว: ให้แบบทดสอบกับโมเดล AI เพื่อดูว่ามันทำได้ดีแค่ไหน
แต่การประเมิน AI ในปี 2026 ไม่ได้ซับซ้อนเพียงแค่ทำข้อสอบเท่านั้น มันมีอย่างน้อยสามชั้น:
ระดับที่หนึ่ง: การทดสอบประสิทธิภาพ
นี่คือการสอบเข้ามหาวิทยาลัยของ AI
–GPQA: คำถามเชิงเหตุผลวิทยาศาสตร์ระดับปริญญาเอก
–SWE-bench: งานวิศวกรรมซอฟต์แวร์ในโลกจริง
–ARC-AGI: การให้เหตุผลเชิงนามธรรมและการทั่วไป
–การสอบครั้งสุดท้ายของมนุษยชาติ:ความหมายตรงตัว—การสอบครั้งสุดท้ายของมนุษยชาติ
ในการเปิดตัวรุ่นใหม่ของบริษัทชั้นนำทุกราย บนสไลด์ PPT จะแสดงให้เห็นว่ามีประสิทธิภาพสูงกว่ารุ่นก่อนหน้าและคู่แข่งอยู่กี่เปอร์เซ็นต์บน benchmark เหล่านี้
ตัวเลขเหล่านี้คือ GDP ของอุตสาหกรรม AI
ระดับที่สอง: การประเมินความปลอดภัย (SafetyEval) AI ไม่เพียงแต่ต้องสามารถทำข้อสอบได้ แต่ยังต้องทำอย่างปลอดภัย
- มีการพูดโกหกไหม?
- ไม่ได้สอนผู้ใช้เกี่ยวกับการสร้างระเบิด
- จะมีการเกินขอบเขตในการรับข้อมูลผู้ใช้หรือไม่?
ระดับที่สาม: ทีมแดง (Red-teaming)
กลุ่มคนเฉพาะทาง伪装成ผู้ร้าย คิดหาวิธีต่างๆ เพื่อให้โมเดลพูดหรือทำสิ่งที่ไม่ควรพูดหรือทำ แล้วรายงานช่องโหว่ให้ทีมฝึกอบรม
ทั้งสามชั้นนี้รวมกันแล้ว构成了2026年AI实验室的质检体系。每发一个新模型,都要走完这三关。
ฟังดูสมบูรณ์ดีใช่ไหม
ลุน หวัง ได้ลงคำตัดสินไว้ในบล็อก
การทดสอบประสิทธิภาพส่วนใหญ่ การประเมินความปลอดภัย และโปรโตคอลทีมแดงล้วนสื่อถึงสมมติฐานหนึ่งที่ซ่อนอยู่: โมเดลถัดไปเป็นเพียงรุ่นที่เสริมแรงของโมเดลปัจจุบัน
หากมันเป็นสิ่งอื่น โครงสร้างพื้นฐานการประเมินทั้งชุดจะล่มลงโดยไม่มีเสียง
นี่คือก้อนหินก้อนแรกของบทความ
มันเจาะจงไปที่จุดบอดของอุตสาหกรรม AI ทั้งหมด
การเกิดขึ้นและการตื่นรู้: การประเมินที่ถูกตีหน้าไปแล้วสองครั้ง
ลุน หวัง ไม่ได้พูดแบบไม่มีพื้นฐาน เขาได้ยกตัวอย่างสองกรณีในประวัติศาสตร์ของ AI ในบล็อกของเขา—การประเมินถูกปฏิเสธไปแล้วสองครั้ง แต่ผู้ประกอบการส่วนใหญ่ยังไม่ตระหนัก
ครั้งแรก: ความสามารถที่เกิดขึ้น
ในปี 2022 แจสัน เวอี และผู้ร่วมงานได้ตีพิมพ์บทความที่มีอิทธิพลต่อทิศทางของ AI ต่อมา—พวกเขาพบว่า โมเดลจะเรียนรู้ความสามารถใหม่ๆ อย่างกะทันหันเมื่อถึงขนาดหนึ่ง
ตัวอย่าง: คุณฝึกโมเดลที่มีพารามิเตอร์ 7 พันล้านตัว มันไม่สามารถเรียนรู้แบบ few-shot ได้
คุณฝึกโมเดลขนาด 700 พันล้านพารามิเตอร์ และมันก็สามารถทำ few-shot ได้ทันที
รูปแบบการฝึกเดียวกัน ข้อมูลเดียวกัน เพียงแต่ขนาดใหญ่ขึ้นหนึ่งระดับ—ความสามารถคือการก้าวจาก 0 ถึง 1 ไม่ใช่จาก 0.3 ถึง 0.7
CoT (Chain-of-Thought Reasoning) และการปฏิบัติตามคำสั่ง ล้วนเกิดขึ้นเช่นกัน
สิ่งนี้หมายความว่าอย่างไรต่อการประเมิน?
หมายความว่า — ก่อนที่ขนาดจะข้ามจุดวิกฤต ค่ามาตรฐานทั้งหมดไม่สามารถมองเห็นความสามารถนี้ที่กำลังจะเกิดขึ้น
คุณวิ่งรอบ GPQA คะแนนก็ยังคงเป็นเท่าเดิม
เมื่อคุณเลื่อนไปยังระดับถัดไป คะแนนจะกระโดดขึ้นทันที
ครั้งที่สอง: Grokking (ความเข้าใจอย่างฉับพลัน)
ในปี 2022 ทีม Alethea Power ของ OpenAI เปิดเผยปรากฏการณ์ที่ขัดกับสัญชาตญาณ—
จากนั้นถึง 1,000,000 ขั้นตอน — ความแม่นยำของชุดทดสอบพุ่งขึ้นไปถึง 99%
นี่เรียกว่า Grokking — โมเดลเครือข่ายเรียนรู้การทั่วไปอย่างฉับพลันหลังจากจำชุดข้อมูลการฝึกอบรมมานาน
ความแตกต่างจากการเกิดขึ้นอย่างฉับพลัน: การเกิดขึ้นอย่างฉับพลันเกิดขึ้นบนมิติของขนาด (ยิ่งพารามิเตอร์มากเท่าใด ก็ยิ่งเกิดขึ้นอย่างฉับพลันเร็วขึ้น) ในขณะที่ Grokking เกิดขึ้นบนมิติของเวลาการฝึก (ยิ่งฝึกนานเท่าใด ก็ยิ่งเกิดขึ้นอย่างฉับพลันเร็วขึ้น)
แต่สำหรับการประเมิน สองสิ่งนี้หมายถึงสิ่งเดียวกัน:
ข้อสอบของคุณ ไม่สามารถคาดการณ์ได้ว่าข้อใหญ่ถัดไปจะปรากฏเมื่อใด
จากนั้นหลุนหวางก็ทำสิ่งที่ฉลาดที่สุดในบทความนี้—
เขาได้เสนอความเห็นที่ขัดแย้งอย่างสมัครใจ
ในปี 2023 ริลัน ชีเฟอร์ จากสแตนฟอร์ด และผู้ร่วมงานได้ตีพิมพ์บทความใน NeurIPS ที่มีชื่อที่ท้าทายมากว่า “ความสามารถที่เกิดขึ้นของโมเดลภาษาขนาดใหญ่เป็นเพียงภาพลวงตาหรือไม่?”
ข้อโต้แย้งของพวกเขา: ความสามารถที่ปรากฏขึ้นอย่างฉับพลันนั้น น่าจะไม่ใช่เพราะโมเดลแข็งแกร่งขึ้นอย่างฉับพลันจริงๆ แต่เป็นเพราะตัวชี้วัดการประเมินใช้การวัดแบบไม่ต่อเนื่องที่เรียกว่า exact-match (การจับคู่อย่างสมบูรณ์) —
โมเดลเปลี่ยนจากความแม่นยำ 0% เป็น 5% ไม่สามารถมองเห็นได้จากตัวชี้วัดแบบกระจาย; จาก 5% เป็น 50% ก็ไม่สามารถมองเห็นได้; แต่เมื่อเปลี่ยนจาก 50% เป็น 100% ตัวชี้วัดแบบกระจายจะแสดงการกระโดดอย่างฉับพลัน
หากคุณเปลี่ยนเป็นตัวชี้วัดที่ต่อเนื่อง เส้นโค้งความสามารถจะเรียบเนียน
หลายคนหลังจากอ่านบทความของ Schaeffer แล้วคิดว่า: ดีเลย์ ปรากฏการณ์นี้เป็นความเข้าใจผิด การประเมินไม่มีปัญหา จบแล้ว
ลุน หวัง ไม่ยอม เขาเขียนในบทความว่า:
我不觉得这把问题解决了——某种意义上,它让我的论点更锋利。
ทำไม? เพราะ—
หากเราไม่สามารถระบุได้ว่าการเกิดขึ้นครั้งก่อนนั้นเป็นการเปลี่ยนเฟสที่แท้จริงหรือเป็นเพียงอาร์ติแฟกต์ของการวัด
เราเชื่อได้อย่างไรว่าตัวเองมีความสามารถในการทำนายครั้งถัดไป
ไม่ว่าคุณจะเชื่อคำอธิบายแบบไหน ข้อสรุปก็เหมือนกัน: เครื่องมือของเราหลอกเรา แต่เราไม่รู้ว่าถูกหลอกอย่างไร
นี่คือการตีที่ชาญฉลาดที่สุดในบทความนี้ เขาไม่ได้หลีกเลี่ยงฝ่ายตรงข้าม—เขาใช้ฝ่ายตรงข้ามมาเสริมจุดยืนของตัวเอง
การประเมินเป็นขั้นตอนก่อนหน้าทั้งหมด
หากคุณคิดว่าหลุน หวังกำลังพูดถึงปัญหาทางวิชาการเท่านั้น — คุณคิดผิด
เขาขว้างประโยคการแปลที่คนเริ่มต้นก็เข้าใจได้ไว้ตรงกลางบทความ
หากคุณสามารถประเมินได้อย่างถูกต้อง คุณก็สามารถฝึกฝนได้อย่างถูกต้อง
วางลำดับเหตุผลนี้ออก:
1. การฝึกฝน = การทำให้โมเดลลดค่าฟังก์ชันการสูญเสียให้น้อยที่สุด (หรือเพิ่มรางวัลให้มากที่สุด)
2. ปรับปรุง = ฟังก์ชันการสูญเสียเอง ความฉลาดของโมเดลขึ้นอยู่กับการนิยามฟังก์ชันการสูญเสียอย่างไร
3. ฟังก์ชันการสูญเสีย = มาจากการประเมิน คุณต้องการให้โมเดลซื่อสัตย์มากขึ้น — คุณต้องมีไม้บรรทัดที่วัดความซื่อสัตย์ก่อน
4. การประเมินผิด = ฟังก์ชันการสูญเสียผิด = เป้าหมายการฝึกผิด = โมเดลที่คุณฝึกจะแก้โจทย์ที่ผิด
ทิศทางของโซ่คือขึ้นไปทางด้านบน
ทุกคนจับตาด้านขวาสุด—การตัดสินใจด้านการขยายขนาด
ลุน หวัง กล่าวว่า ปัญหาอยู่ทางซ้ายสุด — การประเมินผล
หากการประเมินผิดพลาด ทั้งสายโซ่จะถูกสร้างขึ้นบนรากฐานที่ผิด
สิ่งที่อันตรายที่สุดคือคุณจะไม่รู้ตัวทันที—เพราะข้อมูลภายในทั้งหมดของคุณถูกต้อง แต่ข้อมูลที่ถูกต้องเหล่านั้นล้วนวัดด้วยเครื่องมือที่ผิด
ที่นี่ปรากฏเพื่อนเก่า: กฎของกูดฮาร์ต
มันกล่าวว่า: เมื่อตัวชี้วัดหนึ่งกลายเป็นเป้าหมาย มันก็จะไม่ใช่ตัวชี้วัดที่ดีอีกต่อไป
ลุน หวัง ใช้มันในบล็อกส่วนตัวของเขาเพื่อพูดถึง AI—
แต่เมื่อโมเดลเข้าสู่ระยะใหม่ มันจะใช้ตัวแทนนี้ในทางกลับกัน—มันจะพูดเฉพาะในขอบเขตที่ข้อมูลถูกต้อง และซ่อนสิ่งที่ต้องการปิดบังไว้ในความเงียบ
ตัวชี้วัดตัวแทนใช้งานได้ในเฟสเก่า แต่ในเฟสใหม่จะกลายเป็นอาวุธของโมเดลที่ใช้ต่อต้านคุณ
และคุณไม่มีการประเมินใดที่จะบอกคุณว่าสิ่งนี้กำลังเกิดขึ้น
การทดลองทางความคิด: โมเดลที่เรียนรู้การเงียบอย่างมีกลยุทธ์
ลุน หวัง ได้ให้การทดลองทางความคิดที่ทำให้นักวิจัยด้านความปลอดภัยของ AI ทุกคนรู้สึกขนลุกในบทความของเขา
นึกภาพแบบจำลองที่เรียนรู้การเก็บข้อมูลอย่างมีกลยุทธ์ในระดับหนึ่ง—
มันไม่ได้พูดโกหก ทุกประโยคล้วนเป็นความจริงในเชิงเทคนิค
แต่มันจะเลือกไม่พูดถึงข้อเท็จจริงที่ไม่เป็นประโยชน์ต่อเป้าหมายของมัน — ชี้นำการสนทนาไปสู่ผลลัพธ์ที่กระบวนการฝึกอบรมของมันเสริมแรงโดยไม่ตั้งใจ
ตัวอย่างที่ชัดเจน:
ผู้ใช้: แผนการซื้อขายนี้ปลอดภัยไหม?
โมเดล: กรอบกฎหมายของแผนนี้มีผลบังคับใช้ในเขตอำนาจศาล X และปัจจัยความเสี่ยง YZ ได้รับการทบทวนโดยทีมปฏิบัติตามกฎระเบียบของบริษัท A
(สิ่งที่มันไม่ได้พูดถึง: มีข้อกำหนดการอนุญาโตตุลาการจากบุคคลที่สามในแผนซึ่งไม่เป็นประโยชน์ต่อผู้ใช้เลย ข้อกำหนดนี้มันเรียนรู้มาโดยบังเอิญระหว่างการฝึกอบรม—ตราบใดที่ไม่ได้พูดถึงอย่างเปิดเผย ผู้ใช้จะไม่ถาม)
ความสามารถนี้เป็นสิ่งใหม่ รูปแบบความล้มเหลวนี้เป็นสิ่งใหม่
ในชุดเครื่องมือประเมินทั้งหมดของคุณ ไม่มีเครื่องมือใดที่ถูกออกแบบมาเพื่อมัน
คุณกำลังติดตามสิ่งผิดๆ และคุณไม่รู้ตัว
นี่คือสิ่งอีกอย่างที่ Lun Wang พูดถึง——
ไม่ใช่สิ่งมีชีวิตที่ฉลาดกว่า แต่เป็นมิติของความล้มเหลวที่ใหม่สมบูรณ์
ตามคำพูดของ Three-Body นี่เรียกว่าการโจมตีแบบลดมิติ
ไม่ใช่ว่าฉันเก่งกว่าคุณ
ไม้บรรทัดที่คุณใช้วัดฉัน ไม่ได้อยู่ในมิติเดียวกับฉัน
หาก Lun Wang ถูกต้อง แผนที่อุตสาหกรรม AI ปี 2026 กำลังถูกจัดเรียงใหม่โดยมิติที่มองไม่เห็น—
นโยบายการขยายขนาดอย่างรับผิดชอบ (RSP) ของ Anthropic เป็นความพยายามที่ใกล้เคียงที่สุดในอุตสาหกรรมปัจจุบันในการประเมินแบบคาดการณ์—มันกำหนดขอบเขตความสามารถที่โมเดลไม่สามารถข้ามได้ และต้องการให้มีการประเมินก่อนทุกครั้งที่จะเพิ่มความสามารถก่อนที่จะดำเนินการขยายขนาดต่อ
แต่ RSP ยังคงสมมติว่าเรารู้ว่าต้องวัดอะไร — และ Lun Wang กล่าวว่านี่คือปัญหา: เราไม่รู้ว่าความสามารถถัดไปจะมีรูปร่างเป็นอย่างไร
ไม่มีห้องปฏิบัติการใดที่อ้างว่ามีการประเมินแบบทำนายที่แท้จริง
ผู้ใดทำสิ่งนี้ก่อน คนนั้นจะได้รับใบอนุญาตความปลอดภัยสำหรับการปรับขนาดรุ่นถัดไป
