การทดสอบมาตรฐาน AI ใหม่ในการปรับแต่งวิศวกรรมโดยไม่มีคำตอบมาตรฐาน

หากนำ AI ไปยังไซต์งานวิศวกรรมที่ไม่มีคำตอบมาตรฐาน สามารถอยู่รอดได้ไหม?

มานานหลายปี AI Agent ดูเหมือนจะทำได้ทุกอย่าง แต่จริงๆ แล้วส่วนใหญ่แค่ “ค้นหาความทรงจำ” จากฐานความรู้ที่มีอยู่แล้ว

แต่โลกแห่งวิศวกรรมที่แท้จริงนั้นโหดร้าย: ความเสถียรของหุ่นยนต์ใต้น้ำ ขอบเขตการแยกตัวของลิเธียมในแบตเตอรี่พลังงานสูง การควบคุมสัญญาณรบกวนในวงจรควอนตัม... ปัญหาเหล่านี้ไม่มีคำตอบที่ "ได้คะแนนเต็ม" มีเพียงการปรับแต่งให้เข้าใกล้ขีดจำกัดมากขึ้นเท่านั้น

เมื่อเร็วๆ นี้ นาเวอร์ส แล็บ ภายใต้ Einsia AI ได้เปิดตัว Agent Benchmark ชื่อ Frontier-Eng Bench ซึ่งได้ถอดถอนป้าย “ผู้เชี่ยวชาญด้านการแก้โจทย์” ของ AI อย่างเป็นทางการ

การวิจัยอัตโนมัติ

ทีมวิจัยไม่ได้ให้ AI แก้โจทย์รหัสเก่าๆ แต่แทนที่ด้วยการให้มันทำงานใน “วงจรวิศวกรรมแบบสมบูรณ์”: เสนอแนวทาง เชื่อมต่อกับตัวจำลอง รับข้อผิดพลาด ปรับพารามิเตอร์ และรันใหม่

ต่อหน้าภารกิจที่ซับซ้อนและข้ามสาขาทั้ง 47 ข้อ AI ต้องแสดงความสามารถเหมือนวิศวกรผู้เชี่ยวชาญ โดยค้นหาโซลูชันที่ดีที่สุดในสามเหลี่ยมที่เป็นไปไม่ได้ระหว่างการใช้พลังงาน ความปลอดภัย และประสิทธิภาพ

นี่ไม่ใช่แค่ชุดการทดสอบ แต่ยังเหมือนการซ้อมก่อนการวิวัฒนาการของเอเจนต์

เมื่อ AI เริ่มเรียนรู้ที่จะปรับปรุงตัวเองผ่านข้อเสนอแนะ ยุค Auto Research ที่ “มนุษย์กำหนดเป้าหมาย และ AI ปรับปรุงแบบไม่หยุดนิ่ง 24 ชั่วโมง” อาจใกล้เข้ามาเร็วกว่าที่เราคิด

AI ได้เริ่มทำงานที่ยากแล้ว

รุ่นโมเดลขนาดใหญ่ในอดีต ดูเหมือนเด็กเก่งระดับซูเปอร์

คุณถามคำถาม มันจะค้นหาจากข้อมูลการฝึกอบรมจำนวนมาก เพื่อรวบรวมคำตอบที่ดูสมเหตุสมผล

ในโหมดนี้ โมเดลขนาดใหญ่โดยพื้นฐานแล้วกำลังเล่นเกม “ต่อคำ” แทนที่จะแก้ปัญหาในโลกจริง

แต่การปรากฏตัวของ Frontier-Eng Bench ทำให้ AI ต้องมาทำหน้าที่ “การปรับปรุงด้านวิศวกรรม”

กระบวนการเปลี่ยนเป็นให้ AI เสนอแนวทางก่อน แล้วเชื่อมต่อกับ simulator เพื่อทำการทดลอง รับฟีดแบ็กและข้อผิดพลาด ปรับพารามิเตอร์และโค้ด แล้วรันซ้ำอีกครั้ง จนกว่าประสิทธิภาพจะเพิ่มขึ้นอีก

ในระบบปิดนี้ ตัวตนของ AI เปลี่ยนแปลงไปอย่างมีคุณภาพ

คุณต้องการให้หุ่นยนต์ใต้น้ำมีความเสถียรมากขึ้น? AI ต้องเริ่มปรับตัวควบคุมอัตโนมัติ

คุณต้องการเพิ่มความเร็วของหุ่นยนต์อีกไหม? AI ต้องรันการจำลองด้วยตัวเอง

ในระดับหนึ่ง ปัญญาประดิษฐ์ได้หลุดพ้นจากการเข้าใจความหมายเพียงอย่างเดียว และเริ่มทำงานเหมือนวิศวกรมืออาชีพ โดยทำการปรับปรุงอย่างต่อเนื่องจากข้อมูลย้อนกลับในสภาพแวดล้อมจริง

การวิจัยอัตโนมัติ

△

จุดที่น่าสนใจที่สุดของ Frontier-Eng Bench คือ มันไม่ได้วัดว่า AI ตอบถูกหรือไม่ แต่วัดว่า AI สามารถพัฒนาตัวเองได้อย่างต่อเนื่องหรือไม่

เนื่องจากการปรับปรุงทางวิศวกรรมที่แท้จริง ไม่เคยเป็นคำถามแบบปรนัย และไม่มีคำตอบมาตรฐานเดียว

ตัวอย่างเช่น การชาร์จแบตเตอรี่อย่างรวดเร็ว เป้าหมายดูเหมือนง่าย—ยิ่งชาร์จเร็วยิ่งดี แต่ความเป็นจริงไม่ได้ง่ายอย่างนั้น

AI ต้องสามารถหาจุดสมดุลของประสิทธิภาพอย่างแม่นยำภายใต้ข้อจำกัดที่เข้มงวด เช่น อุณหภูมิต้องไม่สูงเกินไป แรงดันต้องไม่เกินขีดจำกัด อายุการใช้งานของแบตเตอรี่ต้องไม่ลดลงเร็วเกินไป และหลีกเลี่ยงการเกิดลิเทียมแยกตัว

นี่หมายความว่า AI ไม่สามารถผ่านการทดสอบได้ด้วยกลยุทธ์การ “ท่องจำ” ใดๆ แต่ต้องแสดงความทนทานในการพัฒนาอย่างต่อเนื่องผ่านการตอบรับระยะยาว

AI สามารถทำการปรับปรุงระยะยาวในสภาพแวดล้อมจริงได้หรือไม่?

จากผลลัพธ์ ดูเหมือน GPT5.4 จะมีประสิทธิภาพคงที่ที่สุด แต่ AI ยังมีทางอีก很长 จึงจะสามารถทำลาย Benchmark ได้

การวิจัยอัตโนมัติ

△

Auto Research เข้าสู่ยุคการปรับปรุงและพัฒนาอย่างต่อเนื่อง

ทีมวิจัยได้กล่าวถึงจุดที่น่าสนใจมากในบทความวิจัย:

ปัญญาที่แท้จริงขั้นสูงนั้น ขึ้นอยู่กับวงจรป้อนกลับระยะยาวโดยพื้นฐาน

เช่นเดียวกับที่ AlphaGo สามารถเอาชนะ Lee Sedol ได้ เพราะการตัดสินใจแต่ละขั้นตอนของมันอิงจากการจำลองจำนวนมหาศาลและข้อมูลย้อนกลับแบบเรียลไทม์ ไม่ใช่การท่องจำรูปแบบการเล่นที่มีอยู่แล้ว

การวิจัยที่แท้จริงก็เช่นกัน ห้องปฏิบัติการชั้นนำไม่ได้พึ่งพาแรงบันดาลใจเพียงครั้งเดียว แต่จะ不断地ตั้งสมมติฐาน ดำเนินการทดลอง วิเคราะห์ผลลัพธ์ ปรับปรุงแผน และลองอีกครั้ง

เช่นเดียวกับการปรับปรุงงาน รุ่นแรกมักทำได้โดยใครก็ได้ แต่สิ่งที่ยากจริงๆ คือการเพิ่มประสิทธิภาพ 1% สุดท้าย

ความหมายของ Frontier-Eng Bench คือ: มันเริ่มทดสอบอย่างเป็นระบบครั้งแรกต่อ “ความสามารถในการปรับปรุงซ้ำของ AI” และสรุปกฎการวิวัฒนาการของ AI สองข้อที่เกือบจะโหดร้าย

การวิจัยอัตโนมัติ

△

กฎข้อแรกคือ: ยิ่งไปไกลเท่าใด การพัฒนาจะยิ่งยากขึ้น

งานวิจัยชิ้นนี้พบว่า ความถี่และระดับการปรับปรุงของตัวแทนแสดงการลดลงแบบพลังงาน:

ความถี่ในการปรับปรุง ∝ 1/จำนวนรอบการวนซ้ำ
ระดับการปรับปรุง ∝ 1/จำนวนครั้งที่ปรับปรุง

พูดง่ายๆ คือ ช่วงแรกๆ ขึ้นเร็วที่สุด แต่หลังจากนั้นยิ่งขึ้นยากและยิ่งเล็กลง

มันคล้ายกับกระบวนการพัฒนาจริง รุ่นแรกของ AI สามารถกำจัดผลไม้ที่อยู่ต่ำๆ ได้อย่างรวดเร็ว แต่ยิ่งเดินไปข้างหน้า ยิ่งใกล้ถึงขีดจำกัด การจะเพิ่มประสิทธิภาพอีกนิดเดียวก็ต้องลงแรงอย่างหนัก

การเปิดหลายเส้นทางพร้อมกันเพื่อทดลองและเรียนรู้จากข้อผิดพลาด จะคุ้มค่ากว่าไหม? คำตอบอยู่ในกฎข้อที่สอง

การวิจัยอัตโนมัติ

△

กฎที่สอง: ความกว้างมีประโยชน์ แต่ความลึกนั้นจำเป็นยิ่งกว่า

การรันหลายเส้นทางพร้อมกันสามารถหลีกเลี่ยงการติดขัด แต่เมื่องบประมาณคงที่ การเปิดเส้นทางเพิ่มขึ้นทุกเส้นจะลดความลึกของตลาด

การก้าวกระโดดเชิงโครงสร้างต้องอาศัยการสะสมอย่างต่อเนื่องและการปรับปรุงอย่างสม่ำเสมอ ไม่ใช่แค่การลองหลายครั้งก็จะสำเร็จ

สิ่งนี้ชี้ให้เห็นถึงทิศทางการพัฒนาเอเจนต์รุ่นถัดไป: ไม่ใช่โมเดลที่ “ให้คำตอบครั้งเดียว” แต่เป็นระบบที่สามารถปรับปรุงและพัฒนาตนเองอย่างต่อเนื่องผ่านการตอบรับระยะยาว

นักวิศวกรรม AI อาจกำลังจะมาถึง

ความหมายอันลึกซึ้งที่แท้จริงของการศึกษานี้ คือมันได้ให้ภาพเริ่มต้นของระบบ AI ที่เริ่มเข้าใกล้วงจรวิศวกรรมที่แท้จริง

การวิจัยอัตโนมัติ

△

ลองจินตนาการว่า เมื่อ AI เชื่อมต่อกับซอฟต์แวร์อุตสาหกรรม สภาพแวดล้อมการจำลอง ระบบ CAD เครื่องมือออกแบบชิป และแพลตฟอร์มการคำนวณทางวิทยาศาสตร์...

การเปลี่ยนแปลงครั้งใหญ่ของรูปแบบผลิตภาพกำลังจะเกิดขึ้น

ในห้องปฏิบัติการแห่งอนาคต อาจมีการแบ่งหน้าที่เช่นนี้

นักวิจัยมนุษย์รับผิดชอบในการกำหนดทิศทางและเป้าหมาย

ตัวอย่างเช่น “ลดการใช้พลังงานของชิ้นส่วนนี้ลง 30%”、“ลดการใช้งาน GPU ในการดำเนินการแบบฟอร์เวิร์ดของโมเดลนี้ให้ต่ำกว่าเดิม”、“เพิ่มความเสถียรของการควบคุมหุ่นยนต์อีกเล็กน้อย”、“ทำให้ความซื่อสัตย์ของวงจรควอนตัมเข้าใกล้ขีดจำกัดมากยิ่งขึ้น” เป็นต้น

ส่วน AI รับผิดชอบ “การติดตามเส้นทางอย่างไม่ย่อท้อ” โดยจะปรับปรุงอย่างต่อเนื่องรอบเป้าหมายเหล่านี้

ตัวอย่างเช่น การรันซิมูเลชันและการทดลองอัตโนมัติ การอ่านฟีดแบ็กจาก verifier และ simulator อัตโนมัติ แล้วปรับปรุงและเพิ่มประสิทธิภาพต่อเนื่อง 24 ชั่วโมง

ตรรกะการพัฒนานี้ทำให้ AI หลุดพ้นจากบทบาท “เครื่องมือช่วยเหลือ” และเริ่มแก้ไขปัญหาของระบบซับซ้อนเหมือนทีมวิศวกรรมที่แท้จริง โดยไม่รู้จักเหน็ดเหนื่อย

แต่ปัญหาที่ Frontier-Eng แสดงให้เห็นนั้น ก็ชัดเจนมากเช่นกัน:

เมื่อ AI เริ่มเรียนรู้การ “ปรับปรุงระยะยาว” มันยังห่างจากปัญญาทางวิศวกรรมที่แท้จริงเพียงใด?

หัวข้อวิจัย: Frontier-Eng: การประเมินประสิทธิภาพตัวแทนที่พัฒนาด้วยตนเองบนงานวิศวกรรมจริงด้วยการเพิ่มประสิทธิภาพแบบสร้างสรรค์

หน้าหลักโครงการ: https://lab.einsia.ai/frontier-eng/

Arxiv: https://arxiv.org/abs/2604.12290

GitHub repo: https://github.com/EinsiaLab/Frontier-Engineering

บทความนี้มาจากหมายเลขควอนตัม ผู้เขียน: ยุนจง