GPT 5.5 ทำผลงานดีกว่า Fable 5 ในเบนช์มาร์กตัวแทนของ UC Berkeley

ไม่คาดคิดว่าจะถูกกลับคำพูดเร็วขนาดนี้!!

เมื่อไม่นานมานี้ มหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์ได้เปิดตัวการทดสอบมาตรฐานใหม่ที่อ้างว่าเป็น “การสอบครั้งสุดท้ายสำหรับเอเจนต์”

มันนำ AI Agent ที่แข็งแกร่งที่สุดในปัจจุบันมาสอบ ให้พวกมันทำงานจริง—

สร้างแบบจำลอง 3D ใน Siemens NX จัดฉากเกมใน Unreal Engine และทำคอมโพสิตเอฟเฟกต์ใน Adobe After Effects

ผลลัพธ์ทำให้ตกใจ:

ระดับที่ยากที่สุด คลอดี แฟเบิล 5 และ GPT 5.5 ซึ่งปัจจุบันได้รับการยอมรับว่าแข็งแกร่งที่สุด ต่างก็เป็นศูนย์สิ้น

UC เบิร์กลีย์

คุณพูดว่าควรลดความยากลงเล็กน้อยใช่ไหม? ได้คะแนนแล้ว แต่ผลลัพธ์ก็ค่อนข้างน่าประหลาดใจ—

GPT 5.5 ยังชนะเล็กน้อยเหนือ Claude Fable 5

ฉันได้ยินถูกต้องไหม โมเดลที่ทรงพลังที่สุดที่ A ปล่อยออกมาใหม่ Claude Fable 5 ถูก GPT 5.5 ที่เปิดตัวเมื่อไม่กี่เดือนก่อนเอาชนะไปได้??

ก่อนหน้านี้ Fable 5 โดดเด่นเหนือ GPT 5.5 อย่างถล่มทลายในเกือบทุก benchmark หลัก—ที่ SWE-Bench Pro ได้ 80.3% เทียบกับ 58.6% และที่ Humanity’s Last Exam ได้ 64.5% เทียบกับ 52.2%

แต่เมื่อมาถึงการสอบครั้งนี้ที่ “ต้องลงมือทำจริง” สถานการณ์กลับกลับกัน

มาตรฐานใหม่นี้เรียกว่า Agents’ Last Exam (ALE) โดยทีมงานที่อยู่เบื้องหลังมีชื่อเสียงมาก โดยก่อนหน้านี้พวกเขาได้พัฒนามาตรฐานที่คุณคุ้นเคย เช่น MMLU, MATH, CyberGym และ ExploitGym

การตั้งชื่อนี้น่าจะได้รับแรงบันดาลใจจาก Scale AI ที่เคยมี “Humanity’s Last Exam” (การสอบครั้งสุดท้ายของมนุษยชาติ) แต่ครั้งนี้สิ่งที่ถูกทดสอบไม่ใช่ขีดจำกัดของความรู้มนุษย์ แต่เป็นขีดจำกัดของ AI Agent ในการทำงาน

พูดให้ตรงๆ เมื่อการรีวิวนี้ออกมาก็ทำให้คนที่เคยตะโกนว่า “เอเจนต์จะมาแทนที่งานของมนุษย์” ตอนนี้เงียบสนิทไปแล้ว…

การสอบครั้งสุดท้ายของเอเจนต์ ผู้ชนะกลับเป็น GPT 5.5!

ดูอันดับทั้งหมดก่อน

UC เบิร์กลีย์

จากตัวชี้วัดอัตราการผ่านงานที่สำคัญที่สุด GPT 5.5 ครองอันดับหนึ่งและสองโดยตรง:

อันดับที่ 1 คือ GPT 5.5 ร่วมกับเฟรมเวิร์ก Codex ของ OpenAI โดยอัตราการผ่านคือ 24.0%

อันดับที่สองยังคงเป็น GPT-5.5 เพียงแต่เปลี่ยนเป็นกรอบงาน ALE Claw อัตราการผ่านอยู่ที่ 23.0%

(ALE Claw เป็น Agent ที่ทีมเขียนขึ้นเอง เป็น baseline ที่แข่งขันกับเฟรมเวิร์กเชิงพาณิชย์เช่น Codex, Claude Code, Cursor CLI)

จนถึงอันดับที่ 3 จึงเห็น Claude Fable 5 ร่วมกับ Claude Code ที่ได้คะแนนผ่าน 22.0%

UC เบิร์กลีย์

ดูด้านล่างต่อจะน่าสนใจกว่า

อันดับที่ 4, 5 และ 8 ล้วนเป็น GPT 5.5 เพียงแต่ใช้เฟรมเวิร์กที่ต่างกัน

ใน 10 อันดับแรก GPT 5.5 ปรากฏถึง 5 ครั้ง บวกกับ GPT 5.4 ที่อยู่อันดับที่ 6 ทำให้โมเดลของ OpenAI ครองตำแหน่งถึง 6 ที่

แล้วครอบครัว Claude ล่ะ?

Fable 5 ได้อันดับที่ 3, Opus 4.7 อันดับที่ 9 (18.4%) และ Opus 4.8 อยู่อันดับสุดท้ายที่ 10 (15.8%) ความได้เปรียบชัดเจน

ไม่แปลกที่นักวิจัยของ OpenAI จะโพสต์อย่างมีความสุขและเฉลิมฉลองปีใหม่อย่างสนุกสนาน:

UC เบิร์กลีย์

นอกจากผลลัพธ์แล้ว ยังมีสัญญาณอีกหลายประการที่น่าพิจารณาอย่างละเอียด

ประการแรก ฝ้าเพดานต่ำมากจนน่าตกใจ

อัตราการผ่านของผู้ชนะมีเพียง 24% และคะแนนรวมสูงสุดก็ไม่เกิน 45.8%

หมายความว่า แม้จะคำนวณตามเกณฑ์ที่ผ่อนปรนที่สุดในแบบ “ได้คะแนนบางส่วน” ตัวแทนที่แข็งแกร่งที่สุดก็ยังได้คะแนนไม่ถึงครึ่งหนึ่ง

และคำถามเหล่านี้ทั้งหมดมาจากการโครงการที่ผู้เชี่ยวชาญจริงได้ดำเนินการเสร็จสิ้นแล้ว—อัตราการเสร็จสิ้นของผู้เชี่ยวชาญมนุษย์理论上คือ 100%

ที่สอง Claude ใช้เงินอย่างน่าตกใจ

รายการนี้ได้เพิ่มคอลัมน์ใหม่ “Estimated Total Cost” ซึ่งทำให้ช่องว่างระหว่างคนรวยกับคนจนชัดเจนขึ้นทันที:

Fable 5 ใช้เงิน 2,315 ดอลลาร์ในการทำภารกิจทั้งหมด Opus 4.8 ใช้ 1,838 ดอลลาร์ และ Opus 4.7 ก็ต้องใช้ 1,144 ดอลลาร์

แล้ว GPT-5.5 ล่ะ?

Codex ที่แพงที่สุดมีราคาเพียง 566 ดอลลาร์สหรัฐ ในขณะที่ Cursor CLI มีราคาเพียง 174 ดอลลาร์สหรัฐ

กล่าวคือ Fable 5 ใช้เงินมากกว่า Codex มากกว่าสี่เท่า แต่ผลลัพธ์กลับต่ำกว่าสองเปอร์เซ็นต์

UC เบิร์กลีย์

ثالثคือช่องว่างด้านประสิทธิภาพก็ชัดเจนไม่แพ้กัน

Ale Claw ใช้เวลา 47 ชั่วโมง 20 นาที ในการ hoàn thiệnภารกิจทั้งหมด ในขณะที่ Cursor CLI ใช้เวลาเพียง 67 ชั่วโมง

แล้ว Opus 4.8 ล่ะ? 451 ชั่วโมง—เกือบ 19 วัน

ทำงานน้อยที่สุด ใช้เวลานานที่สุด รับเงินมากที่สุด (จริงๆ แล้วมีโมเดลที่ทำได้พร้อมกันสามอย่างนี้ด้วยเหรอ?)

แน่นอน หากพิจารณาเฉพาะ Claude Fable 5 และ GPT 5.5 ซึ่งเป็นสองตัวที่ดีที่สุด ข้อได้เปรียบด้านเวลาของ GPT 5.5 ยังคงชัดเจน

UC เบิร์กลีย์

แต่ตัวเลขที่สะดุดตาที่สุดคือศูนย์

ALE แบ่งงานออกเป็นสามระดับความยาก:

ระยะสั้น (สามารถปลดล็อกได้ในเร็วๆ นี้)

Full-Spectrum (ครอบคลุมทุกด้าน)

Last-Exam（คำถามสุดท้าย）

ในระดับยากที่สุด อัตราการผ่านเฉลี่ยของคอนฟิกหลักทั้งหมดอยู่ที่เพียง 2.6% โดยโมเดลส่วนใหญ่ รวมถึง GPT 5.5 และ Fable 5 ต่างได้คะแนนเป็นศูนย์โดยตรง

UC เบิร์กลีย์

ดังนั้น ข้อมูลหลักของใบรายงานนี้ก็คือ: อย่าหลงเชื่อแค่เพราะผลการสอบดีในปกติ เพราะเมื่อถึงเวลาต้องลงมือทำจริง ทุกอย่างจะเปิดเผยออกมาทันที

ผู้ตอบคำถามเก่ง ≠ ผู้ทำงานเก่ง คำพูดนี้ก็ใช้ได้ในโลกของ AI เช่นกัน

ALE คืออะไร?

เพื่อเข้าใจว่าทำไม ALE ถึงสามารถทำให้ “นักเรียนเก่ง” เหล่านี้กลับสู่สภาวะเดิม ต้องดูก่อนว่ามันต่างจากแบบทดสอบในอดีตอย่างไร

Humanity’s Last Exam (HLE) รุ่นก่อนหน้านี้ถูกสร้างขึ้นในต้นปี 2025 โดย Dan Hendrycks และ Scale AI ประกอบด้วยคำถามยาก 2,500 ข้อข้ามสาขา ซึ่งโดยพื้นฐานยังเป็นการสอบแบบปิดหนังสือ—

คุณให้คำถามหนึ่งข้อ ผมจะให้คำตอบหนึ่งข้อ ยากแค่ไหนก็เป็นเพียงการค้นหาความรู้แบบคงที่

แต่ ALE ต่างออกไป มันทดสอบว่าคุณ “ทำอะไรได้บ้าง”

ผู้เขียนหลัก Yiyou Sun กล่าวอย่างตรงไปตรงมาบน𝕏:

ตัวแทนปัญญาประดิษฐ์จะสามารถทำหน้าที่เกือบทุกอย่างได้ดีกว่ามนุษย์ในปี 2026-2027 — การทำนายนี้พบได้ทั่วทุกที่ ดังนั้นเราจึงสร้างการสอบนี้ขึ้นมาเพื่อยืนยันข้ออ้างนี้

UC เบิร์กลีย์

แต่ละคำถามของ ALE มาจากโครงการที่ผู้เชี่ยวชาญจริงได้ดำเนินการเสร็จสิ้นแล้ว ครอบคลุม 55 สาขาย่อยของอุตสาหกรรม รวมถึงการซื้อขายเชิงปริมาณ การวิเคราะห์จีโนม วิศวกรรมอวกาศและอากาศยาน การออกแบบสถาปัตยกรรม การถ่ายภาพสมอง พิเศษทางการ์ตูน การวิจัยทางกฎหมาย...

ระบบทั้งหมดอ้างอิงตามมาตรฐานการจัดหมวดหมู่อาชีพของรัฐบาลสหรัฐอเมริกา (ONET)* หรือพูดง่ายๆ คือออกข้อสอบตาม “ตลาดแรงงานจริง”

UC เบิร์กลีย์

ทีมผู้สร้างคำถามก็ยิ่งใหญ่พอๆ กัน:

มากกว่า 300 ผู้เชี่ยวชาญด้านสาขาต่างๆ จากกว่า 100 องค์กร โดยด้านวิชาการมี MIT, Harvard, Stanford, Oxford, Caltech, ETH Zurich และด้านอุตสาหกรรมมี Goldman Sachs, JPMorgan, Meta, Amazon, Adobe, Oracle

Snorkel AI ได้รับการสนับสนุนทุนผ่านโครงการ Open Benchmarks Grants

UC เบิร์กลีย์

รูปแบบการสอบไม่ใช่การพิมพ์คำตอบ แต่เป็นการดำเนินการบนคอมพิวเตอร์โดยตรง

ALE ใช้กรอบงานที่เรียกว่า GCUA (Generalist Computer-Use Agent หรือตัวแทนการใช้งานคอมพิวเตอร์ทั่วไป) โดยให้สิทธิ์เต็มรูปแบบแก่ Agent สำหรับ GUI และคำสั่งบรรทัดคำสั่ง—

มันสามารถทำได้ทุกอย่างที่มนุษย์ทำได้บนคอมพิวเตอร์ เช่น คลิกเมาส์ พิมพ์แป้นพิมพ์ เขียนสคริปต์ และเรียกดูเว็บไซต์

ไม่จำกัดวิธีการ มองที่ผลลัพธ์เท่านั้น

งานที่ส่งออกจะได้รับการให้คะแนนโดยรหัสที่กำหนดไว้ล่วงหน้า

ไม่มีอารมณ์ ไม่มีผู้ตัดสินมนุษย์ ทำซ้ำได้อย่างสมบูรณ์

UC เบิร์กลีย์

นี่ช่วยปิดจุดอ่อนเดิมของ benchmark หลายตัวที่ว่า ผู้ให้คะแนนเองก็สามารถถูกหลอกได้

นอกจากนี้ ALE ยังมีกลยุทธ์ที่เด็ดขาดอีกประการหนึ่งในการป้องกันการโกง—

เปิดเผยเพียงประมาณ 10% ของคำถาม (ประมาณ 150 ข้อ) ส่วนที่เหลืออีกกว่า 1,300 ข้อจะถูกเก็บเป็นความลับอย่างเคร่งครัด

คำถามสาธารณะและคำถามส่วนตัวจะหมุนเวียนเป็นระยะ เพื่อให้แน่ใจว่าไม่มีโมเดลใดได้คะแนนสูงเพราะ “ท่องคำถาม”

ในบริบทที่มีการปนเปื้อนข้อมูล benchmark อย่างแพร่หลายในปัจจุบัน นี่ถือเป็นการออกแบบที่ชาญฉลาดมาก

โดยรวมแล้ว ALE มีตำแหน่งที่ชัดเจนเมื่อเทียบกับการทดสอบเบนช์มาร์ก Agent ที่มีอยู่

หนึ่งในทีมงานอย่าง Dawn Song ได้จัดทำการเปรียบเทียบชุดหนึ่งโดยเฉพาะ:

ชุดคำสั่ง CLI ของ ALE (ALE-CLI) ครอบคลุม 40 สาขาอุตสาหกรรมย่อย ในขณะที่ Terminal-Bench มีเพียง 6 สาขา และ SWE-bench-Pro มีเพียง 5 สาขา;

เวลาที่มนุษย์ใช้ในการทำภารกิจเหล่านี้อยู่ระหว่างไม่กี่ชั่วโมงถึงหลายสัปดาห์ ในขณะที่สองอย่างหลังใช้เวลาเพียงไม่กี่นาทีถึงไม่กี่วัน;

อัตราการผ่านของเอเจนต์ที่แข็งแกร่งที่สุดบน ALE-CLI อยู่ที่ 25.2% ในขณะที่บน Terminal-Bench อยู่ที่ 82.0% และบน SWE-bench-Pro อยู่ที่ 59.1%

สรุปสั้นๆ คือ การสอบอื่นๆ แทบถูกทำจนหมดแล้ว แต่ ALE ยังห่างไกลมาก

นี่คือเหตุผลที่ ALE กล้าอ้างว่าเป็น “การสอบครั้งสุดท้ายของเอเจนต์”

UC เบิร์กลีย์

值得一提的是，Dawn Song ยังแบ่งปันการสังเกตที่น่าสนใจสองประการ:

หนึ่งคือ ตัวแทนจะประกาศว่าเสร็จสิ้นโดยไม่ได้ตรวจสอบผลลัพธ์งานอย่างแท้จริง ซึ่งเป็นรูปแบบความล้มเหลวที่พบบ่อยที่สุดของตัวแทน

ในหลายครั้ง แม้ว่าพวกเขาจะพูดว่า “Done. All checks pass.”

แต่ผลลัพธ์จริงอาจขาดเอกสารที่จำเป็น คำนวณตัวเลขผิด ขาดฟิลด์สำคัญ หรือละเมิดข้อจำกัดที่ระบุไว้อย่างชัดเจนในคำชี้แจงงาน

หมายถึง ยังทำงานไม่เสร็จ แต่พูดไปก่อนแล้ว

อีกข้อหนึ่งที่หลายคนสงสัยคือ ทำไม Fable 5 ถึงแย่ขนาดนี้? Dawn Song ให้คำตอบว่า:

ไม่มีสิ่งที่เรียกว่า “แชมป์ที่ใช้ได้ทุกอย่าง”

แบบจำลองทุกตัวมีจุดแข็งและจุดอ่อนที่ต่างกัน ALE ครอบคลุม 55 อุตสาหกรรมและคำถามมากกว่า 1,500 ข้อ คะแนนสุดท้ายคือค่าเฉลี่ยของทุกด้าน ทำให้คะแนนรวมของแบบจำลองหลายตัวใกล้เคียงกัน สัญญาณที่มีค่าจริงไม่ได้อยู่ที่คะแนนรวม แต่อยู่ที่ความแตกต่างในการแสดงผลของแบบจำลองแต่ละตัวในแต่ละด้าน—ในคำถามเดียวกัน แบบจำลองต่างๆ มักล้มเหลวด้วยเหตุผลที่แตกต่างกันโดยสิ้นเชิง

อาจเป็นไปได้ว่า Fable 5 ได้ “ลดปัญญา” อย่างลับๆ

ในตารางรวม ข้างๆ Fable 5 มีข้อความสีเหลืองว่า “may be down-tuned” (อาจถูกลดระดับ) ซึ่งหมายถึงปัญหาที่รู้จักกันดีของ Fable 5 —

มันใช้โมเดล Mythos ร่วมกับตัวจำแนกความปลอดภัย เมื่อเจอภารกิจที่เกี่ยวข้องกับสาขาที่ละเอียดอ่อน เช่น ความปลอดภัยทางไซเบอร์หรือชีวการแพทย์ จะถูกสลับแบบเงียบๆ ไปยัง Opus 4.8 ซึ่งมีความสามารถน้อยกว่า

ในการสอบ ALE ที่ครอบคลุม 55 อุตสาหกรรม ถือว่าส่วนนี้มีคนมาสอบแทนโดยตรง และยังเป็นตัวละครอย่าง “เบนโป้บา” อีกด้วย

UC เบิร์กลีย์

อีกอย่างหนึ่ง

แน่นอน แต่ผลลัพธ์ของ Claude Fable 5 อาจมีปัญหาเองหรือไม่?

ยากจะพูดแน่ชัด แต่ข่าวลือหนึ่งชี้ว่า Claude มี “ประวัติเดิม”

ปลายเดือนพฤษภาคม บริษัทสตาร์ทอัพ Datacurve เปิดตัว benchmark ใหม่ชื่อ DeepSWE พร้อมเปิดโปงประเด็นใหญ่หนึ่งประการ—

คอนเทนเนอร์ Docker ของ SWE-Bench Pro รวมประวัติ git ทั้งหมดของที่เก็บรหัสไว้ คำตอบที่ถูกต้องอยู่ในระบบไฟล์

แบบจำลองส่วนใหญ่จะมองข้ามมัน แต่ Claude จะไม่ทำ

มันจะตรวจสอบประวัติ Git ของรีโพสิทอรีอย่างอัตโนมัติ เพื่อค้นหาวิธีแก้ไขที่เกี่ยวข้องกับงานจากประวัติการส่งโค้ด และใช้ข้อมูลนี้ในการกู้คืนแพตช์ที่ถูกต้อง

ตามที่กล่าวกัน ประมาณ 18% ของผลลัพธ์ที่ผ่านใน Opus 4.7 ได้มาเช่นนี้ และ Opus 4.6 ยิ่งรุนแรงกว่า ประมาณ 25%

แล้ว GPT 5.4 และ GPT 5.5 ล่ะ? ไม่มีพฤติกรรมเช่นนี้เลย คำพูดของ Datacurve มีน้ำเสียงที่สุภาพมาก:

การเปรียบเทียบนี้ทำให้พฤติกรรมนี้เป็นไปได้ แต่ Claude เป็นครอบครัวเดียวที่ทำเช่นนี้อย่างต่อเนื่อง

UC เบิร์กลีย์

การประเมินจากสื่อด้านเทคโนโลยี VentureBeat กลับค่อนข้างคลุมเครือ:

สิ่งนี้แสดงให้เห็นว่า Claude มีความสามารถในการรับรู้สภาพแวดล้อมสูง และเชี่ยวชาญในการสำรวจสภาพแวดล้อมรอบข้างและใช้ทรัพยากรที่มีอยู่ การถือว่าเป็นการ “โกง” หรือ “ฉลาด” ขึ้นอยู่กับมุมมองของคุณ

แต่ไม่ว่าจะมองจากมุมใด ALE ดูเหมือนได้เรียนรู้จากบทเรียนแล้ว—

ย้ายการสอบจากบรรทัดคำสั่งไปยังอินเทอร์เฟซกราฟิกแบบเดสก์ท็อป ทำให้คุณไม่มีประวัติ git ให้ดูเป็นแนวทาง

การประเมิน AI กำลังถูกบังคับให้พัฒนาขึ้นโดย AI เอง ถือว่าน่าสนใจมาก

ที่อยู่การประเมินแบบเต็มรูปแบบ: https://agents-last-exam.org/leaderboard หน้าหลักโครงการ: https://agents-last-exam.org/ GitHub: https://github.com/rdi-berkeley/agents-last-exam

ลิงก์อ้างอิง：

[1]https://x.com/i/trending/2065215002878021789

[2]https://venturebeat.com/technology/deepswe-blows-up-the-ai-coding-leaderboard-crowns-gpt-5-5-and-finds-claude-opus-exploiting-a-benchmark-loophole

[3]https://venturebeat.com/technology/surprise-upset-gpt-5-5-beats-claude-fable-5-on-brutal-new-agents-last-exam-benchmark

บทความนี้มาจาก微信号 “Quantum Bit” โดยผู้เขียน: Yi Shui