วิธีใหม่ประเมิน GPT-5.5 ที่ 9.7T, Grok-4 ที่ 3.2T

ข้อความจาก AIMPACT เมื่อวันที่ 30 เมษายน (UTC+8) ตามการติดตามของ Beating ศาสตราจารย์หลี่ โปเจี๋ย นักวิทยาศาสตร์หัวหน้าของ Pine AI ได้ตีพิมพ์บทความวิจัยเรื่อง “การค้นหาความรู้ที่ไม่สามารถบีบอัดได้: การประมาณจำนวนพารามิเตอร์ของโมเดลภาษาขนาดใหญ่แบบปิดแหล่งที่มาผ่านการวัดความสามารถในการจดจำข้อเท็จจริง” โดยใช้คำถามความรู้ทั่วไป 1,400 ข้อเพื่อถอดรหัสจำนวนพารามิเตอร์ของโมเดลปิดแหล่งที่มา เนื่องจากความรู้แต่ละข้อต้องใช้พื้นที่พารามิเตอร์ ยิ่งโมเดลตอบคำถามความรู้เฉพาะทางได้ถูกต้องมากเท่าใด จำนวนพารามิเตอร์ก็ไม่สามารถน้อยได้ เขาเริ่มจากการใช้โมเดลโอเพ่นซอร์ส 89 รุ่นที่รู้จำนวนพารามิเตอร์แน่นอนเพื่อสร้างเส้นโค้งการปรับตัวที่มีความแม่นยำสูง จากนั้นจึงนำคะแนนคำตอบของโมเดลปิดแหล่งที่มาไปวางบนกราฟเพื่ออ่านค่าจำนวนพารามิเตอร์ที่สอดคล้องกัน งานวิจัยนี้ประเมินโมเดลปิดแหล่งที่มา 92 รุ่น ค่าที่ได้ไม่ใช่ค่าที่แม่นยำ เช่น โมเดลที่ประมาณไว้ที่ 9.7T อาจมีค่าจริงอยู่ระหว่าง 3T ถึง 29T แต่การจัดอันดับสัมพัทธ์และระดับขนาดยังคงมีคุณค่าในการอ้างอิง: GPT-5.5 อยู่ที่ประมาณ 9.7T นำหน้าห่างไกลเป็นอันดับหนึ่ง เกือบสองเท่าของอันดับสองอย่าง Claude Opus 4.6 (ประมาณ 5.3T) กลุ่มอันดับสองอยู่ระหว่าง 3 ถึง 4T: GPT-5 ประมาณ 4.1T, Claude Opus 4.7 ประมาณ 4.0T, o1 ประมาณ 3.5T, Grok-4 ประมาณ 3.2T, o3 ประมาณ 3.0T โมเดลระดับนำของ OpenAI, Anthropic และ xAI อยู่ห่างกันไม่เกิน 1.4 เท่า กลุ่มอันดับสามอยู่ระหว่าง 1 ถึง 2T: GPT-4.1 ประมาณ 2.2T, Claude Sonnet 4.6 ประมาณ 1.7T, Gemini 2.5 Pro ประมาณ 1.2T ส่วนโมเดลขนาดเล็กด้านล่างตั้งแต่ GPT-4o ประมาณ 720B ลดลงถึง Claude Haiku 4.5 ประมาณ 65B GPT-5 เวอร์ชันพื้นฐานมีการประมาณอยู่ที่ประมาณ 4.1T แต่เวอร์ชัน .x ตามมา (5.1 ถึง 5.4) มีความสามารถในการจัดเก็บข้อเท็จจริงลดลงเหลือเพียง 1.0 ถึง 1.5T ก่อนจะกระโดดขึ้นไปที่ประมาณ 9.7T ใน GPT-5.5 เพื่อทำลายขีดจำกัดใหม่ การตรวจสอบที่ชาญฉลาดอีกอย่างหนึ่งของบทความคือการเปรียบเทียบว่าโมเดลสองตัวผิดคำตอบคำถามเฉพาะทางในลักษณะเดียวกันหรือไม่ GPT-5 ในแต่ละเวอร์ชัน .x มีข้อผิดพลาดต่างกันทั้งหมด (ความคล้ายคลึงกันต่ำกว่า 0.08 เสมอ) โดยแสดงให้เห็นว่าแต่ละเวอร์ชันเป็นโมเดลใหม่ที่ฝึกจากศูนย์ไม่ใช่การปรับแต่งบนน้ำหนักเดิม Claude Opus มีจำนวนพารามิเตอร์เพิ่มจากเวอร์ชันที่ 4 (1.4T) เป็นเวอร์ชันที่ 4.7 (4.0T) โดยไม่ได้ปรับแต่งต่อเนื่อง: เวอร์ชันที่ 4 และ 4.1 มีข้อผิดพลาดแทบเหมือนกันหมด (ยืนยันว่าเป็นการปรับแต่งบนฐานเดียวกัน) ในขณะที่เวอร์ชันที่ 4.6 และ 4.7 มีข้อผิดพลาดไม่ซ้ำกันเลย (ความคล้ายคลึงลดลงเป็นศูนย์) โดยแสดงว่าเวอร์ชันใหม่ล่าสุดก็เป็นผลผลิตจากการฝึกใหม่เช่นกัน ในโมเดล MoE (Mixture of Experts) พารามิเตอร์รวมทั้งหมดเท่านั้นที่สามารถทำนายความสามารถในการจัดเก็บความรู้ได้—not พารามิเตอร์ที่เปิดใช้งานในแต่ละครั้ง การวิจัยยังพบว่าโมเดลขนาดเท่ากันไม่ว่าจะเป็นรุ่นปัจจุบันหรือสองปีก่อน จะจดจำข้อเท็จจริงเฉพาะทางได้เท่ากัน การประมวลผลเชิงตรรกะสามารถพัฒนาให้แข็งแกร่งขึ้นได้เรื่อยๆ แต่ความสามารถในการจัดเก็บข้อมูลเชิงข้อเท็จจริงไม่สามารถลดลงได้ เครื่องมือประเมินและข้อมูลทั้งหมดได้รับการเปิดเผยแหล่งที่มาแล้ว (แหล่งที่มา: BlockBeats)