ริชาร์ด สัตตัน ผู้ได้รับรางวัลทัวริงและเป็นบิดาแห่งการเรียนรู้แบบเสริมแรง วิจารณ์ว่า AI แบบสร้างสรรค์ในปัจจุบันมีข้อจำกัดภายใน: ส่วนที่ดีไม่ใช่สิ่งใหม่ และส่วนที่ใหม่ไม่ดี
ผู้เขียนบทความ แหล่งที่มา: 新智元
AI: ส่วนที่ดีไม่ใช่สิ่งใหม่ ส่วนที่ใหม่ไม่ดี
หนึ่งในคำวิจารณ์ที่รุนแรงที่สุดในวงการวิชาการคือ:
งานนี้มีความสร้างสรรค์และดีมาก
น่าเสียดายที่ส่วนที่ดีไม่ใหม่ และส่วนที่ใหม่ไม่ดี
แต่ริชาร์ด สัตตัน หนึ่งในผู้ก่อตั้งสาขาการเรียนรู้แบบเสริมแรง ผู้เขียนหนังสือตำรา Reinforcement Learning และผู้ได้รับรางวัลทัวริง ได้หันมายำแยมเรื่องนี้ใส่ทั้งวงการ AI แบบสร้างสรรค์

เขากล่าวว่า: คำวิจารณ์นี้ใช้ได้กับ AI ส่วนใหญ่ที่เราคุ้นเคยในวันนี้

AI: ส่วนที่ดีไม่ใช่สิ่งใหม่ ส่วนที่ใหม่ไม่ดี
ข้อโต้แย้งหลักของซัตตันนั้นเรียบง่ายอย่างยิ่ง จนถึงขั้นโหดร้าย
การเรียนรู้แบบสร้างสรรค์โดยใช้ปัญญาประดิษฐ์本质上เป็นการเรียนรู้แบบมีผู้ควบคุม
ตรรกะของการเรียนรู้แบบมีผู้ควบคุมคือ: แสดงตัวอย่างจำนวนมากที่มนุษย์สร้างขึ้นให้กับโมเดล เพื่อให้มันเรียนรู้การเลียนแบบ
ยิ่งเลียนแบบได้เหมือนจริง ยิ่งได้คะแนนสูง

มีคำถามมาแล้ว
เมื่อโมเดลสร้างเนื้อหาตามข้อมูลการฝึกอย่างเคร่งครัด คุณภาพของผลลัพธ์จะสูง เพราะมันกำลังทำซ้ำสิ่งที่มนุษย์ได้ตรวจสอบและพิสูจน์แล้วว่าดี แต่สิ่งนี้ไม่ใช่สิ่งใหม่ มันแค่รีไซเคิลสิ่งที่มนุษย์รู้อยู่แล้วด้วยการจัดเรียงและจัดกลุ่มใหม่
เมื่อโมเดลพยายามเบี่ยงเบนจากข้อมูลการฝึกอบรมและสร้างเนื้อหาที่ใหม่แท้ๆ คุณภาพจะล่มสลาย เพราะมันไม่มีกลไกภายในใดๆ ในการประเมินว่า “สิ่งใหม่นี้ดีหรือไม่” มันแค่สร้างขึ้นมา แต่ไม่ได้ประเมิน
นี่คือความขัดแย้งเชิงโครงสร้าง:
ความใหม่และคุณภาพ ในกรอบการเรียนรู้แบบมีผู้สอนอย่างบริสุทธิ์ เป็นสองด้านของไม้สั่น
คุณกดด้านหนึ่ง อีกด้านหนึ่งก็จะยกขึ้น

ไม่ใช่ปัญหาด้านวิศวกรรม ไม่สามารถแก้ไขได้ด้วยการสะสมข้อมูล การขยายโมเดล หรือการเพิ่ม GPU เพิ่มเติม
ซัตตันใช้การเปรียบเทียบที่ชัดเจนมาก: 「ภาพหลอน」—ข้อบกพร่องที่ถูกวิพากษ์วิจารณ์มากที่สุดของโมเดลขนาดใหญ่—โดยพื้นฐานแล้วเป็นผลข้างเคียงจากการที่โมเดลพยายามสร้างสิ่งใหม่
เราเกลียดภาพลวงตา ซึ่งพิสูจน์เพียงเรื่องเดียว: เราแท้จริงไม่ต้องการความใหม่ๆ เราแค่ต้องการการเลียนแบบที่มีคุณภาพสูง
สิ่งที่ดีไม่ใช่สิ่งใหม่ สิ่งที่ใหม่ไม่ใช่สิ่งที่ดี
คำวิจารณ์ที่รุนแรงของผู้ตรวจสอบในเรื่องตลกนั้น กลับอธิบายข้อจำกัดภายในของ AI แบบสร้างสรรค์ได้อย่างแม่นยำ
การ "ค้นพบ" ที่แท้จริง ต้องการชุดอุปกรณ์สามชิ้น
ซัตตันได้วิเคราะห์สูตร “ตรีเอกภาพแห่งความคิดสร้างสรรค์” จากหลักการพื้นฐาน
การค้นพบที่แท้จริง (Discovery) = ความแตกต่าง (Variation) + การประเมิน (Evaluation) + การเก็บรักษาแบบเลือกสรร (Retention)
ความคิดสร้างสรรค์และการค้นพบที่แท้จริงใดๆ ต้องผ่านสามขั้นตอน ซึ่งไม่สามารถขาดขั้นตอนใดขั้นตอนหนึ่งได้:
1. ความแปรปรวน (Variation) สร้างความเป็นไปได้ที่หลากหลาย อาจเป็นแบบสุ่ม หรืออิงจากความรู้ที่มีอยู่แล้ว แต่ต้องมีความไม่แน่นอนที่แท้จริง—มิฉะนั้นจะไม่เรียกว่าการสำรวจ แต่เป็นการดูตาราง
2. การประเมิน (Evaluation) ตัดสินว่าการเปลี่ยนแปลงใดมีคุณค่า ซึ่งต้องมีเป้าหมายที่ชัดเจน หรือเกณฑ์ที่สามารถระบุได้ว่า “ดี” หรือ “ไม่ดี”
3. การเก็บรักษาแบบเลือกสรร (Selective Retention): เก็บการเปลี่ยนแปลงที่มีคุณค่าไว้ เพื่อให้มันส่งผลต่อการกระทำและการเรียนรู้ในอนาคต
ขั้นตอนสามขั้นตอนนี้ไม่ใช่สิ่งที่ซัตตันคิดค้นขึ้น มันคือตรรกะของการคัดเลือกตามธรรมชาติ ตรรกะของวิธีทางวิทยาศาสตร์ และตรรกะของการเรียนรู้ของมนุษย์
ทฤษฎีวิวัฒนาการ: การกลายพันธุ์ของยีนแบบสุ่ม (การเปลี่ยนแปลง) → การคัดเลือกโดยสิ่งแวดล้อม (การประเมิน) → ผู้ที่เหมาะสมอยู่รอด (การเก็บรักษาแบบเลือกสรร)
วิธีทางวิทยาศาสตร์: ตั้งสมมติฐาน (การกลายพันธุ์) → ทดลองยืนยัน (การประเมิน) → ตีพิมพ์บทความวิจัย (การเก็บรักษาแบบเลือกสรร)
การเรียนรู้ของมนุษย์: ทดลองวิธีแก้ปัญหาที่แตกต่างกัน (การกลายพันธุ์) → ตรวจสอบความถูกต้อง (การประเมิน) → จดจำวิธีที่มีประสิทธิภาพ (การเก็บรักษาแบบเลือกสรร)

ตอนนี้ AI แบบสร้างสรรค์ได้ดำเนินการขั้นตอนแรกของตรีเอกภาพเท่านั้น: ไม่มีการประเมินเลย ไม่พูดถึงการเลือกเก็บรักษา
มันเหมือนกับนักธนูที่ยิงลูกศรแบบสุ่ม โดยที่ตาปิด ยิงเสร็จแล้วก็ไม่ดูเป้า ไม่ปรับท่าทางตามผลลัพธ์
คุณเรียกมันว่ายิงลูกศรหนึ่งหมื่นลูก บางครั้งอาจถูกเป้า แต่มันจะไม่มีวันรู้ว่าทำไมถึงถูก
นักวิทยาศาสตร์ยังมีประโยชน์อยู่ไหม
ที่นี่คุณอาจเริ่มรู้สึกกังวล: หากในอนาคต AI สามารถดำเนินการ “การค้นพบ” ทั้งสามประการด้วยตัวเองได้ นักวิทยาศาสตร์จะต้องสูญเสียงานหรือไม่?
คำตอบของซัตตันคือ: ไม่สามารถถูกแทนที่ได้ แต่บทบาทต้องเปลี่ยนแปลงอย่างสิ้นเชิง
เขาพูดในงานสุนทรพจน์ว่า แม้แต่ AI ที่สามารถพิสูจน์ทฤษฎีทางคณิตศาสตร์ได้ด้วยตัวเอง ก็ยังต้องการมนุษย์มาบอกว่า ปัญหาใดบ้างที่สำคัญ
นี่ไม่ใช่ความถ่อมตัว แต่เป็นขอบเขตความรู้ที่แท้จริง
นักคณิตศาสตร์ชิเชียน มา ผู้เชี่ยวชาญด้านการเพิ่มประสิทธิภาพจากมหาวิทยาลัยไรซ์ กล่าวว่า เขาใช้ ChatGPT พิสูจน์ปัญหาการคอนเวอร์เจนซ์ของอัลกอริทึมที่เขาศึกษามาตลอดหกปี

ในสรุปมีประโยคหนึ่งว่า:
ยืนยันโดย ChatGPT 5.5 และได้รับการตรวจสอบโดยผู้เขียน

อัลกอริทึมนี้เรียกว่า BDRS ย่อจาก Bregman Douglas-Rachford Splitting ใช้แก้ปัญหาการขนส่งที่เหมาะสม (Optimal Transport)

ชื่อวิจัย: วิธีการแบ่ง Bregman Douglas-Rachford
ที่อยู่ preprint:
นี่คือสิ่งที่เขาและผู้ร่วมเขียนออกแบบขึ้นเอง ซึ่งทำให้เขาปวดหัวเป็นเวลาหกปี นั่นคือการพิสูจน์ความคอนเวอร์เจนซ์ของมัน หรือพูดอีกแบบคือ “ทำไมมันถึงถูกต้อง” ในเชิงคณิตศาสตร์ที่เข้มงวดที่สุด

แพลตฟอร์ม preprint arXiv ยังคงระงับการรับคำขอหลังจากได้รับการส่งเข้ามา
เขาคาดเดาว่าสาเหตุคือในสรุปมีคำว่า “ChatGPT” สามตัวอักษร แพลตฟอร์มไม่รู้ว่าจะจัดการกับเอกสารประเภทนี้อย่างไร
แต่มนุษย์จะถูก AI แทนที่ได้ไหม?
คำตอบของเขาคือ: ไม่ได้ เขาพูดตรงไปตรงมาว่า:
ฉันคิดว่า AI ไม่สามารถสร้างสรรค์อัลกอริธึมเช่นนี้และอ้างว่า “นี่คืออัลกอริธึมที่มีประสิทธิภาพสำหรับการขนส่งที่เหมาะสม ตอนนี้ฉันจะพยายามพิสูจน์ความคอนเวอร์เจนซ์ของมัน”
โดยไม่มีการชี้นำจากมนุษย์ AI ไม่รู้ว่าควรแก้ปัญหาใด

ประโยคนี้ตรงกับ Sutton อย่างแม่นยำ: ปัญหาเอง ต้องถูกกำหนดโดยมนุษย์
เขาใช้เวลาหกปี จึง «ตั้งคำถามที่ถูกต้อง»:
คำถามที่ต้องถามนั้น จำเป็นต้องใช้ความเข้าใจอย่างลึกซึ้งเกี่ยวกับหัวข้อนั้น
ในกรณีนี้ ฉันได้ศึกษาปัญหานี้มานานหกปี ดังนั้นฉันจึงรู้ดีถึงความท้าทายที่เกี่ยวข้อง

หกปีที่ผ่านมาไม่ใช่การสูญเปล่า แต่เป็นเงื่อนไขเบื้องต้น
ในช่วงหกปีนี้เอง ที่ทำให้เขาทราบว่าการพิสูจน์นั้นติดอยู่ที่ไหน เหตุผลที่เส้นทางทั้งหมดก่อนหน้านี้ล้มเหลวคืออะไร ทิศทางใดที่ ChatGPT แนะนำที่ควรติดตามต่อ และทิศทางใดเป็นเพียงภาพลวงตา
และไม่ใช่แค่คำเตือนครั้งเดียว แต่เป็นห้าเดือน นี่คือจุดที่เข้าใจผิดมากที่สุด เขาก็เคยเข้าใจผิดมาแล้ว:

ตั้งแต่เดือนมกราคมถึงเดือนพฤษภาคม ตลอดห้าเดือนเต็ม หลายครั้งของการพูดคุย ทุกคำใบ้ล้วนเข้าใกล้หลักฐานนั้น
เขาสรุปอย่างมีสติอย่างยิ่ง:

แก่นแท้ของการวิจัยยังไม่เปลี่ยนไป ยังคงเป็นการลองผิดลองถูกซ้ำๆ สิ่งที่เปลี่ยนไปคือความเร็วของการลองผิดลองถูกแต่ละครั้ง—ในอดีตต้องใช้เวลาหลายสัปดาห์ในการตรวจสอบทิศทางหนึ่ง ขณะนี้ใช้เวลาเพียงไม่กี่นาทีก็รู้แล้วว่าเส้นทางนี้สามารถเดินต่อได้หรือไม่
แต่การมีส่วนร่วมของ AI นั้นไม่สามารถลบล้างได้:

จากนั้น ปิดท้ายด้วยการขึ้นเป็นเทพทันที:
กลับมาที่บทความของฉันเกี่ยวกับความรวมตัวของ BDRS ฉันค่อนข้างมั่นใจว่าพิสูจน์นั้นถูกต้อง
แต่ถ้าคุณพบข้อผิดพลาดใดๆ ความรับผิดทั้งหมดอยู่ที่ฉัน—อย่าตำหนิ ChatGPT มันเพิ่งอายุ 3.5 ปี

ความยอดเยี่ยมของประโยคนี้อยู่ที่ความสองแง่สองง่าม: มันเป็นการรับผิดชอบที่จริงใจ และยังเป็นอุปมาอุปไมยที่แม่นยำ
“3.5 ปี” อธิบายสถานการณ์ที่แท้จริงของ AI ณ ขณะนี้: มีความสามารถอันน่าทึ่ง แต่การตัดสินยังไม่成熟
ท้ายที่สุด มนุษย์ไม่เคยคาดหวังว่าเด็กอายุ 3.5 ขวบจะสามารถทำอะไรได้
แม้ว่าคุณจะไม่สามารถมอบสิทธิ์ลงนามขั้นสุดท้ายในการพิสูจน์ให้กับ AI ได้ แต่คุณก็ไม่ควรแสร้งทำเป็นว่า AI ไม่ได้ให้ contribution ใดๆ เลย
นี่คือเหตุผลที่การค้นพบทางวิทยาศาสตร์ที่แท้จริงจะไม่สูญหายไปในมือของมนุษย์
ในทางกลับกัน มันจะคัดกรองมนุษย์อย่างโหดเหี้ยมยิ่งขึ้น: ใครสามารถตั้งคำถามที่ดีได้ ผู้นั้นจึงสมควรได้รับ AI ที่ทรงพลัง
ในอนาคต นักวิทยาศาสตร์ที่ไม่ใช้ AI อาจล้าสมัยเหมือนนักดาราศาสตร์ที่ไม่ใช้คอมพิวเตอร์
สุดท้ายนี้ ขอร่วมย้อนกลับไปทบทวนคำพูดอันมีลักษณะเป็นปฏิญญาของซัตตัน:
หากเราต้องการปลดปล่อยศักยภาพทั้งหมดของนักวิทยาศาสตร์ AI เราควรแบ่งปันเป้าหมายกับพวกเขา เพื่อให้พวกเขาสามารถสร้าง ประเมิน และค้นพบ 从而มีส่วนร่วมอย่างเต็มที่ในการบรรลุเป้าหมายเหล่านั้น
มาลองกล้าหาญกันหน่อย! มาทำให้ความคิดสร้างสรรค์และการค้นพบเป็นอัตโนมัติอย่างสมบูรณ์กันเถอะ!
