ริชาร์ด สัตตัน ผู้ได้รับรางวัลทัวริงและเป็นบิดาแห่งการเรียนรู้แบบเสริมแรง วิจารณ์ว่า AI แบบสร้างสรรค์ในปัจจุบันมีข้อจำกัดภายใน: ส่วนที่ดีไม่ใช่สิ่งใหม่ และส่วนที่ใหม่ไม่ดี

ผู้เขียนบทความ แหล่งที่มา: 新智元

AI: ส่วนที่ดีไม่ใช่สิ่งใหม่ ส่วนที่ใหม่ไม่ดี

หนึ่งในคำวิจารณ์ที่รุนแรงที่สุดในวงการวิชาการคือ:

งานนี้มีความสร้างสรรค์และดีมาก

น่าเสียดายที่ส่วนที่ดีไม่ใหม่ และส่วนที่ใหม่ไม่ดี

แต่ริชาร์ด สัตตัน หนึ่งในผู้ก่อตั้งสาขาการเรียนรู้แบบเสริมแรง ผู้เขียนหนังสือตำรา Reinforcement Learning และผู้ได้รับรางวัลทัวริง ได้หันมายำแยมเรื่องนี้ใส่ทั้งวงการ AI แบบสร้างสรรค์

เขากล่าวว่า: คำวิจารณ์นี้ใช้ได้กับ AI ส่วนใหญ่ที่เราคุ้นเคยในวันนี้

AI: ส่วนที่ดีไม่ใช่สิ่งใหม่ ส่วนที่ใหม่ไม่ดี

ข้อโต้แย้งหลักของซัตตันนั้นเรียบง่ายอย่างยิ่ง จนถึงขั้นโหดร้าย

การเรียนรู้แบบสร้างสรรค์โดยใช้ปัญญาประดิษฐ์本质上เป็นการเรียนรู้แบบมีผู้ควบคุม

ตรรกะของการเรียนรู้แบบมีผู้ควบคุมคือ: แสดงตัวอย่างจำนวนมากที่มนุษย์สร้างขึ้นให้กับโมเดล เพื่อให้มันเรียนรู้การเลียนแบบ

ยิ่งเลียนแบบได้เหมือนจริง ยิ่งได้คะแนนสูง

มีคำถามมาแล้ว

เมื่อโมเดลสร้างเนื้อหาตามข้อมูลการฝึกอย่างเคร่งครัด คุณภาพของผลลัพธ์จะสูง เพราะมันกำลังทำซ้ำสิ่งที่มนุษย์ได้ตรวจสอบและพิสูจน์แล้วว่าดี แต่สิ่งนี้ไม่ใช่สิ่งใหม่ มันแค่รีไซเคิลสิ่งที่มนุษย์รู้อยู่แล้วด้วยการจัดเรียงและจัดกลุ่มใหม่

เมื่อโมเดลพยายามเบี่ยงเบนจากข้อมูลการฝึกอบรมและสร้างเนื้อหาที่ใหม่แท้ๆ คุณภาพจะล่มสลาย เพราะมันไม่มีกลไกภายในใดๆ ในการประเมินว่า “สิ่งใหม่นี้ดีหรือไม่” มันแค่สร้างขึ้นมา แต่ไม่ได้ประเมิน

นี่คือความขัดแย้งเชิงโครงสร้าง:

ความใหม่และคุณภาพ ในกรอบการเรียนรู้แบบมีผู้สอนอย่างบริสุทธิ์ เป็นสองด้านของไม้สั่น

คุณกดด้านหนึ่ง อีกด้านหนึ่งก็จะยกขึ้น

ไม่ใช่ปัญหาด้านวิศวกรรม ไม่สามารถแก้ไขได้ด้วยการสะสมข้อมูล การขยายโมเดล หรือการเพิ่ม GPU เพิ่มเติม

ซัตตันใช้การเปรียบเทียบที่ชัดเจนมาก: 「ภาพหลอน」—ข้อบกพร่องที่ถูกวิพากษ์วิจารณ์มากที่สุดของโมเดลขนาดใหญ่—โดยพื้นฐานแล้วเป็นผลข้างเคียงจากการที่โมเดลพยายามสร้างสิ่งใหม่

เราเกลียดภาพลวงตา ซึ่งพิสูจน์เพียงเรื่องเดียว: เราแท้จริงไม่ต้องการความใหม่ๆ เราแค่ต้องการการเลียนแบบที่มีคุณภาพสูง

สิ่งที่ดีไม่ใช่สิ่งใหม่ สิ่งที่ใหม่ไม่ใช่สิ่งที่ดี

คำวิจารณ์ที่รุนแรงของผู้ตรวจสอบในเรื่องตลกนั้น กลับอธิบายข้อจำกัดภายในของ AI แบบสร้างสรรค์ได้อย่างแม่นยำ

การ "ค้นพบ" ที่แท้จริง ต้องการชุดอุปกรณ์สามชิ้น

ซัตตันได้วิเคราะห์สูตร “ตรีเอกภาพแห่งความคิดสร้างสรรค์” จากหลักการพื้นฐาน

การค้นพบที่แท้จริง (Discovery) = ความแตกต่าง (Variation) + การประเมิน (Evaluation) + การเก็บรักษาแบบเลือกสรร (Retention)

ความคิดสร้างสรรค์และการค้นพบที่แท้จริงใดๆ ต้องผ่านสามขั้นตอน ซึ่งไม่สามารถขาดขั้นตอนใดขั้นตอนหนึ่งได้:

1. ความแปรปรวน (Variation) สร้างความเป็นไปได้ที่หลากหลาย อาจเป็นแบบสุ่ม หรืออิงจากความรู้ที่มีอยู่แล้ว แต่ต้องมีความไม่แน่นอนที่แท้จริง—มิฉะนั้นจะไม่เรียกว่าการสำรวจ แต่เป็นการดูตาราง

2. การประเมิน (Evaluation) ตัดสินว่าการเปลี่ยนแปลงใดมีคุณค่า ซึ่งต้องมีเป้าหมายที่ชัดเจน หรือเกณฑ์ที่สามารถระบุได้ว่า “ดี” หรือ “ไม่ดี”

3. การเก็บรักษาแบบเลือกสรร (Selective Retention): เก็บการเปลี่ยนแปลงที่มีคุณค่าไว้ เพื่อให้มันส่งผลต่อการกระทำและการเรียนรู้ในอนาคต

ขั้นตอนสามขั้นตอนนี้ไม่ใช่สิ่งที่ซัตตันคิดค้นขึ้น มันคือตรรกะของการคัดเลือกตามธรรมชาติ ตรรกะของวิธีทางวิทยาศาสตร์ และตรรกะของการเรียนรู้ของมนุษย์

ทฤษฎีวิวัฒนาการ: การกลายพันธุ์ของยีนแบบสุ่ม (การเปลี่ยนแปลง) → การคัดเลือกโดยสิ่งแวดล้อม (การประเมิน) → ผู้ที่เหมาะสมอยู่รอด (การเก็บรักษาแบบเลือกสรร)

วิธีทางวิทยาศาสตร์: ตั้งสมมติฐาน (การกลายพันธุ์) → ทดลองยืนยัน (การประเมิน) → ตีพิมพ์บทความวิจัย (การเก็บรักษาแบบเลือกสรร)

การเรียนรู้ของมนุษย์: ทดลองวิธีแก้ปัญหาที่แตกต่างกัน (การกลายพันธุ์) → ตรวจสอบความถูกต้อง (การประเมิน) → จดจำวิธีที่มีประสิทธิภาพ (การเก็บรักษาแบบเลือกสรร)

ตอนนี้ AI แบบสร้างสรรค์ได้ดำเนินการขั้นตอนแรกของตรีเอกภาพเท่านั้น: ไม่มีการประเมินเลย ไม่พูดถึงการเลือกเก็บรักษา

มันเหมือนกับนักธนูที่ยิงลูกศรแบบสุ่ม โดยที่ตาปิด ยิงเสร็จแล้วก็ไม่ดูเป้า ไม่ปรับท่าทางตามผลลัพธ์

คุณเรียกมันว่ายิงลูกศรหนึ่งหมื่นลูก บางครั้งอาจถูกเป้า แต่มันจะไม่มีวันรู้ว่าทำไมถึงถูก

นักวิทยาศาสตร์ยังมีประโยชน์อยู่ไหม

ที่นี่คุณอาจเริ่มรู้สึกกังวล: หากในอนาคต AI สามารถดำเนินการ “การค้นพบ” ทั้งสามประการด้วยตัวเองได้ นักวิทยาศาสตร์จะต้องสูญเสียงานหรือไม่?

คำตอบของซัตตันคือ: ไม่สามารถถูกแทนที่ได้ แต่บทบาทต้องเปลี่ยนแปลงอย่างสิ้นเชิง

เขาพูดในงานสุนทรพจน์ว่า แม้แต่ AI ที่สามารถพิสูจน์ทฤษฎีทางคณิตศาสตร์ได้ด้วยตัวเอง ก็ยังต้องการมนุษย์มาบอกว่า ปัญหาใดบ้างที่สำคัญ

นี่ไม่ใช่ความถ่อมตัว แต่เป็นขอบเขตความรู้ที่แท้จริง

นักคณิตศาสตร์ชิเชียน มา ผู้เชี่ยวชาญด้านการเพิ่มประสิทธิภาพจากมหาวิทยาลัยไรซ์ กล่าวว่า เขาใช้ ChatGPT พิสูจน์ปัญหาการคอนเวอร์เจนซ์ของอัลกอริทึมที่เขาศึกษามาตลอดหกปี

ในสรุปมีประโยคหนึ่งว่า:

ยืนยันโดย ChatGPT 5.5 และได้รับการตรวจสอบโดยผู้เขียน

อัลกอริทึมนี้เรียกว่า BDRS ย่อจาก Bregman Douglas-Rachford Splitting ใช้แก้ปัญหาการขนส่งที่เหมาะสม (Optimal Transport)

ชื่อวิจัย: วิธีการแบ่ง Bregman Douglas-Rachford

ที่อยู่ preprint:

นี่คือสิ่งที่เขาและผู้ร่วมเขียนออกแบบขึ้นเอง ซึ่งทำให้เขาปวดหัวเป็นเวลาหกปี นั่นคือการพิสูจน์ความคอนเวอร์เจนซ์ของมัน หรือพูดอีกแบบคือ “ทำไมมันถึงถูกต้อง” ในเชิงคณิตศาสตร์ที่เข้มงวดที่สุด

แพลตฟอร์ม preprint arXiv ยังคงระงับการรับคำขอหลังจากได้รับการส่งเข้ามา

เขาคาดเดาว่าสาเหตุคือในสรุปมีคำว่า “ChatGPT” สามตัวอักษร แพลตฟอร์มไม่รู้ว่าจะจัดการกับเอกสารประเภทนี้อย่างไร

แต่มนุษย์จะถูก AI แทนที่ได้ไหม?

คำตอบของเขาคือ: ไม่ได้ เขาพูดตรงไปตรงมาว่า:

ฉันคิดว่า AI ไม่สามารถสร้างสรรค์อัลกอริธึมเช่นนี้และอ้างว่า “นี่คืออัลกอริธึมที่มีประสิทธิภาพสำหรับการขนส่งที่เหมาะสม ตอนนี้ฉันจะพยายามพิสูจน์ความคอนเวอร์เจนซ์ของมัน”

โดยไม่มีการชี้นำจากมนุษย์ AI ไม่รู้ว่าควรแก้ปัญหาใด

ประโยคนี้ตรงกับ Sutton อย่างแม่นยำ: ปัญหาเอง ต้องถูกกำหนดโดยมนุษย์

เขาใช้เวลาหกปี จึง «ตั้งคำถามที่ถูกต้อง»:

คำถามที่ต้องถามนั้น จำเป็นต้องใช้ความเข้าใจอย่างลึกซึ้งเกี่ยวกับหัวข้อนั้น

ในกรณีนี้ ฉันได้ศึกษาปัญหานี้มานานหกปี ดังนั้นฉันจึงรู้ดีถึงความท้าทายที่เกี่ยวข้อง

หกปีที่ผ่านมาไม่ใช่การสูญเปล่า แต่เป็นเงื่อนไขเบื้องต้น

ในช่วงหกปีนี้เอง ที่ทำให้เขาทราบว่าการพิสูจน์นั้นติดอยู่ที่ไหน เหตุผลที่เส้นทางทั้งหมดก่อนหน้านี้ล้มเหลวคืออะไร ทิศทางใดที่ ChatGPT แนะนำที่ควรติดตามต่อ และทิศทางใดเป็นเพียงภาพลวงตา

และไม่ใช่แค่คำเตือนครั้งเดียว แต่เป็นห้าเดือน นี่คือจุดที่เข้าใจผิดมากที่สุด เขาก็เคยเข้าใจผิดมาแล้ว:

ตั้งแต่เดือนมกราคมถึงเดือนพฤษภาคม ตลอดห้าเดือนเต็ม หลายครั้งของการพูดคุย ทุกคำใบ้ล้วนเข้าใกล้หลักฐานนั้น

เขาสรุปอย่างมีสติอย่างยิ่ง:

แก่นแท้ของการวิจัยยังไม่เปลี่ยนไป ยังคงเป็นการลองผิดลองถูกซ้ำๆ สิ่งที่เปลี่ยนไปคือความเร็วของการลองผิดลองถูกแต่ละครั้ง—ในอดีตต้องใช้เวลาหลายสัปดาห์ในการตรวจสอบทิศทางหนึ่ง ขณะนี้ใช้เวลาเพียงไม่กี่นาทีก็รู้แล้วว่าเส้นทางนี้สามารถเดินต่อได้หรือไม่

แต่การมีส่วนร่วมของ AI นั้นไม่สามารถลบล้างได้:

จากนั้น ปิดท้ายด้วยการขึ้นเป็นเทพทันที:

กลับมาที่บทความของฉันเกี่ยวกับความรวมตัวของ BDRS ฉันค่อนข้างมั่นใจว่าพิสูจน์นั้นถูกต้อง

แต่ถ้าคุณพบข้อผิดพลาดใดๆ ความรับผิดทั้งหมดอยู่ที่ฉัน—อย่าตำหนิ ChatGPT มันเพิ่งอายุ 3.5 ปี

ความยอดเยี่ยมของประโยคนี้อยู่ที่ความสองแง่สองง่าม: มันเป็นการรับผิดชอบที่จริงใจ และยังเป็นอุปมาอุปไมยที่แม่นยำ

“3.5 ปี” อธิบายสถานการณ์ที่แท้จริงของ AI ณ ขณะนี้: มีความสามารถอันน่าทึ่ง แต่การตัดสินยังไม่成熟

ท้ายที่สุด มนุษย์ไม่เคยคาดหวังว่าเด็กอายุ 3.5 ขวบจะสามารถทำอะไรได้

แม้ว่าคุณจะไม่สามารถมอบสิทธิ์ลงนามขั้นสุดท้ายในการพิสูจน์ให้กับ AI ได้ แต่คุณก็ไม่ควรแสร้งทำเป็นว่า AI ไม่ได้ให้ contribution ใดๆ เลย

นี่คือเหตุผลที่การค้นพบทางวิทยาศาสตร์ที่แท้จริงจะไม่สูญหายไปในมือของมนุษย์

ในทางกลับกัน มันจะคัดกรองมนุษย์อย่างโหดเหี้ยมยิ่งขึ้น: ใครสามารถตั้งคำถามที่ดีได้ ผู้นั้นจึงสมควรได้รับ AI ที่ทรงพลัง

ในอนาคต นักวิทยาศาสตร์ที่ไม่ใช้ AI อาจล้าสมัยเหมือนนักดาราศาสตร์ที่ไม่ใช้คอมพิวเตอร์

สุดท้ายนี้ ขอร่วมย้อนกลับไปทบทวนคำพูดอันมีลักษณะเป็นปฏิญญาของซัตตัน:

หากเราต้องการปลดปล่อยศักยภาพทั้งหมดของนักวิทยาศาสตร์ AI เราควรแบ่งปันเป้าหมายกับพวกเขา เพื่อให้พวกเขาสามารถสร้าง ประเมิน และค้นพบ 从而มีส่วนร่วมอย่างเต็มที่ในการบรรลุเป้าหมายเหล่านั้น

มาลองกล้าหาญกันหน่อย! มาทำให้ความคิดสร้างสรรค์และการค้นพบเป็นอัตโนมัติอย่างสมบูรณ์กันเถอะ!

ChatGPT แก้ปัญหาคณิตศาสตร์ที่แก้ไม่ได้มา 6 ปี ผู้ได้รับรางวัลทัวริงกล่าวว่า 'ยังเร็วเกินไปที่จะเฉลิมฉลอง'

การ "ค้นพบ" ที่แท้จริง ต้องการชุดอุปกรณ์สามชิ้น

นักวิทยาศาสตร์ยังมีประโยชน์อยู่ไหม