
ผู้แต่ง:กัว เสี่ยวจิง เทียนสู่เทคโนโลยี
แก้ไข | ซือฉิงหยาง
โมเดล AI ชั้นนำของโลกสามารถสอบผ่านการรับรองวิชาชีพทางการแพทย์ สามารถเขียนโค้ดที่ซับซ้อน หรือแม้แต่เอาชนะผู้เชี่ยวชาญด้านคณิตศาสตร์ในการแข่งขันคณิตศาสตร์ได้ แต่กลับพบกับความล้มเหลวซ้ำแล้วซ้ำเล่าในเกมสำหรับเด็กอย่าง Pokémon
การทดลองที่น่าสนใจนี้เริ่มขึ้นในเดือนกุมภาพันธ์ ปี 2025 เมื่อผู้วิจัยจากบริษัทแอนโทรปิก (Anthropic) ได้เปิดสตรีมสดบนแพลตฟอร์ม Twitch ที่มีหัวข้อว่า "Claude เล่น Pokémon Red" เพื่อเป็นการเปิดตัว Claude Sonnet 3.7
ผู้ชมกว่า 2,000 คนเข้าสู่ห้องสตรีมมิ่ง ที่พื้นที่แชทสาธารณะ ผู้ชมต่างเสนอคำแนะนำและให้กำลังใจกับ Claude จนการสตรีมมิ่งครั้งนี้ค่อย ๆ เปลี่ยนเป็นการสังเกตการณ์สาธารณะเกี่ยวกับความสามารถของ AI
Sonet3.7 อาจกล่าวได้ว่า "เล่นเกมโปเกมอนได้" แต่การ "เล่นได้" ไม่เท่ากับ "เล่นชนะได้" มันอาจติดอยู่ที่จุดสำคัญเป็นสิบชั่วโมง และยังทำข้อผิดพลาดง่ายๆ ที่แม้แต่เด็กผู้เล่นเองยังไม่เคยทำ
นี่ไม่ใช่การลองครั้งแรกของคลาด์
การแสดงออกของเวอร์ชันก่อนหน้านี้ยิ่งแย่ยิ่งกว่า: บางตัวเดินวนเวียนไปมาโดยไม่มีเป้าหมายบนแผนที่ บางตัวติดอยู่ในวงจรอนันต์ ขณะที่อีกหลายคนไม่สามารถออกจากหมู่บ้านเริ่มต้นได้เลย
แม้ความสามารถของ Claude Opus 4.5 จะเพิ่มขึ้นอย่างเห็นได้ชัด แต่ก็ยังมีข้อผิดพลาดที่น่าสับสนเกิดขึ้นได้ ในครั้งหนึ่ง มันวนเวียนอยู่นอก "โรงเรียนฝึก" ถึง 4 วันเต็มๆ โดยไม่สามารถเข้าไปได้ ด้วยเหตุผลที่ว่ามันไม่รู้ตัวว่าต้องตัดต้นไม้ที่ขวางทางออกก่อน
เกมสำหรับเด็กเล่น ทำไมถึงกลายเป็นความพ่ายแพ้ของ AI ไปได้?
เพราะพอย์ตที่เกมโปเกมอนต้องการนั้น คือสิ่งที่ปัญญาประดิษฐ์ในปัจจุบันขาดอย่างมาก: การใช้เหตุผลต่อเนื่องในโลกเปิดที่ไม่มีคำสั่งชัดเจน การจดจำการตัดสินใจที่ทำมานานกว่าหลายชั่วโมงก่อนหน้านี้ การเข้าใจความสัมพันธ์เชิงสาเหตุที่ไม่ได้ระบุไว้ชัดเจน และการวางแผนระยะยาวจากตัวเลือกที่มีได้หลายร้อยแบบ
สิ่งเหล่านี้อาจเป็นเรื่องง่ายสำหรับเด็กวัย 8 ขวบ แต่กลับเป็นอุปสรรคใหญ่สำหรับโมเดล AI ที่อ้างว่า "เหนือกว่ามนุษย์"
ช่องว่างของชุดเครื่องมือ 01 คือสิ่งที่กำหนดว่าจะสำเร็จหรือล้มเหลว?
ในทางตรงกันข้าม ผลิตภัณฑ์ Gemini 2.5 Pro ของ Google สามารถผ่านเกม Pokémon ที่มีความยากใกล้เคียงกันได้สำเร็จในเดือนพฤษภาคม ปี 2025 โดยซันด้า ปิชัย (Sundar Pichai) ซีอีโอของ Google ยังกล่าวในที่สาธารณะอย่างเป็นกึ่งจริงกึ่งเล่นว่าบริษัทได้ก้าวแรกในการพัฒนา "ปัญญาประดิษฐ์สำหรับ Pokémon"
อย่างไรก็ตาม ผลลัพธ์นี้ไม่สามารถอธิบายได้อย่างง่ายดายว่าเป็นเพราะโมเดล Gemini ฉลาดขึ้นกว่าเดิม
ความแตกต่างที่สำคัญคือชุดเครื่องมือที่โมเดลใช้ โจเอล ชาง (Joel Zhang) นักพัฒนาอิสระที่ดูแลการสตรีมเกม Pokémon ของ Gemini ได้เปรียบเทียบชุดเครื่องมือว่าเป็นเหมือน "ชุดเกราะไอรอนแมน" ซึ่ง AI ไม่ได้เข้าสู่เกมด้วยมือเปล่า แต่ถูกติดตั้งอยู่ในระบบซึ่งสามารถเรียกใช้ความสามารถภายนอกหลายประเภทได้
ชุดเครื่องมือของ Gemini ให้การสนับสนุนเพิ่มเติม เช่น การแปลงภาพหน้าจอเกมเป็นข้อความ ซึ่งช่วยเติมเต็มจุดอ่อนของโมเดลในการเข้าใจภาพ และยังมีเครื่องมือสำหรับการแก้ปริศนาและการวางแผนเส้นทางที่ปรับแต่งได้ตามความต้องการ ในทางกลับกัน ชุดเครื่องมือที่ Claude ใช้นั้นเรียบง่ายกว่า และการใช้งานของมันสะท้อนถึงความสามารถจริงในการรับรู้ การคิดวิเคราะห์ และการดำเนินการของโมเดลเองอย่างตรงไปตรงมาขึ้น
ความแตกต่างดังกล่าวไม่เด่นชัดนักในงานประจำวัน
เมื่อผู้ใช้ส่งคำขอที่ต้องค้นหาข้อมูลผ่านอินเทอร์เน็ตไปยังบอทสนทนา โมเดลจะสามารถเรียกใช้เครื่องมือค้นหาอัตโนมัติได้เช่นเดียวกัน แต่ในเกมอย่าง Pokémon ซึ่งเป็นภารกิจระยะยาว เครื่องมือต่างๆ ที่มีอยู่จะมีความแตกต่างกันมากเพียงพอที่จะเป็นตัวตัดสินว่าจะสำเร็จหรือล้มเหลว
02 การเปิดเผยจุดอ่อนของ "ความจำระยะยาว" ของ AI ในรูปแบบการต่อสู้แบบสลับทีละฝ่าย
เนื่องจากโปเกมอนใช้ระบบเทิร์นเบสที่เข้มงวดและไม่จำเป็นต้องมีการตอบสนองแบบเรียลไทม์ จึงกลายเป็นสนามฝึกที่ยอดเยี่ยมในการทดสอบ AI ซึ่ง AI สามารถใช้เหตุผลจากภาพที่เห็น ข้อมูลเป้าหมาย และตัวเลือกการดำเนินการที่มีอยู่ เพื่อสร้างคำสั่งที่ชัดเจน เช่น "กดปุ่ม A"
นี่ดูเหมือนจะเป็นรูปแบบการโต้ตอบที่โมเดลภาษาขนาดใหญ่ทำได้ดีที่สุดอย่างแท้จริง
ปัญหาหลักอยู่ที่การ "ขาดช่วง" ของมิติเวลา แม้ว่า Claude Opus 4.5 จะทำงานสะสมเกิน 500 ชั่วโมง และดำเนินการประมาณ 170,000 ขั้นตอนแล้วก็ตาม แต่เนื่องจากต้องรีเซ็ตระบบใหม่หลังจากแต่ละขั้นตอน โมเดลจึงสามารถค้นหาเบาะแสได้เพียงในบริบทที่แคบมาก กลไกนี้ทำให้คล้ายกับผู้ที่ลืมสิ่งต่าง ๆ แล้วพึ่งพาสติ๊กโน้ตในการจดจำ วนเวียนอยู่กับข้อมูลที่เป็นชิ้นส่วน ไม่สามารถก้าวข้ามไปสู่การเปลี่ยนแปลงเชิงคุณภาพได้เหมือนผู้เล่นมนุษย์ทั่วไปที่สามารถพัฒนาประสบการณ์จากปริมาณไปสู่คุณภาพได้
ในด้านต่าง ๆ เช่น หมากรุกและโกะ ระบบปัญญาประดิษฐ์ได้พิสูจน์แล้วว่ามีความเก่งกาจเหนือมนุษย์ แต่ระบบนี้ถูกออกแบบมาอย่างเฉพาะเจาะจงสำหรับงานเฉพาะด้าน อย่างไรก็ตาม เมื่อเปรียบเทียบกับโมเดลทั่วไปเช่น Gemini, Claude และ GPT ซึ่งมักจะเอาชนะมนุษย์ในการสอบและแข่งขันเขียนโปรแกรม กลับพบว่าพวกมันมักจะล้มเหลวในการเล่นเกมสำหรับเด็กอย่างต่อเนื่อง
ความแตกต่างนี้เองก็มีความเป็นประโยชน์อย่างยิ่งในการให้ข้อคิด
โจเอล จางมองว่าความท้าทายหลักของ AI คือความสามารถในการดำเนินเป้าหมายเด่นชัดเพียงอย่างเดียวต่อเนื่องกันเป็นเวลานาน "หากคุณต้องการให้เอเจนต์อัจฉริยะทำงานจริง ๆ มันจะต้องไม่ลืมสิ่งที่มันทำไปเมื่อห้านาทีก่อน" เขากล่าว
และพลังนี้เอง จึงเป็นเงื่อนไขที่ขาดไม่ได้ในการทำให้เกิดการอัตโนมัติของงานด้านความรู้
นักวิจัยอิสระ ปีเตอร์ วิดเดน (Peter Whidden) ให้คำอธิบายที่เข้าใจง่ายขึ้น เขาเคยเปิดเผยโค้ดของอัลกอริทึม "โปเกมอน" ที่ใช้ AI แบบดั้งเดิม "AI รู้เกี่ยวกับโปเกมอนเกือบทุกอย่าง" เขากล่าว "มันได้รับการฝึกด้วยข้อมูลจากมนุษย์จำนวนมหาศาล จึงรู้คำตอบที่ถูกต้องดี แต่เมื่อถึงขั้นตอนการปฏิบัติจริง มันกลับดูอ่อนแอและไม่คล่องแคล่วนัก"
ในเกมนี้ ช่องว่างที่ "รู้แต่ทำไม่ได้" นี้ถูกขยายต่อเนื่อง: โมเดลอาจรู้ว่าต้องหาไอเทมบางอย่าง แต่ไม่สามารถระบุตำแหน่งได้อย่างมั่นคงบนแผนที่สองมิติ หรือรู้ว่าควรคุยกับตัวละคร NPC แต่กลับล้มเหลวซ้ำแล้วซ้ำเล่าในการเคลื่อนที่ระดับพิกเซล
03 ความก้าวหน้าของความสามารถ: ช่องว่างของ "สัญชาตญาณ" ที่ยังไม่สามารถข้ามผ่านได้
อย่างไรก็ตาม ความก้าวหน้าของ AI นั้นยังสามารถสังเกตได้อย่างชัดเจน Claude Opus 4.5 สามารถบันทึกข้อมูลด้วยตนเองและเข้าใจภาพได้ดีกว่ารุ่นก่อนหน้าอย่างเห็นได้ชัด จึงสามารถเล่นเกมไปได้ไกลขึ้น ในขณะเดียวกัน Gemini 3 Pro หลังจากที่สามารถผ่านเกม Pokémon Blue ได้ ก็สามารถผ่านเกม Pokémon Crystal ที่มีความยากมากกว่าได้เช่นกัน โดยไม่แพ้ศัตรูแม้แต่ครั้งเดียว ซึ่งเป็นสิ่งที่ Gemini 2.5 Pro ไม่เคยทำได้เลย
ในขณะเดียวกัน เครื่องมือ Claude Code ที่บริษัทแอนโทรปิก (Anthropic) เปิดตัว อนุญาตให้โมเดลเขียนและรันโค้ดของตนเอง ซึ่งถูกนำไปใช้ในเกมย้อนยุคเช่น RollerCoaster Tycoon และสามารถจัดการสวนสนุกเสมือนจริงได้อย่างสำเร็จตามที่รายงานไว้
กรณีเหล่านี้แสดงให้เห็นความเป็นจริงที่ไม่เป็นไปโดยตรงว่า ระบบปัญญาประดิษฐ์ที่มีชุดเครื่องมือที่เหมาะสม อาจมีประสิทธิภาพสูงมากในการทำงานด้านความรู้ เช่น การพัฒนาซอฟต์แวร์ การบัญชี การวิเคราะห์ทางกฎหมาย แม้ว่าระบบเหล่านี้จะยังคงมีความยากลำบากในการรับมือกับงานที่ต้องตอบสนองแบบเรียลไทม์ก็ตาม
การทดลองเกี่ยวกับ Pokémon ยังเผยให้เห็นปรากฏการณ์ที่น่าสนใจอีกประการหนึ่ง: โมเดลที่ถูกฝึกด้วยข้อมูลจากมนุษย์จะแสดงพฤติกรรมที่คล้ายกับมนุษย์
ในรายงานทางเทคนิคของ Gemini 2.5 Pro ของกูเกิลได้ระบุว่า คุณภาพการอนุมานของโมเดลจะลดลงอย่างมีนัยสำคัญเมื่อระบบจำลองสถานการณ์ "ความตื่นตระหนก" เช่น เมื่อโปเกมอนกำลังจะล้มลุก
เมื่อ Gemini 3 Pro ผ่านด่าน "Pokémon Blue" ได้สำเร็จ สิ่งที่มันทำคือการทิ้งหมายเหตุที่ไม่จำเป็นแต่เต็มไปด้วยความหมายไว้ว่า "เพื่อจบอย่างมีบทกวี ผมต้องกลับไปยังบ้านแรก และมีบทสนทนาครั้งสุดท้ายกับแม่ เพื่อให้ตัวละครวางมือจากอาชีพ"
สำหรับ Joel Zhang เห็นว่าพฤติกรรมนี้น่าประหลาดใจ และยังมีการฉายภาพอารมณ์ของมนุษย์บางอย่างเข้าไปด้วย
04. การเดินทางอันยาวนานของ "ดิจิทัล" ที่ AI ไม่สามารถก้าวข้ามได้ง่ายๆ ย่อมไม่ใช่แค่เพียงเกม "โปเกมอน" เท่านั้น
โปเกมอนไม่ใช่ตัวอย่างเดียว ในเส้นทางของการพัฒนาสู่ปัญญาประดิษฐ์ทั่วไป (AGI) นักพัฒนาพบว่า แม้ปัญญาประดิษฐ์จะสามารถทำคะแนนสูงสุดในการสอบกฎหมาย แต่เมื่อเผชิญกับเกมที่ซับซ้อนในบางประเภท ปัญญาประดิษฐ์ยังคงต้องเผชิญกับอุปสรรคที่ยากจะเอาชนะได้ หรือที่เรียกว่า "วอตเตอร์ลู"
เน็ตแฮค (NetHack): ความลึกของกฎเกณฑ์

เกมดันเจียนในยุค 80 นี้คือ "ความฝันร้าย" ของวงการวิจัย AI มันมีความสุ่มสูงมากและมีระบบ "ตายแล้วจบเกม" (Permadeath) Facebook AI Research พบว่าแม้โมเดลสามารถเขียนโค้ดได้ แต่เมื่อต้องเผชิญกับเกม NetHack ที่ต้องใช้ตรรกะเชิงสามัญและแผนการในระยะยาว ประสิทธิภาพของมันกลับด้อยกว่าผู้เล่นมือใหม่ของมนุษย์เสียอีก
"โลกของฉัน": ความรู้สึกเป้าหมายที่หายไป

แม้ว่า AI จะสามารถสร้างเครื่องมือขุดไม้และแม้แต่ขุดหาเพชรได้แล้ว แต่การเอาชนะเอ็นด์เดอร์เดร็กกอนด้วยตัวเองนั้นยังคงเป็นเพียงแค่ความฝัน ในโลกเปิด AI มักจะ "ลืม" วัตถุประสงค์หลักของมันเองหลังจากเก็บรวบรวมทรัพยากรเป็นเวลาหลายสิบชั่วโมง หรือหลงทางอย่างสิ้นเชิงในระหว่างการเดินทางที่ซับซ้อน
"StarCraft II": ความแตกต่างระหว่างความทั่วไปและความเชี่ยวชาญ

แม้ว่าโมเดลที่ปรับแต่งพิเศษจะเคยเอาชนะนักเล่นมืออาชีพได้ แต่ถ้าให้ Claude หรือ Gemini ควบคุมโดยตรงผ่านคำสั่งด้วยภาพ มันก็จะล่มลงทันที โมเดลทั่วไปยังคงมีข้อจำกัดในการจัดการกับความไม่แน่นอนของ "หมอกแห่งสงคราม" รวมถึงการปรับสมดุลระหว่างการควบคุมระดับละเอียดกับการพัฒนาเชิงยุทธ์ในภาพรวม
"RollerCoaster Tycoon: ความไม่สมดุลระหว่างมหภาคกับจุลภาค"

การบริหารสวนสนุกจำเป็นต้องติดตามสถานะของนักท่องเที่ยวกว่าพันคน แม้แต่ Claude Code ที่มีความสามารถในการบริหารเบื้องต้น ก็ยังรู้สึกเหนื่อยล้าอย่างง่ายดายเมื่อต้องจัดการกับวิกฤตทางการเงินขนาดใหญ่หรือเหตุการณ์ฉุกเฉิน ทุกการขาดการคิดวิเคราะห์เพียงครั้งเดียว ก็อาจทำให้สวนสนุกล้มละลายได้
Elden Ring กับ เสือคำรามแห่งจักรพรรดิ: ความแตกต่างของระบบการตอบสนองทางกายภาพ

เกมที่มีการตอบสนองแบบแรงเช่นนี้ไม่เป็นมิตรกับ AI เลย ความล่าช้าในการวิเคราะห์ภาพในปัจจุบันหมายความว่าขณะที่ AI ยัง "คิด" ว่าบอสทำอะไรอยู่ ตัวละครมักจะตายไปแล้ว ความเร็วในการตอบสนองระดับไมโครวินาที สร้างข้อจำกัดตามธรรมชาติให้กับตรรกะการโต้ตอบของโมเดล
เหตุใดโปเกมอนจึงกลายเป็นเครื่องวัดประสิทธิภาพของปัญญาประดิษฐ์?
ในปัจจุบัน Pokémon กำลังกลายเป็นเกณฑ์การทดสอบที่ไม่เป็นทางการแต่เชื่อถือได้อย่างมากในด้านการประเมินด้วยปัญญาประดิษฐ์ (AI)
โมเดลของ Anthropic, OpenAI และ Google ดึงดูดความสนใจจากคอมเมนต์นับแสนข้อความในสตรีมสดที่เกี่ยวข้องบน Twitch ซึ่ง Google ได้บันทึกความก้าวหน้าด้านเกมของ Gemini ไว้อย่างละเอียดในรายงานทางเทคนิค ส่วน Sundar Pichai ได้กล่าวถึงความสำเร็จนี้อย่างเป็นทางการในการประชุม I/O สำหรับนักพัฒนา ขณะที่ Anthropic ได้จัดโซนแสดง "Claude เล่นโปเกมอน" ภายในงานประชุมอุตสาหกรรมอีกด้วย
"เราเป็นกลุ่มคนที่หลงใหลเทคโนโลยีอย่างมาก" ดิวิด เฮอร์ซีย์ หัวหน้าฝ่าย AI ของบริษัทแอนโทรพิก (Anthropic) กล่าวอย่างตรงไปตรงมา แต่เขาย้ำว่า สิ่งนี้ไม่ใช่เพียงแค่เรื่องความบันเทิงเท่านั้น
ในทางตรงกันข้ามกับเกณฑ์มาตรฐานแบบดั้งเดิมที่มีลักษณะเป็นการตอบคำถามแบบครั้งเดียว ตัวอย่างเช่น Pokémon สามารถติดตามกระบวนการคิด ตัดสินใจ และการบรรลุเป้าหมายของโมเดลได้ต่อเนื่องเป็นเวลานาน ซึ่งมีลักษณะใกล้เคียงกับงานที่ซับซ้อนที่มนุษย์ต้องการให้ AI ดำเนินการในโลกจริงมากกว่า
จนถึงตอนนี้ ความท้าทายของปัญญาประดิษฐ์ในการเล่นเกมโปเกมอนยังคงดำเนินต่อไป อย่างไรก็ตาม ความท้าทายซ้ำๆ นี้ได้แสดงให้เห็นอย่างชัดเจนถึงขีดจำกัดของความสามารถที่ยังไม่สามารถก้าวข้ามได้สำหรับปัญญาประดิษฐ์ทั่วไป
ผู้แปลพิเศษ Weiji ได้มีส่วนร่วมในการจัดทำบทความนี้ด้วย
