โมเดล AI ชั้นนำต่างเผชิญความยากลำบากในการเอาชนะเกมโปเกมอน สะท้อนถึงช่องว่างในการคิดอย่างมีเหตุผลในระยะยาว

iconPANews
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
โมเดล AI ชั้นนำ เช่น Claude และ Gemini ประสบความล้มเหลวในการเล่นเกม Pokémon แม้จะมีความเก่งในการเขียนโค้ดและการสอบ ในเดือนกุมภาพันธ์ ปี 2025 Claude Sonnet 3.7 ล้มเหลวในการทำภารกิจพื้นฐานใน Pokémon Red บน Twitch โมเดลรุ่นแรกไม่สามารถผ่านบทเรียนพื้นฐานได้ ในขณะที่ Opus 4.5 วนเวียนอยู่รอบโรงยิมเป็นวันๆ จนถึงเดือนพฤษภาคม ปี 2025 Google Gemini 2.5 Pro สามารถทำสำเร็จได้ด้วยเครื่องมือที่ดีขึ้น นักวิจัยกล่าวว่า AI ขาดความจำระยะยาวและไม่สามารถจัดการกับงานที่เปิดกว้างได้ ปัญหาเดียวกันนี้ยังพบในเกมอื่นๆ เช่น Minecraft และ StarCraft II ด้วย ดังนั้นสำหรับการลงทุนระยะยาว การเข้าใจข้อจำกัดเหล่านี้จึงเป็นสิ่งสำคัญในการประเมินอัตราความเสี่ยงต่อผลตอบแทนของโครงการที่ขับเคลื่อนด้วย AI

ผู้แต่ง:กัว เสี่ยวจิง เทียนสู่เทคโนโลยี

แก้ไข | ซือฉิงหยาง

โมเดล AI ชั้นนำของโลกสามารถสอบผ่านการรับรองวิชาชีพทางการแพทย์ สามารถเขียนโค้ดที่ซับซ้อน หรือแม้แต่เอาชนะผู้เชี่ยวชาญด้านคณิตศาสตร์ในการแข่งขันคณิตศาสตร์ได้ แต่กลับพบกับความล้มเหลวซ้ำแล้วซ้ำเล่าในเกมสำหรับเด็กอย่าง Pokémon

การทดลองที่น่าสนใจนี้เริ่มขึ้นในเดือนกุมภาพันธ์ ปี 2025 เมื่อผู้วิจัยจากบริษัทแอนโทรปิก (Anthropic) ได้เปิดสตรีมสดบนแพลตฟอร์ม Twitch ที่มีหัวข้อว่า "Claude เล่น Pokémon Red" เพื่อเป็นการเปิดตัว Claude Sonnet 3.7

ผู้ชมกว่า 2,000 คนเข้าสู่ห้องสตรีมมิ่ง ที่พื้นที่แชทสาธารณะ ผู้ชมต่างเสนอคำแนะนำและให้กำลังใจกับ Claude จนการสตรีมมิ่งครั้งนี้ค่อย ๆ เปลี่ยนเป็นการสังเกตการณ์สาธารณะเกี่ยวกับความสามารถของ AI

Sonet3.7 อาจกล่าวได้ว่า "เล่นเกมโปเกมอนได้" แต่การ "เล่นได้" ไม่เท่ากับ "เล่นชนะได้" มันอาจติดอยู่ที่จุดสำคัญเป็นสิบชั่วโมง และยังทำข้อผิดพลาดง่ายๆ ที่แม้แต่เด็กผู้เล่นเองยังไม่เคยทำ

นี่ไม่ใช่การลองครั้งแรกของคลาด์

การแสดงออกของเวอร์ชันก่อนหน้านี้ยิ่งแย่ยิ่งกว่า: บางตัวเดินวนเวียนไปมาโดยไม่มีเป้าหมายบนแผนที่ บางตัวติดอยู่ในวงจรอนันต์ ขณะที่อีกหลายคนไม่สามารถออกจากหมู่บ้านเริ่มต้นได้เลย

แม้ความสามารถของ Claude Opus 4.5 จะเพิ่มขึ้นอย่างเห็นได้ชัด แต่ก็ยังมีข้อผิดพลาดที่น่าสับสนเกิดขึ้นได้ ในครั้งหนึ่ง มันวนเวียนอยู่นอก "โรงเรียนฝึก" ถึง 4 วันเต็มๆ โดยไม่สามารถเข้าไปได้ ด้วยเหตุผลที่ว่ามันไม่รู้ตัวว่าต้องตัดต้นไม้ที่ขวางทางออกก่อน

เกมสำหรับเด็กเล่น ทำไมถึงกลายเป็นความพ่ายแพ้ของ AI ไปได้?

เพราะพอย์ตที่เกมโปเกมอนต้องการนั้น คือสิ่งที่ปัญญาประดิษฐ์ในปัจจุบันขาดอย่างมาก: การใช้เหตุผลต่อเนื่องในโลกเปิดที่ไม่มีคำสั่งชัดเจน การจดจำการตัดสินใจที่ทำมานานกว่าหลายชั่วโมงก่อนหน้านี้ การเข้าใจความสัมพันธ์เชิงสาเหตุที่ไม่ได้ระบุไว้ชัดเจน และการวางแผนระยะยาวจากตัวเลือกที่มีได้หลายร้อยแบบ

สิ่งเหล่านี้อาจเป็นเรื่องง่ายสำหรับเด็กวัย 8 ขวบ แต่กลับเป็นอุปสรรคใหญ่สำหรับโมเดล AI ที่อ้างว่า "เหนือกว่ามนุษย์"

ช่องว่างของชุดเครื่องมือ 01 คือสิ่งที่กำหนดว่าจะสำเร็จหรือล้มเหลว?

ในทางตรงกันข้าม ผลิตภัณฑ์ Gemini 2.5 Pro ของ Google สามารถผ่านเกม Pokémon ที่มีความยากใกล้เคียงกันได้สำเร็จในเดือนพฤษภาคม ปี 2025 โดยซันด้า ปิชัย (Sundar Pichai) ซีอีโอของ Google ยังกล่าวในที่สาธารณะอย่างเป็นกึ่งจริงกึ่งเล่นว่าบริษัทได้ก้าวแรกในการพัฒนา "ปัญญาประดิษฐ์สำหรับ Pokémon"

อย่างไรก็ตาม ผลลัพธ์นี้ไม่สามารถอธิบายได้อย่างง่ายดายว่าเป็นเพราะโมเดล Gemini ฉลาดขึ้นกว่าเดิม

ความแตกต่างที่สำคัญคือชุดเครื่องมือที่โมเดลใช้ โจเอล ชาง (Joel Zhang) นักพัฒนาอิสระที่ดูแลการสตรีมเกม Pokémon ของ Gemini ได้เปรียบเทียบชุดเครื่องมือว่าเป็นเหมือน "ชุดเกราะไอรอนแมน" ซึ่ง AI ไม่ได้เข้าสู่เกมด้วยมือเปล่า แต่ถูกติดตั้งอยู่ในระบบซึ่งสามารถเรียกใช้ความสามารถภายนอกหลายประเภทได้

ชุดเครื่องมือของ Gemini ให้การสนับสนุนเพิ่มเติม เช่น การแปลงภาพหน้าจอเกมเป็นข้อความ ซึ่งช่วยเติมเต็มจุดอ่อนของโมเดลในการเข้าใจภาพ และยังมีเครื่องมือสำหรับการแก้ปริศนาและการวางแผนเส้นทางที่ปรับแต่งได้ตามความต้องการ ในทางกลับกัน ชุดเครื่องมือที่ Claude ใช้นั้นเรียบง่ายกว่า และการใช้งานของมันสะท้อนถึงความสามารถจริงในการรับรู้ การคิดวิเคราะห์ และการดำเนินการของโมเดลเองอย่างตรงไปตรงมาขึ้น

ความแตกต่างดังกล่าวไม่เด่นชัดนักในงานประจำวัน

เมื่อผู้ใช้ส่งคำขอที่ต้องค้นหาข้อมูลผ่านอินเทอร์เน็ตไปยังบอทสนทนา โมเดลจะสามารถเรียกใช้เครื่องมือค้นหาอัตโนมัติได้เช่นเดียวกัน แต่ในเกมอย่าง Pokémon ซึ่งเป็นภารกิจระยะยาว เครื่องมือต่างๆ ที่มีอยู่จะมีความแตกต่างกันมากเพียงพอที่จะเป็นตัวตัดสินว่าจะสำเร็จหรือล้มเหลว

02 การเปิดเผยจุดอ่อนของ "ความจำระยะยาว" ของ AI ในรูปแบบการต่อสู้แบบสลับทีละฝ่าย

เนื่องจากโปเกมอนใช้ระบบเทิร์นเบสที่เข้มงวดและไม่จำเป็นต้องมีการตอบสนองแบบเรียลไทม์ จึงกลายเป็นสนามฝึกที่ยอดเยี่ยมในการทดสอบ AI ซึ่ง AI สามารถใช้เหตุผลจากภาพที่เห็น ข้อมูลเป้าหมาย และตัวเลือกการดำเนินการที่มีอยู่ เพื่อสร้างคำสั่งที่ชัดเจน เช่น "กดปุ่ม A"

นี่ดูเหมือนจะเป็นรูปแบบการโต้ตอบที่โมเดลภาษาขนาดใหญ่ทำได้ดีที่สุดอย่างแท้จริง

ปัญหาหลักอยู่ที่การ "ขาดช่วง" ของมิติเวลา แม้ว่า Claude Opus 4.5 จะทำงานสะสมเกิน 500 ชั่วโมง และดำเนินการประมาณ 170,000 ขั้นตอนแล้วก็ตาม แต่เนื่องจากต้องรีเซ็ตระบบใหม่หลังจากแต่ละขั้นตอน โมเดลจึงสามารถค้นหาเบาะแสได้เพียงในบริบทที่แคบมาก กลไกนี้ทำให้คล้ายกับผู้ที่ลืมสิ่งต่าง ๆ แล้วพึ่งพาสติ๊กโน้ตในการจดจำ วนเวียนอยู่กับข้อมูลที่เป็นชิ้นส่วน ไม่สามารถก้าวข้ามไปสู่การเปลี่ยนแปลงเชิงคุณภาพได้เหมือนผู้เล่นมนุษย์ทั่วไปที่สามารถพัฒนาประสบการณ์จากปริมาณไปสู่คุณภาพได้

ในด้านต่าง ๆ เช่น หมากรุกและโกะ ระบบปัญญาประดิษฐ์ได้พิสูจน์แล้วว่ามีความเก่งกาจเหนือมนุษย์ แต่ระบบนี้ถูกออกแบบมาอย่างเฉพาะเจาะจงสำหรับงานเฉพาะด้าน อย่างไรก็ตาม เมื่อเปรียบเทียบกับโมเดลทั่วไปเช่น Gemini, Claude และ GPT ซึ่งมักจะเอาชนะมนุษย์ในการสอบและแข่งขันเขียนโปรแกรม กลับพบว่าพวกมันมักจะล้มเหลวในการเล่นเกมสำหรับเด็กอย่างต่อเนื่อง

ความแตกต่างนี้เองก็มีความเป็นประโยชน์อย่างยิ่งในการให้ข้อคิด

โจเอล จางมองว่าความท้าทายหลักของ AI คือความสามารถในการดำเนินเป้าหมายเด่นชัดเพียงอย่างเดียวต่อเนื่องกันเป็นเวลานาน "หากคุณต้องการให้เอเจนต์อัจฉริยะทำงานจริง ๆ มันจะต้องไม่ลืมสิ่งที่มันทำไปเมื่อห้านาทีก่อน" เขากล่าว

และพลังนี้เอง จึงเป็นเงื่อนไขที่ขาดไม่ได้ในการทำให้เกิดการอัตโนมัติของงานด้านความรู้

นักวิจัยอิสระ ปีเตอร์ วิดเดน (Peter Whidden) ให้คำอธิบายที่เข้าใจง่ายขึ้น เขาเคยเปิดเผยโค้ดของอัลกอริทึม "โปเกมอน" ที่ใช้ AI แบบดั้งเดิม "AI รู้เกี่ยวกับโปเกมอนเกือบทุกอย่าง" เขากล่าว "มันได้รับการฝึกด้วยข้อมูลจากมนุษย์จำนวนมหาศาล จึงรู้คำตอบที่ถูกต้องดี แต่เมื่อถึงขั้นตอนการปฏิบัติจริง มันกลับดูอ่อนแอและไม่คล่องแคล่วนัก"

ในเกมนี้ ช่องว่างที่ "รู้แต่ทำไม่ได้" นี้ถูกขยายต่อเนื่อง: โมเดลอาจรู้ว่าต้องหาไอเทมบางอย่าง แต่ไม่สามารถระบุตำแหน่งได้อย่างมั่นคงบนแผนที่สองมิติ หรือรู้ว่าควรคุยกับตัวละคร NPC แต่กลับล้มเหลวซ้ำแล้วซ้ำเล่าในการเคลื่อนที่ระดับพิกเซล

03 ความก้าวหน้าของความสามารถ: ช่องว่างของ "สัญชาตญาณ" ที่ยังไม่สามารถข้ามผ่านได้

อย่างไรก็ตาม ความก้าวหน้าของ AI นั้นยังสามารถสังเกตได้อย่างชัดเจน Claude Opus 4.5 สามารถบันทึกข้อมูลด้วยตนเองและเข้าใจภาพได้ดีกว่ารุ่นก่อนหน้าอย่างเห็นได้ชัด จึงสามารถเล่นเกมไปได้ไกลขึ้น ในขณะเดียวกัน Gemini 3 Pro หลังจากที่สามารถผ่านเกม Pokémon Blue ได้ ก็สามารถผ่านเกม Pokémon Crystal ที่มีความยากมากกว่าได้เช่นกัน โดยไม่แพ้ศัตรูแม้แต่ครั้งเดียว ซึ่งเป็นสิ่งที่ Gemini 2.5 Pro ไม่เคยทำได้เลย

ในขณะเดียวกัน เครื่องมือ Claude Code ที่บริษัทแอนโทรปิก (Anthropic) เปิดตัว อนุญาตให้โมเดลเขียนและรันโค้ดของตนเอง ซึ่งถูกนำไปใช้ในเกมย้อนยุคเช่น RollerCoaster Tycoon และสามารถจัดการสวนสนุกเสมือนจริงได้อย่างสำเร็จตามที่รายงานไว้

กรณีเหล่านี้แสดงให้เห็นความเป็นจริงที่ไม่เป็นไปโดยตรงว่า ระบบปัญญาประดิษฐ์ที่มีชุดเครื่องมือที่เหมาะสม อาจมีประสิทธิภาพสูงมากในการทำงานด้านความรู้ เช่น การพัฒนาซอฟต์แวร์ การบัญชี การวิเคราะห์ทางกฎหมาย แม้ว่าระบบเหล่านี้จะยังคงมีความยากลำบากในการรับมือกับงานที่ต้องตอบสนองแบบเรียลไทม์ก็ตาม

การทดลองเกี่ยวกับ Pokémon ยังเผยให้เห็นปรากฏการณ์ที่น่าสนใจอีกประการหนึ่ง: โมเดลที่ถูกฝึกด้วยข้อมูลจากมนุษย์จะแสดงพฤติกรรมที่คล้ายกับมนุษย์

ในรายงานทางเทคนิคของ Gemini 2.5 Pro ของกูเกิลได้ระบุว่า คุณภาพการอนุมานของโมเดลจะลดลงอย่างมีนัยสำคัญเมื่อระบบจำลองสถานการณ์ "ความตื่นตระหนก" เช่น เมื่อโปเกมอนกำลังจะล้มลุก

เมื่อ Gemini 3 Pro ผ่านด่าน "Pokémon Blue" ได้สำเร็จ สิ่งที่มันทำคือการทิ้งหมายเหตุที่ไม่จำเป็นแต่เต็มไปด้วยความหมายไว้ว่า "เพื่อจบอย่างมีบทกวี ผมต้องกลับไปยังบ้านแรก และมีบทสนทนาครั้งสุดท้ายกับแม่ เพื่อให้ตัวละครวางมือจากอาชีพ"

สำหรับ Joel Zhang เห็นว่าพฤติกรรมนี้น่าประหลาดใจ และยังมีการฉายภาพอารมณ์ของมนุษย์บางอย่างเข้าไปด้วย

04. การเดินทางอันยาวนานของ "ดิจิทัล" ที่ AI ไม่สามารถก้าวข้ามได้ง่ายๆ ย่อมไม่ใช่แค่เพียงเกม "โปเกมอน" เท่านั้น

โปเกมอนไม่ใช่ตัวอย่างเดียว ในเส้นทางของการพัฒนาสู่ปัญญาประดิษฐ์ทั่วไป (AGI) นักพัฒนาพบว่า แม้ปัญญาประดิษฐ์จะสามารถทำคะแนนสูงสุดในการสอบกฎหมาย แต่เมื่อเผชิญกับเกมที่ซับซ้อนในบางประเภท ปัญญาประดิษฐ์ยังคงต้องเผชิญกับอุปสรรคที่ยากจะเอาชนะได้ หรือที่เรียกว่า "วอตเตอร์ลู"

เน็ตแฮค (NetHack): ความลึกของกฎเกณฑ์

เกมดันเจียนในยุค 80 นี้คือ "ความฝันร้าย" ของวงการวิจัย AI มันมีความสุ่มสูงมากและมีระบบ "ตายแล้วจบเกม" (Permadeath) Facebook AI Research พบว่าแม้โมเดลสามารถเขียนโค้ดได้ แต่เมื่อต้องเผชิญกับเกม NetHack ที่ต้องใช้ตรรกะเชิงสามัญและแผนการในระยะยาว ประสิทธิภาพของมันกลับด้อยกว่าผู้เล่นมือใหม่ของมนุษย์เสียอีก

"โลกของฉัน": ความรู้สึกเป้าหมายที่หายไป

แม้ว่า AI จะสามารถสร้างเครื่องมือขุดไม้และแม้แต่ขุดหาเพชรได้แล้ว แต่การเอาชนะเอ็นด์เดอร์เดร็กกอนด้วยตัวเองนั้นยังคงเป็นเพียงแค่ความฝัน ในโลกเปิด AI มักจะ "ลืม" วัตถุประสงค์หลักของมันเองหลังจากเก็บรวบรวมทรัพยากรเป็นเวลาหลายสิบชั่วโมง หรือหลงทางอย่างสิ้นเชิงในระหว่างการเดินทางที่ซับซ้อน

"StarCraft II": ความแตกต่างระหว่างความทั่วไปและความเชี่ยวชาญ

แม้ว่าโมเดลที่ปรับแต่งพิเศษจะเคยเอาชนะนักเล่นมืออาชีพได้ แต่ถ้าให้ Claude หรือ Gemini ควบคุมโดยตรงผ่านคำสั่งด้วยภาพ มันก็จะล่มลงทันที โมเดลทั่วไปยังคงมีข้อจำกัดในการจัดการกับความไม่แน่นอนของ "หมอกแห่งสงคราม" รวมถึงการปรับสมดุลระหว่างการควบคุมระดับละเอียดกับการพัฒนาเชิงยุทธ์ในภาพรวม

"RollerCoaster Tycoon: ความไม่สมดุลระหว่างมหภาคกับจุลภาค"

การบริหารสวนสนุกจำเป็นต้องติดตามสถานะของนักท่องเที่ยวกว่าพันคน แม้แต่ Claude Code ที่มีความสามารถในการบริหารเบื้องต้น ก็ยังรู้สึกเหนื่อยล้าอย่างง่ายดายเมื่อต้องจัดการกับวิกฤตทางการเงินขนาดใหญ่หรือเหตุการณ์ฉุกเฉิน ทุกการขาดการคิดวิเคราะห์เพียงครั้งเดียว ก็อาจทำให้สวนสนุกล้มละลายได้

Elden Ring กับ เสือคำรามแห่งจักรพรรดิ: ความแตกต่างของระบบการตอบสนองทางกายภาพ

เกมที่มีการตอบสนองแบบแรงเช่นนี้ไม่เป็นมิตรกับ AI เลย ความล่าช้าในการวิเคราะห์ภาพในปัจจุบันหมายความว่าขณะที่ AI ยัง "คิด" ว่าบอสทำอะไรอยู่ ตัวละครมักจะตายไปแล้ว ความเร็วในการตอบสนองระดับไมโครวินาที สร้างข้อจำกัดตามธรรมชาติให้กับตรรกะการโต้ตอบของโมเดล

เหตุใดโปเกมอนจึงกลายเป็นเครื่องวัดประสิทธิภาพของปัญญาประดิษฐ์?

ในปัจจุบัน Pokémon กำลังกลายเป็นเกณฑ์การทดสอบที่ไม่เป็นทางการแต่เชื่อถือได้อย่างมากในด้านการประเมินด้วยปัญญาประดิษฐ์ (AI)

โมเดลของ Anthropic, OpenAI และ Google ดึงดูดความสนใจจากคอมเมนต์นับแสนข้อความในสตรีมสดที่เกี่ยวข้องบน Twitch ซึ่ง Google ได้บันทึกความก้าวหน้าด้านเกมของ Gemini ไว้อย่างละเอียดในรายงานทางเทคนิค ส่วน Sundar Pichai ได้กล่าวถึงความสำเร็จนี้อย่างเป็นทางการในการประชุม I/O สำหรับนักพัฒนา ขณะที่ Anthropic ได้จัดโซนแสดง "Claude เล่นโปเกมอน" ภายในงานประชุมอุตสาหกรรมอีกด้วย

"เราเป็นกลุ่มคนที่หลงใหลเทคโนโลยีอย่างมาก" ดิวิด เฮอร์ซีย์ หัวหน้าฝ่าย AI ของบริษัทแอนโทรพิก (Anthropic) กล่าวอย่างตรงไปตรงมา แต่เขาย้ำว่า สิ่งนี้ไม่ใช่เพียงแค่เรื่องความบันเทิงเท่านั้น

ในทางตรงกันข้ามกับเกณฑ์มาตรฐานแบบดั้งเดิมที่มีลักษณะเป็นการตอบคำถามแบบครั้งเดียว ตัวอย่างเช่น Pokémon สามารถติดตามกระบวนการคิด ตัดสินใจ และการบรรลุเป้าหมายของโมเดลได้ต่อเนื่องเป็นเวลานาน ซึ่งมีลักษณะใกล้เคียงกับงานที่ซับซ้อนที่มนุษย์ต้องการให้ AI ดำเนินการในโลกจริงมากกว่า

จนถึงตอนนี้ ความท้าทายของปัญญาประดิษฐ์ในการเล่นเกมโปเกมอนยังคงดำเนินต่อไป อย่างไรก็ตาม ความท้าทายซ้ำๆ นี้ได้แสดงให้เห็นอย่างชัดเจนถึงขีดจำกัดของความสามารถที่ยังไม่สามารถก้าวข้ามได้สำหรับปัญญาประดิษฐ์ทั่วไป

ผู้แปลพิเศษ Weiji ได้มีส่วนร่วมในการจัดทำบทความนี้ด้วย

แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา