แบบจำลองการซื้อขายด้วยปัญญาประดิษฐ์ประสบปัญหาในการทดสอบตลาดจริง ระบบส่วนใหญ่รายงานผลขาดทุน

CoinDesk รายงาน:

ปัญญาประดิษฐ์กำลังเคาะประตูห้องซื้อขายของวอลล์สตรีท แต่ผลงานในขณะนี้ยังไม่ค่อยดีนัก

ผลเบื้องต้นจากการแข่งขันการซื้อขายแบบเปิดเผยแสดงให้เห็นว่า แบบจำลองภาษาขนาดใหญ่ (LLM) ที่เป็นที่นิยมโดยทั่วไปมีประสิทธิภาพต่ำในการซื้อขายด้วยตนเอง—ระบบส่วนใหญ่ขาดทุน ซื้อขายบ่อยเกินไป และตัดสินใจต่างกันอย่างสิ้นเชิงเมื่อรับคำสั่งเดียวกัน ผลลัพธ์เหล่านี้ทำให้เกิดคำถามหลัก: ช่องว่างระหว่าง LLM กับการทำงานของตลาดจริงนั้นลึกเพียงใด

กรณีที่โดดเด่นที่สุดคือการแข่งขัน Alpha Arena ที่ดำเนินการโดยบริษัทสตาร์ทอัพด้านเทคโนโลยี Nof1 การแข่งขันนี้ได้นำระบบ AI ชั้นนำแปดระบบ ได้แก่ Claude ของ Anthropic, Gemini ของ Google, ChatGPT ของ OpenAI และ Grok ของ Elon Musk มาแข่งขันในสี่รอบแยกกัน โดยแต่ละรอบจะได้รับทุน 10,000 ดอลลาร์สหรัฐก่อนเริ่มการแข่งขัน และใช้เวลาสองสัปดาห์ในการซื้อขายหุ้นเทคโนโลยีของสหรัฐอเมริกาด้วยตนเอง สุดท้าย พอร์ตการลงทุนโดยรวมขาดทุนประมาณหนึ่งในสาม จากผลลัพธ์ทั้งหมด 32 ชุด มีเพียงหกครั้งเท่านั้นที่ทำกำไร

Jay Azhang ผู้ก่อตั้ง Nof1 กล่าวอย่างตรงไปตรงมาว่า: "ตอนนี้ยังไม่สามารถนำเงินไปให้ LLM ทำธุรกรรมเองได้"

ผลการแข่งขัน: ขาดทุน การซื้อขายเกินความจำเป็น และความไม่เห็นด้วยในการตัดสินใจ

ข้อมูลจาก Alpha Arena เปิดเผยข้อบกพร่องหลายประการของ LLM ในบริบทการซื้อขาย ในเงื่อนไขคำสั่งเดียวกัน Qwen ของ Alibaba ดำเนินการซื้อขายทั้งหมด 1,418 รายการในหนึ่งรอบการแข่งขัน ขณะที่ Grok 4.20 ซึ่งมีประสิทธิภาพดีที่สุด สั่งซื้อเพียง 158 รายการ เกณฑ์ที่ดีที่สุดของ Grok เกิดขึ้นในรอบการแข่งขันที่มันสามารถสังเกตประสิทธิภาพของคู่แข่ง

บล็อก AI Flat Circle ติดตาม 11 เวทีที่เกี่ยวข้องกับตลาด ผลลัพธ์แสดงว่าในทุกเวทีมีอย่างน้อยหนึ่งโมเดลที่ทำกำไรได้ แต่มีเพียงสองเวทีเท่านั้นที่โมเดลกลางมีผลตอบแทนเป็นบวก ซึ่งแสดงว่าโมเดลส่วนใหญ่ยากที่จะเอาชนะตลาด

ความแตกต่างในการตัดสินใจระหว่างโมเดลต่างๆ ก็เป็นที่น่าสนใจเช่นกัน ตามที่ Azhang กล่าว ในการทดสอบล่าสุดของ Alpha Arena Claude มีแนวโน้มที่จะซื้อแบบ Long, Gemini ไม่มีความกังวลใดๆ กับการขายแบบ Short ขณะที่ Qwen ยินดีใช้เลเวอเรจสูงเพื่อรับความเสี่ยง “พวกมันแต่ละตัวมี ‘บุคลิก’ ของตัวเอง การจัดการมันเกือบเหมือนการจัดการนักวิเคราะห์มนุษย์” Doug Clinton หัวหน้าของ Intelligent Alpha ซึ่งบริหารกองทุนที่ขับเคลื่อนด้วย LLM กล่าว โดยการแจ้งให้โมเดลรับรู้ถึงอคติบางอย่างที่มันมี สามารถปรับปรุงผลลัพธ์ได้ในระดับหนึ่ง

ขีดจำกัดของความสามารถ: LLM เชี่ยวชาญในการวิจัย แต่ไม่เชี่ยวชาญในการเลือกเวลา

เจย์ อัซฮัง ชี้ให้เห็นว่า LLM มีข้อได้เปรียบในการวิจัยและเรียกใช้เครื่องมือที่ถูกต้อง แต่มีจุดอ่อนเชิงระบบในด้านการดำเนินการซื้อขาย: พวกมันยังไม่เข้าใจน้ำหนักของตัวแปรต่างๆ ที่ส่งผลต่อราคาหุ้น เช่น คะแนนการประเมินของนักวิเคราะห์ การซื้อขายโดยบุคคลภายใน การเปลี่ยนแปลงของอารมณ์ ฯลฯ จึงมักเกิดข้อผิดพลาดในการเลือกเวลาซื้อขาย ขนาดตำแหน่งที่ไม่เหมาะสม และการซื้อขายบ่อยเกินไป

การทดสอบแบบอ้างอิงของ Intelligent Alpha ให้ข้อมูลอ้างอิงที่เป็นบวกสัมพัทธ์ การทดสอบนี้ให้ไฟล์ทางการเงิน การพยากรณ์ของนักวิเคราะห์ บันทึกการประชุมทางโทรศัพท์เกี่ยวกับผลการดำเนินงาน ข้อมูลเศรษฐกิจมหภาค และการเข้าถึงการค้นหาบนเว็บไซต์แก่โมเดล AI 10 ตัว โดยมุ่งเน้นที่การตัดสินทิศทางของการพยากรณ์กำไร ผลลัพธ์แสดงว่าในไตรมาสที่สี่ของปี 2025 ความแม่นยำของ ChatGPT จาก OpenAI ในการพยากรณ์ทิศทางกำไรอยู่ที่ 68% ซึ่งเป็นสถิติที่ดีที่สุดเท่าที่เคยมีมา Clinton ระบุว่า ประสิทธิภาพของโมเดลโดยรวมมีแนวโน้มดีขึ้นในแต่ละเวอร์ชันใหม่ที่เปิดตัว

ปัญหาเชิงวิธีวิทยา: การย้อนทดสอบล้มเหลว การทดสอบในตลาดจริงจึงเป็นทางเลือกเดียว

การประเมินความสามารถในการซื้อขายของ AI พบอุปสรรคเชิงวิธีวิทยาพื้นฐาน กลยุทธ์เชิงปริมาณแบบดั้งเดิมพึ่งพาการทดสอบย้อนหลังเพื่อยืนยันประสิทธิภาพ แต่กรอบงานนี้แทบจะใช้ไม่ได้กับ LLM โดยสิ้นเชิง—โมเดลที่ถูกถามในปี 2026 ว่าจะซื้อขายตลาดในเดือนมีนาคม 2020 อย่างไร ได้ “รู้” แล้วว่าผลลัพธ์ของช่วงเวลานั้นเป็นอย่างไร ปัญหาการปนเปื้อนที่เรียกว่า “lookahead bias” บังคับให้นักวิจัยต้องประเมิน AI ผ่านตลาดจริงเท่านั้น ซึ่งนำไปสู่การเกิดขึ้นอย่างมากมายของแบบทดสอบมาตรฐานและเวทีแข่งขันต่างๆ ในปัจจุบัน

จิม มอร์รัน ผู้เขียนบล็อก Flat Circle และผู้ร่วมก่อตั้งบริษัทข้อมูลทางเลือกเดิม YipitData มองว่า ปัจจุบันวงจรการทดลองที่เปิดเผยต่อสาธารณะส่วนใหญ่มีระยะเวลาสั้นเกินไปและมีสัญญาณรบกวนมากเกินไป จึงยังไม่เพียงพอที่จะสนับสนุนข้อสรุปที่แน่นอน สนามแข่งเหล่านี้ยังมีข้อเสียเปรียบตามธรรมชาติ เช่น ไม่สามารถเข้าถึงทรัพยากรการวิจัยหุ้นแบบเอกสิทธิ์ และคุณภาพการดำเนินการต่ำ “ถ้านำตัวแทน AI ตัวใดตัวหนึ่งจากสนามแข่งเหล่านี้ไปติดตั้งภายในกองทุนฮีดจ์ชั้นนำ ประสิทธิภาพของมันควรจะดีขึ้น” เขากล่าว

แนวโน้มอุตสาหกรรม: กลยุทธ์ที่มีประสิทธิภาพจริง อาจค่อยๆ จางหายไปจากสายตาของสาธารณชน

Alexander Izydorczyk หัวหน้าทีมวิทยาศาสตร์ข้อมูลของ Coatue Management เมื่อครั้งยังอยู่ และปัจจุบันทำงานที่ NX1 Capital ได้เขียนบทความเมื่อไม่นานมานี้ว่า หุ่นยนต์ซื้อขาย AI ที่เขาติดตามอยู่ ยังไม่มีตัวใดแสดงความสามารถในการสร้างผลตอบแทนเกินมาตรฐานอย่างยั่งยืน เขาเชื่อว่าข้อจำกัดของสนามแข่งขันนี้อยู่ที่การขาดเทคนิคเชิงปริมาณที่ใช้งานจริงของสถาบันการซื้อขายลับในชุดข้อมูลการฝึกสอน

อย่างไรก็ตาม Izydorczyk ยังได้ทิ้งข้อสังเกตที่น่าคิดไว้ว่า: “ผู้เริ่มต้นบางครั้งสามารถมองเห็นสิ่งที่ผู้เชี่ยวชาญไม่สามารถเห็นได้” เขาเขียนไว้ในบล็อกส่วนตัว “เมื่อกลยุทธ์การซื้อขายโดยตัวแทน LLM เริ่มได้ผลจริงๆ คุณจะไม่ได้ยินข่าวใดๆ ทันที”

Nof1 กำลังเตรียมการสำหรับ Alpha Arena ซีซันที่สอง โดยวางแผนที่จะมอบความสามารถในการค้นหาข้อมูลผ่านเว็บ ระยะเวลาการคิดที่ยาวนานขึ้น แหล่งข้อมูลที่มากขึ้น และความสามารถในการดำเนินการหลายขั้นตอนให้กับโมเดล AI ทุกตัว แต่รูปแบบธุรกิจหลักของบริษัทคือการจัดเตรียมเครื่องมือระบบสำหรับนักลงทุนรายย่อย เพื่อสร้างตัวแทนการซื้อขายด้วย AI — ไม่ใช่การนำ AI ไปวางบนโต๊ะซื้อขายโดยตรง การตั้งจุดยืนนี้เอง อาจเป็นการยืนยันที่เป็นจริงที่สุดต่อขีดความสามารถปัจจุบันของการซื้อขายด้วย AI