เอกสารวิจัยของ Google เรียกร้องให้ LLM แสดงความไม่แน่นอนได้ดียิ่งขึ้น

Google Research ต้องการให้ AI บอกว่า “ฉันไม่แน่ใจ” บ่อยขึ้น บทความจากนักวิจัยของบริษัทโต้แย้งว่า แบบจำลองภาษาขนาดใหญ่ควรระมัดระวังในการตอบเมื่อความมั่นใจภายในต่ำ แทนที่จะตอบทุกคำตอบด้วยความมั่นใจเกินจริงเหมือนคนที่แน่ใจว่าไม่ได้แต่งขึ้น

เอกสารที่มีชื่อว่า “Can Large Language Models Faithfully Express Their Intrinsic Uncertainty in Words?” ได้รับการนำเสนอที่ EMNLP 2024 ซึ่งเป็นหนึ่งในเวทีชั้นนำสำหรับการวิจัยด้านการประมวลผลภาษาธรรมชาติ ผลการค้นพบหลักของมัน: โมเดลภาษาขนาดใหญ่ในปัจจุบันมีความสามารถในการบอกคุณเมื่อพวกเขาไม่รู้จริงๆ เกี่ยวกับสิ่งที่พวกเขากำลังพูดอย่างน่าตกใจ

ช่องว่างระหว่างการรู้กับการพูด

นักวิจัย Gal Yona, Roee Aharoni และ Mor Geva เสนอกรอบงานทางคณิตศาสตร์ที่พวกเขาเรียกว่า “faithful response uncertainty” ในภาษาอังกฤษ: วิธีการวัดว่าความมั่นใจที่โมเดลแสดงออกนั้นตรงกับความมั่นใจภายในของมันหรือไม่ ตัวชี้วัดนี้ลงโทษทั้งสองทิศทางของความไม่สอดคล้องกัน ดังนั้น โมเดลที่หลีกเลี่ยงการให้คำตอบแน่นอนทุกครั้งจะถูกลงโทษในระดับเดียวกับโมเดลที่ไม่เคยหลีกเลี่ยงเลย

คำแนะนำของพวกเขานั้นดูเรียบง่ายแต่หลอกลวง เมื่อความมั่นใจภายในของ LLM ต่ำ มันควรใช้ถ้อยคำระมัดระวังในภาษาธรรมชาติ เช่น “ฉันไม่แน่ใจ แต่…” แทนการระบุข้อมูลที่ไม่แน่นอนเป็นความจริง

โฆษณา

นักวิจัยได้ทดสอบโมเดล LLM ที่จัดเรียงหลายตัวในงานตอบคำถามที่ต้องใช้ความรู้อย่างมาก ผลลัพธ์ไม่น่าประทับใจ โมเดลสมัยใหม่มีปัญหาอย่างมากในการสะท้อนความไม่แน่นอนของตนเองอย่างถูกต้องในผลลัพธ์

เหตุผลที่การหลอกลวงมีความสำคัญเหนือกว่าแชทบอท

เอกสารของ Google กำหนดการแสดงความไม่แน่นอนเป็นปัญหาการจัดแนว เทคนิคการจัดแนวปัจจุบัน ซึ่งเป็นกระบวนการที่ใช้ปรับแต่งโมเดลหลังจากการฝึกอบรมเบื้องต้น มักมุ่งเน้นไปที่การเพิ่มประสิทธิภาพด้านความช่วยเหลือและความคล่องตัว โมเดลที่ตอบว่า “ฉันไม่รู้” จะได้คะแนนต่ำในการทดสอบด้านความช่วยเหลือ แม้ว่า “ฉันไม่รู้” จะเป็นคำตอบที่แม่นยำที่สุดก็ตาม

สิ่งนี้สร้างแรงจูงใจที่ผิดปกติ โมเดลเรียนรู้ระหว่างการปรับให้สอดคล้องว่า คำตอบที่มั่นใจและละเอียดจะได้รับรางวัล ในขณะที่คำตอบที่คลุมเครือหรือไม่สมบูรณ์จะถูกลงโทษ นักวิจัยโต้แย้งว่าช่องว่างนี้ต้องการเทคนิคการปรับให้สอดคล้องใหม่ที่ออกแบบมาโดยเฉพาะเพื่อปรับความมั่นใจที่แสดงออกให้สอดคล้องกับความรู้ที่แท้จริง

เอกสารล่วงหน้าของ arXiv ถูกเผยแพร่ครั้งแรกเมื่อวันที่ 27 พฤษภาคม 2024 ทำให้ชุมชนวิจัยโดยรวมมีเวลาหลายเดือนในการศึกษาผลการวิจัยก่อนการนำเสนอที่ EMNLP

สิ่งนี้หมายความว่าอย่างไรสำหรับคริปโตและการเทรดที่ขับเคลื่อนด้วยปัญญาประดิษฐ์

เอกสารฉบับนี้ไม่มีการอ้างอิงถึงคริปโตเคอเรนซี สินทรัพย์ดิจิทัล หรือแอปพลิเคชันทางการเงิน แต่ผลกระทบของมันแผ่ขยายออกไปในทางที่มีความสำคัญต่อผู้ใช้เครื่องมือ AI ในบริบทการลงทุน

สัญญาณการซื้อขายที่ระบุว่า “Bitcoin จะทดสอบระดับความต้านทานที่ $X” มีนัยยะที่แตกต่างกันอย่างมากขึ้นอยู่กับว่าแบบจำลองพื้นฐานมีความมั่นใจ 95% หรือ 45% ขณะนี้ เครื่องมือที่ขับเคลื่อนด้วย AI ส่วนใหญ่แสดงทั้งสองสถานการณ์ในลักษณะเดียวกัน

สำหรับนักลงทุนและผู้ซื้อขายที่พึ่งพาเครื่องมือ AI ในการวิเคราะห์คริปโต ข้อสรุปที่เป็นประโยชน์คืออย่างง่าย: ให้ถือว่าข้อมูลใดๆ ที่ AI สร้างขึ้นแต่ไม่ได้แสดงความไม่แน่นอนของตัวเองว่าไม่สมบูรณ์อย่างน้อยที่สุด รายงานของ Google แสดงให้เห็นว่าแม้แต่โมเดลที่ซับซ้อนที่สุดก็มักจะกล่าวอ้างความมั่นใจเกินจริงอยู่บ่อยครั้ง