บริษัทคริปโตตรวจสอบความปลอดภัยของ AI หลังจากอ้างว่า Fable 5 ของ Anthropic สามารถหลีกเลี่ยงได้

Crypto Firms Probe Ai Safety After Anthropic's Fable 5 Bypass Claim

นักวิจัยด้านความปลอดภัยปัญญาประดิษฐ์ที่ใช้นามแฝงว่า “Pliny the Liberator” กล่าวว่าเขาสามารถปลดล็อก Claude Fable 5 ของ Anthropic ภายใน 48 ชั่วโมงหลังเปิดตัว Fable 5 ถูกอธิบายโดย Anthropic ว่าเป็นเวอร์ชันที่ปรับแต่งเพื่อความปลอดภัยของโมเดล Mythos ซึ่งบริษัทเคยระบุว่าอันตรายเกินไปที่จะเปิดตัวอย่างกว้างขวาง การอ้างสิทธิ์นี้เน้นย้ำถึงความตึงเครียดที่ยังคงมีอยู่ระหว่างมาตรการป้องกันที่มีจุดมุ่งหมายเพื่อจำกัดการใช้งานในทางที่ผิดกับนักวิจัยที่ต้องการสำรวจขีดจำกัดของปัญญาประดิษฐ์ขั้นสูง

โพสต์ของพลินีอธิบายการใช้ Opus 4.8 ที่ถูกจัดการให้ทำงานนอกขอบเขต และชุดเทคนิคต่างๆ ที่มีจุดมุ่งหมายเพื่อหลีกเลี่ยงกลไกป้องกันที่ฝังไว้ในโมเดล เขาอ้างว่าหลังจากข้ามชั้นความปลอดภัยแล้ว Fable 5 สามารถตอบสนองต่อคำสั่งที่ปกติจะถูกบล็อก รวมถึงคำขอข้อมูลที่ถูกจำกัด บริบทโดยรวมคือชุมชนคริปโตและไซเบอร์ซีเคียวริตี้ต่างจับตาดูอย่างใกล้ชิดว่าคุณสมบัติด้านความปลอดภัยของ AI มีปฏิสัมพันธ์กับช่องทางการใช้งานในทางที่ผิดในโลกจริงอย่างไร

ประเด็นสำคัญ

การอ้างสิทธิ์เกี่ยวกับการหลบหนี: ภายใน 48 ชั่วโมงหลังจากเปิดตัว Claude Fable 5 นักวิจัยคนหนึ่งอ้างว่าสามารถหลีกเลี่ยงมาตรการป้องกันของมันได้ ซึ่งเน้นย้ำถึงความเปราะบางที่มองเห็นได้ในชั้นความปลอดภัยในช่วงเริ่มต้น
ความปลอดภัยเทียบกับการเข้าถึง: Fable 5 ถูกตลาดเป็นรุ่นที่ปรับแต่งเพื่อความปลอดภัยของ Mythos ซึ่งเป็นโมเดลที่ Anthropic อธิบายว่าอันตรายพอๆ กับที่ต้องจำกัดการเปิดตัวสู่สาธารณะ ทำให้เกิดคำถามว่าระบบป้องกันสามารถหรือควรจะถูกข้ามไปได้มากเพียงใด
เทคนิคที่เปิดเผย: พลินีอ้างถึงวิธีการต่างๆ รวมถึง Unicode และ homoglyphs การจัดกรอบบริบทยาว การจัดกรอบเรื่องราว และวิธีการแยกแล้วประกอบใหม่ โดยได้รับความช่วยเหลือจาก Claude Opus 4.8 ที่ถูกเจาะระบบ
การแยกและการรวมใหม่: เขาชี้ว่าเทคนิคแบ็กเอนด์นี้มีประสิทธิภาพเป็นพิเศษในการรวบรวมคำสั่งที่ฟังดูไม่อันตรายให้กลายเป็นผลลัพธ์ที่สามารถดำเนินการได้สำหรับโมเดล
ปฏิกิริยาจากอุตสาหกรรม: นักวิจารณ์โต้แย้งว่ามาตรการป้องกันขัดขวางการวิจัยที่ถูกต้อง; ผู้สังเกตการณ์ชี้ให้เห็นถึงความตึงเครียดระหว่างการส่งเสริมนวัตกรรมกับการป้องกันอันตราย โดยเฉพาะอย่างยิ่งในบริบทของปัญหาความปลอดภัยด้านคริปโต

การก้าวกระโดด หรือการละเมิดขอบเขตการป้องกัน?

โพสต์สาธารณะของพลินีอธิบายวิธีการแบบชั้นวางเพื่อเอาชนะมาตรการป้องกันของ Claude Fable 5 เขาอ้างว่าความสำเร็จบางส่วนมาจากการใช้ Opus 4.8 ที่ถูก jailbreak และชุดกลยุทธ์การปรับคำสั่งที่ออกแบบมาเพื่อหลบผ่านระบบป้องกันที่ Anthropic ติดตั้งไว้บน Fable 5 เขาบันทึกว่า “อาจเป็นวิธีที่มีประสิทธิภาพที่สุดคือการแยกส่วนและการรวมกลับใหม่ในด้านแบ็กเอนด์” ในทางปฏิบัติ นี่หมายถึงการแบ่งคำถามออกเป็นส่วนย่อยๆ ที่ดูเหมือนไม่เป็นอันตราย จากนั้นจึงรวมคำตอบเหล่านั้นใหม่ในลักษณะที่หลีกเลี่ยงตรรกะของตัวกรองเมื่อพิจารณาในภาพรวม

การอภิปรายเกี่ยวกับการหลบหลีกไม่ใช่เรื่องใหม่ในวงการปัญญาประดิษฐ์ Pliny โด่งดังขึ้นประมาณปี 2024 โดยพัฒนาและแชร์คำสั่งการหลบหลีกสำหรับโมเดลต่างๆ เช่น ChatGPT, Claude และ Grok อย่างเปิดเผย มักโพสต์ “การแจ้งเตือนการหลบหลีก” ทันทีหลังจากเปิดตัวโมเดลใหม่ ในเหตุการณ์ล่าสุดนี้ เขาอ้างถึงการรวมกันของกลยุทธ์ต่างๆ—เช่น การใช้ Unicode, การจัดกรอบบริบทยาว และการสร้างเรื่องเล่าที่ทำให้คำสั่งดูเหมือนไร้อันตราย—as ทางสู่ความสำเร็จ

ตัวอย่างหนึ่งที่มาพร้อมกับข้ออ้างนี้เกี่ยวข้องกับการสาธิตที่อ้างว่าแสดงวิธีรับคำแนะนำในการสังเคราะห์เมทแอมเฟตามีนโดยการสอบถามเกี่ยวกับการลดแบบเบิร์ช เนื้อหานี้ถูกนำเสนอเป็นหลักฐานเชิงแนวคิดเกี่ยวกับวิธีที่ง่ายดายในการหลีกเลี่ยงมาตรการป้องกัน; มันยังเน้นย้ำถึงเหตุผลที่การสาธิตเช่นนี้ก่อให้เกิดความกังวลในหมู่นักวิจัยและผู้ปฏิบัติงานที่พึ่งพาปัญญาประดิษฐ์สำหรับงานที่ถูกต้องตามกฎหมายและคำนึงถึงความปลอดภัย

การตอบสนองจากอุตสาหกรรมและการอภิปรายเรื่องความปลอดภัย

ตั้งแต่เริ่มต้น คลอดี ฟเบิล 5 ได้รับการต่อต้านเนื่องจากข้อจำกัดที่เข้มงวดของมัน เมื่อถูกถามเกี่ยวกับหัวข้อที่ละเอียดอ่อน—ตั้งแต่อาวุธชีวภาพไปจนถึงความปลอดภัยทางไซเบอร์—ฟเบิล 5 ถูกออกแบบมาเพื่อแจ้งเตือนและเปลี่ยนการสนทนาไปยังโมเดลที่มีความสามารถน้อยกว่า การอภิปรายเกี่ยวกับข้อจำกัดเหล่านี้มีความรุนแรง โดยผู้วิจารณ์โต้แย้งว่าชั้นความปลอดภัยที่เข้มงวดเกินไปขัดขวางการวิจัยและการสร้างนวัตกรรมที่ถูกต้องตามกฎหมาย

“นี่เป็นหนึ่งในครั้งแรกที่บริษัทปัญญาประดิษฐ์ได้เปิดตัวมาตรการป้องกัน และมีความไม่พอใจอย่างเป็นเอกภาพ มันนำไปสู่ความโกรธที่มีเหตุผลมากมาย” ซายาช คาปูร์ นักวิจัยปัญญาประดิษฐ์จากมหาวิทยาลัยพรินซ์ตัน กล่าวตามรายงานจาก the Wall Street Journal

พลินีได้เพิ่มมุมมองของตนเอง โดยเสนอว่าความไม่พอใจของชุมชนเกิดจากความเชื่อที่ว่ามาตรการป้องกันขัดขวางความก้าวหน้า “ดูเหมือนว่าความเห็นพ้องต้องกันคือ นี่เป็นหนึ่งในชุดโมเดลที่น่าผิดหวังที่สุดเท่าที่เคยมีมา ซึ่งป้องกันไม่ให้นักวิจัยที่มีความถูกต้องสามารถมีส่วนร่วมความสามารถของพวกเขาในการพัฒนาของเราอย่างร่วมกัน” เขากล่าว

Anthropic ระบุว่าได้ดำเนินการโปรแกรมแจ้งเบาะแสภายนอกเป็นส่วนหนึ่งของกระบวนการตรวจสอบ Fable 5 โปรแกรมดังกล่าวไม่พบการหลบเลี่ยงระบบแบบสากลใดๆ ภายในเวลาทดสอบมากกว่า 1,000 ชั่วโมง Cointelegraph ได้ติดต่อ Anthropic เพื่อขอความเห็น แต่ยังไม่ได้รับคำตอบทันที ท่าทีของบริษัทยังคงยืนยันว่ามาตรการป้องกันเป็นสิ่งจำเป็นสำหรับความปลอดภัย แม้ว่าการเปิดตัวในระยะเริ่มต้นจะก่อให้เกิดความขัดแย้งระหว่างนักวิจัยและผู้ใช้

นอกเหนือจากเรื่องราวการหลบหนีทันที นักวิจัยที่เน้นด้านคริปโตได้เตือนมานานแล้วว่า AI ที่มีมาตรการป้องกันอ่อนแอหรือไม่สมบูรณ์อาจกลายเป็นช่องทางสำหรับการโจมตีโปรโตคอลและซอฟต์แวร์ คำอธิบายจาก Cointelegraph ในช่วงเวลานั้นได้เน้นย้ำถึงศักยภาพของตัวแทนที่ขับเคลื่อนด้วย AI และมีการเข้าถึงคริปโต ซึ่งอาจทำให้ความปลอดภัยและการกำกับดูแลในระบบนิเวศแบบกระจายศูนย์ซับซ้อนยิ่งขึ้น

การรายงานข่าวที่เกี่ยวข้องจากนิตยสาร Cointelegraph ยังสำรวจภาพรวมของภัยคุกคาม รวมถึงวิธีที่การโจมตีที่ขับเคลื่อนด้วย AI อาจคุกคาม DeFi หากโครงการไม่ดำเนินการมาตรการรักษาความปลอดภัยเชิงรุก สำหรับผู้อ่านที่ต้องการข้อมูลเชิงลึกเพิ่มเติมเกี่ยวกับผลกระทบด้านความปลอดภัยของ AI ในวงการคริปโต การวิเคราะห์นี้ให้บริบทเพิ่มเติมเกี่ยวกับชนิดของภัยคุกคามที่ระบบป้องกันถูกออกแบบมาเพื่อป้องกัน

ขณะที่การสนทนาดำเนินต่อไป ผู้สังเกตการณ์จะไม่เพียงแต่ติดตามคำตอบอย่างเป็นทางการจาก Anthropic แต่ยังติดตามว่า นักพัฒนา ผู้ตรวจสอบ และโครงการคริปโตจะปรับตัวอย่างไรต่อสภาพแวดล้อมที่ระบบ AI ที่มีพลังสูงยังคงอาจถูกใช้ประโยชน์ในทางที่ผิด แม้มีชั้นความปลอดภัยอยู่ก็ตาม นักวิจัยและผู้สร้างจะต้องพิจารณาความสมดุลระหว่างการเข้าถึงและการป้องกัน เนื่องจาก AI กำลังกลายเป็นศูนย์กลางที่สำคัญยิ่งขึ้นต่อความปลอดภัย กระบวนการพัฒนา และประสบการณ์ของผู้ใช้

ความพยายามในการติดต่อของ Anthropic และการอัปเดตผลิตภัณฑ์ที่จะตามมาจะกำหนดระยะถัดไปของการอภิปรายนี้ ในช่วงเวลานี้ เหตุการณ์นี้เป็นการเตือนว่า มาตรการด้านความปลอดภัย แม้จะจำเป็น แต่ก็ยังคงเผชิญกับการตรวจสอบอย่างต่อเนื่องจากชุมชนที่เต็มใจทดสอบขีดจำกัดของสิ่งที่ AI ทำได้—และสิ่งที่ AI ควรทำ

สิ่งที่จะเกิดขึ้นต่อไปอาจส่งผลต่อการกำกับดูแล AI และกลยุทธ์ด้านความปลอดภัยของคริปโต ติดตามการเปิดเผยข้อมูลเพิ่มเติมจาก Anthropic เกี่ยวกับการปรับปรุงระบบป้องกัน รวมถึงงานวิจัยใหม่ใดๆ จากชุมชนที่อธิบายวิธีการสำรวจความสามารถของโมเดลในระดับใหญ่อย่างปลอดภัยและรับผิดชอบ

อ่านเพิ่มเติมเกี่ยวกับหัวข้อความเสี่ยงระหว่าง AI กับคริปโตในบทความของ Cointelegraph Magazine ที่สำรวจว่าการโจมตีที่ขับเคลื่อนด้วย AI อาจส่งผลกระทบต่อ DeFi อย่างไร และโครงการต่างๆ สามารถดำเนินการใดบ้างตอนนี้เพื่อเสริมความแข็งแกร่งให้ระบบของตน

บทความนี้เผยแพร่ครั้งแรกในรูปแบบ Crypto Firms Probe AI Safety After Anthropic’s Fable 5 Bypass Claim บน Crypto Breaking News – แหล่งข่าวคริปโตที่เชื่อถือได้สำหรับข่าวคริปโต ข่าว Bitcoin และการอัปเดตบล็อกเชน