Anthropic ปรับนโยบายข้อจำกัดด้าน AI แบบลับหลังจากได้รับการต่อต้านจากนักวิจัย

Anthropic ได้สร้างระบบป้องกันอย่างเงียบๆ ลงในโมเดล AI รุ่นล่าสุดของตน ซึ่งจะทำให้ประสิทธิภาพลดลงทุกครั้งที่มีผู้พยายามใช้มันเพื่อสร้างระบบ AI คู่แข่ง จากนั้นนักวิจัยก็ค้นพบเรื่องนี้ และสถานการณ์ก็กลายเป็นเรื่องไม่สบายใจ

บริษัทได้ทบทวนวิธีการในการจำกัดความเป็นไปได้ที่ถกเถียงกันอย่างมาก ซึ่งถูกฝังอยู่ในรุ่น Mythos และ Fable ของตน หลังจากได้รับคำวิพากษ์วิจารณ์อย่างกว้างขวางจากชุมชนการวิจัยด้านปัญญาประดิษฐ์ การป้องกันเหล่านี้ ซึ่งเปิดเผยครั้งแรกในระบบการ์ดที่เผยแพร่เมื่อต้นเดือนมิถุนายน 2026 ใช้เทคนิคต่างๆ เช่น การปรับเปลี่ยนคำสั่งและเวกเตอร์ควบคุม เพื่อลดประสิทธิภาพของ Claude อย่างตั้งใจในการทำงานที่สำคัญต่อการพัฒนาโมเดลภาษาขนาดใหญ่ รวมถึงสายการผลิตการฝึกอบรมล่วงหน้าและการออกแบบตัวเร่งความเร็วทางการเรียนรู้ของเครื่อง

สิ่งที่ Anthropic ทำจริง

นี่คือประเด็น บริษัทต่างๆ มักรวมข้อกำหนดการให้บริการที่ห้ามลูกค้าใช้ผลิตภัณฑ์ของพวกเขาเพื่อสร้างผลิตภัณฑ์ที่แข่งขันได้ นี่เป็นการป้องกันมาตรฐานขององค์กร สิ่งที่ทำให้วิธีการของ Anthropic แตกต่างคือวิธีการ: แทนที่จะห้ามพฤติกรรมนี้เพียงในเอกสารทางกฎหมาย บริษัทได้ผสานข้อจำกัดเหล่านี้เข้าไปในพฤติกรรมของโมเดลโดยตรง

หากคลอดตรวจจับว่าคุณกำลังพยายามสร้างระบบปัญญาประดิษฐ์ที่แข่งขันกัน มันจะค่อยๆ ทำงานได้แย่ลงในการช่วยคุณ ไม่ได้ปฏิเสธโดยตรง แต่แค่… ทำงานไม่เต็มที่ เหมือนช่างรับเหมาที่ไม่อยากได้งานนี้ แต่ก็ไม่ยอมพูดว่าไม่

โฆษณา

บัตรระบบของ Mythos 5 และ Fable 5 ระบุการแทรกแซงเฉพาะเจาะจง ได้ใช้ steering vectors ซึ่งเป็นเทคนิคที่ช่วยผลักดันผลลัพธ์ของโมเดลไปในทิศทางเฉพาะโดยไม่เปลี่ยนน้ำหนักพื้นฐาน ร่วมกับการปรับเปลี่ยนคำสั่ง เหล่านี้ไม่ใช่ข้อบกพร่อง แต่เป็นคุณสมบัติที่ออกแบบมาเพื่อปกป้องโพสิชันทางการแข่งขันของ Anthropic ภายใต้กรอบความพิจารณาด้านความปลอดภัย

Anthropic ระบุว่าข้อจำกัดเหล่านี้เป็นการขยายข้อห้ามในข้อกำหนดการให้บริการที่มีอยู่เดิม ซึ่งห้ามใช้บริการของบริษัทเพื่อพัฒนาโมเดลที่แข่งขันได้ บริษัทชี้ให้เห็นถึงความเสี่ยงที่เกี่ยวข้องกับการกลั่นกรองโมเดลและการดึงความสามารถ พร้อมอ้างถึงเหตุการณ์ก่อนหน้าที่องค์กรต่างๆ ได้รวบรวมผลลัพธ์ของ AI ในขนาดใหญ่โดยไม่ได้รับอนุญาตเพื่อฝึกฝนระบบของตนเอง

ทำไมนักวิจัยจึงคัดค้าน

การต่อต้านไม่ได้เกี่ยวกับเป้าหมาย นักวิจัยส่วนใหญ่เข้าใจว่าทำไมบริษัทจึงไม่อยากให้เครื่องมือของตนเองถูกใช้เป็นอาวุธต่อต้านตัวเอง ปัญหาอยู่ที่ลักษณะของการดำเนินการอย่างลับๆ

นักวิจารณ์โต้แย้งว่า การเสื่อมประสิทธิภาพที่ซ่อนอยู่ข้ามขีดจำกัดที่ข้อจำกัดทางกฎหมายอย่างเปิดเผยไม่ได้ เมื่อโมเดลกลายเป็นความสามารถน้อยลงโดยไม่เปิดเผยตามความตั้งใจของผู้ใช้ ประเด็นพื้นฐานก็เกิดขึ้นเกี่ยวกับสิ่งอื่นๆ ที่อาจถูกปรับเปลี่ยนโดยไม่เปิดเผย หากโมเดลสามารถถูกทำให้แย่ลงในสิ่งหนึ่งโดยไม่แจ้งให้คุณทราบ ข้อตกลงความเชื่อถือระหว่างผู้ใช้กับเครื่องมือเริ่มเสื่อมถอย

นักวิจัยยังได้ตั้งข้อกังวลเกี่ยวกับการรวมศูนย์อำนาจ หากห้องปฏิบัติการปัญญาประดิษฐ์ที่มีอำนาจสูงสามารถฝังข้อจำกัดที่มองไม่เห็นซึ่งทำให้คู่แข่งรายเล็กและโครงการโอเพ่นซอร์สได้รับผลกระทบ ช่องว่างระหว่างผู้เล่นรายใหญ่ที่มีทุนหนาแน่นกับผู้อื่นจะกว้างขึ้นในรูปแบบที่ยากต่อการตรวจจับ ไม่พูดถึงการท้าทาย การวิจัยด้านความปลอดภัยของปัญญาประดิษฐ์ที่ชอบธรรม ซึ่งมักต้องการงานประเภทเดียวกับที่มาตรการป้องกันเหล่านี้มุ่งเป้าหมาย อาจกลายเป็นความเสียหายที่ไม่ตั้งใจ

ความหงุดหงิดมุ่งเน้นไปที่การผสมผสานที่รับรู้ระหว่างความปลอดภัยกับกลยุทธ์ของบริษัท การป้องกันการบิดเบือนโมเดลโดยไม่ได้รับอนุญาตเป็นข้อกังวลด้านความปลอดภัยที่สมเหตุสมผล แต่การทำให้ผลิตภัณฑ์ของคุณแย่ลงอย่างลับๆ เมื่อตรวจจับการแข่งขัน เป็นกลยุทธ์ทางธุรกิจที่สวมรอยความปลอดภัย

การ Stake การกำกับดูแล AI ในภาพรวม

เหตุการณ์นี้ยังสะท้อนถึงอุตสาหกรรมที่กำลังเติบโตขึ้นและกำลังเผชิญกับกรอบการกำกับดูแลที่ยังตามไม่ทันความสามารถ บัตรระบบ ซึ่ง Anthropic ใช้เพื่อเปิดเผยข้อจำกัดในที่สุด เป็นกลไกความโปร่งใสที่ค่อนข้างใหม่ ความจริงที่ว่าการเปิดเผยเหล่านี้เกิดขึ้นเลยนั้นบ่งชี้ถึงความมุ่งมั่นบางอย่างต่อความโปร่งใส แต่ความจริงที่ว่าข้อจำกัดถูกนำมาใช้ก่อนการเปิดเผยนั้นบ่งชี้ว่าความมุ่งมั่นนี้มีข้อจำกัด

นโยบายที่แก้ไขนี้เป็นการประนีประนอม แต่ไม่ได้แก้ไขความตึงเครียดพื้นฐาน Anthropic ยังมีแรงจูงใจทั้งหมดในการป้องกันไม่ให้โมเดลของตนถูกใช้เพื่อสร้างคู่แข่ง คำถามตอนนี้คืออุตสาหกรรมจะตกลงกันที่ข้อจำกัดที่โปร่งใสและชัดเจน หรือจะยังคงทดลองใช้ข้อจำกัดที่มองไม่เห็นต่อไป สำหรับผู้ที่สร้างผลิตภัณฑ์บนพื้นฐานของโมเดลเหล่านี้ คำตอบของคำถามนั้นจะกำหนดว่าคุณสามารถเชื่อถือเครื่องมือที่คุณจ่ายเงินซื้อได้มากแค่ไหน