Anthropic ระบุว่าเส้นทางการปรับปรุงตัวเองของ AI กำลังชัดเจนขึ้น กระตุ้นการอภิปรายเกี่ยวกับเรื่องการเข้าตลาดหุ้น

บทความ | LetterAI

Anthropic เมื่อคืนได้เผยแพร่บทความยาวเรื่อง《When AI builds itself》(เมื่อ AI สร้างตัวเองขึ้นมา) ซึ่งฟังดูเหมือนนิยายวิทยาศาสตร์เรื่องหนึ่งของอิสิมอฟ และหัวข้อก็เป็นแนวคิดที่ดูเหมือนนิยายวิทยาศาสตร์จริงๆ: recursive self-improvement (การปรับปรุงตัวเองแบบวนซ้ำ)

Claude

พูดง่ายๆ คือในอดีต นักวิจัยมนุษย์เขียนโค้ด ดำเนินการทดลอง และฝึกโมเดล เพื่อทำให้ AI แข็งแกร่งขึ้น แต่ถ้า AI เริ่มมีส่วนร่วมในการออกแบบ ฝึกฝน ทดสอบ และปรับปรุงรุ่นถัดไปของตัวเอง ความเร็วในการพัฒนาของ AI จะไม่ได้ถูกขับเคลื่อนโดยมนุษย์เพียงอย่างเดียวอีกต่อไป แต่อาจเริ่มเกิดจากการ “วิวัฒนาการด้วยตัวเอง” ของ AI

เพื่อจุดประสงค์นี้ Anthropic ได้เรียกร้อง:

เราเชื่อว่า หากโลกสามารถเลือกชะลอหรือระงับชั่วคราวการพัฒนา AI ขั้นสูง เพื่อให้โครงสร้างทางสังคมและการวิจัยด้านการจัดให้สอดคล้องทันต่อความก้าวหน้าทางเทคโนโลยี จะเป็นประโยชน์อย่างยิ่งต่อโลก

ประโยคนี้ฟังดูเหมือนคำเตือนด้านความปลอดภัย แต่เมื่อพิจารณาในบริบทที่ Anthropic กำลังเตรียมการเข้าตลาดหลักทรัพย์ มันก็ยากที่จะไม่ตีความว่าเป็นการเตรียมการเล่าเรื่องอีกรูปแบบหนึ่ง: Claude ใช้งานได้ดีเกินไป จนเริ่มสร้าง Claude รุ่นถัดไปเอง

พายุใหม่ได้เกิดขึ้นแล้ว

เพื่อแสดงให้เห็นว่าปัญญาประดิษฐ์กำลังมีส่วนร่วมมากขึ้นในการพัฒนาปัญญาประดิษฐ์เอง Anthropic ได้นำเสนอข้อมูลภายในจำนวนมาก

ตัวอย่างเช่น จนถึงเดือนพฤษภาคม 2026 โค้ดมากกว่า 80% ที่ Anthropicรวมเข้ากับโค้ดเบสถูกเขียนโดย Claude ในขณะที่ก่อนที่ Claude Code จะเปิดตัว ตัวเลขนี้ยังอยู่ในหลักหน่วย

จนถึงไตรมาสที่สองของปี 2026 ตามการวัดของ Anthropic จำนวนโค้ดที่วิศวกรรวมเข้าด้วยกันในแต่ละวันได้เพิ่มขึ้นประมาณ 8 เท่าเมื่อเทียบกับปี 2024

Claude

สิ่งที่น่าสังเกตมากกว่าปริมาณโค้ดคือ Claude กำลังจัดการกับปัญหาด้านวิศวกรรมที่เปิดกว้างกว่า

Anthropic ระบุว่า ในปีที่ผ่านมา ความถี่ที่พนักงานต้องแก้ไข Claude ดึง Claude กลับเข้าสู่ทางที่ถูกต้อง หรือรับช่วงต่องานกลางคัน ได้ลดลงอย่างต่อเนื่อง การเปลี่ยนแปลงนี้ไม่ได้เกิดขึ้นเฉพาะในงานง่ายๆ เท่านั้น แต่ยังเกิดขึ้นในงานเปิดที่ซับซ้อนที่สุดด้วย

งานเปิดคือปัญหาที่ไม่มีคำแนะนำชัดเจน เช่น ระบบล่มหรืองานฝึกอบรมหยุดลง วิศวกรเองก็ไม่รู้ว่าคำตอบเป็นอย่างไรตั้งแต่แรก ต้องค่อยๆ ตรวจสอบและตัดสินใจไปพร้อมกัน

งานประเภทนี้ในอดีตขึ้นอยู่กับประสบการณ์ของมนุษย์เป็นหลัก แต่ในงานที่เปิดกว้างที่สุด อัตราความสำเร็จของ Claude ถึง 76% ภายในเดือนพฤษภาคม 2026 เพิ่มขึ้น 50 คะแนนเปอร์เซ็นต์ภายในหกเดือน

Claude

ไม่เพียงแต่เขียนโค้ด Anthropic ยังใช้ Claude ในการทบทวนโค้ด เพื่อตรวจสอบบั๊ก ช่องโหว่ด้านความปลอดภัย และข้อบกพร่องอื่นๆ พวกเขาได้วิเคราะห์ย้อนหลังพบว่า หากการเปลี่ยนแปลงโค้ดทุกครั้งในอดีตได้รับการทบทวนโดยอัตโนมัติผ่าน Claude บั๊กประมาณหนึ่งในสามที่ทำให้เกิดเหตุการณ์ผิดปกติบน claude.ai น่าจะถูกป้องกันได้ก่อนการเปิดใช้งาน

ยิ่งไปกว่านั้น Claude ได้เริ่มมีส่วนร่วมในกระบวนการวิจัยแล้ว

Anthropic มีการทดสอบคงที่: ให้ Claude โค้ดหนึ่งชุดสำหรับฝึกโมเดลขนาดเล็ก และให้หาวิธีทำให้โค้ดทำงานเร็วขึ้นโดยไม่เปลี่ยนผลลัพธ์ที่ผิดพลาด ในเดือนพฤษภาคม 2025 Claude Opus 4 สามารถเร่งความเร็วได้ประมาณ 3 เท่า; ถึงเดือนเมษายน 2026 Claude Mythos Preview ได้ผลักดันตัวเลขนี้ไปถึงประมาณ 52 เท่า

Anthropic ยังได้กล่าวถึงกรณีศึกษาด้านความปลอดภัยของ AI แบบเปิดเผย พวกเขาได้ให้คำถามกับเอเจนต์ที่ขับเคลื่อนด้วย Claude: โมเดลที่อ่อนแอกว่าสามารถตรวจสอบโมเดลที่แข็งแกร่งกว่าได้อย่างเชื่อถือได้หรือไม่

กระบวนการนี้ต้องตั้งสมมติฐาน ทดสอบสมมติฐาน และแชร์ผลการค้นพบกับเอเจนต์แบบขนาน แล้ววนซ้ำอย่างต่อเนื่อง

นักวิจัยมนุษย์สองคนใช้เวลาหนึ่งสัปดาห์เพื่อปิดช่องว่างประมาณ 23% ในขณะที่ Claude ปิดช่องว่างได้ 97% โดยใช้ทรัพยากรการคำนวณสะสมประมาณ 800 ชั่วโมง และค่าใช้จ่ายประมาณ 18,000 ดอลลาร์สหรัฐ

ผลลัพธ์นี้แน่นอนว่ามีข้อจำกัด เพราะคำถามถูกเลือกโดยมนุษย์ เกณฑ์การให้คะแนนก็ถูกกำหนดโดยมนุษย์ และผลลัพธ์ยังไม่ได้ถูกนำไปใช้กับโมเดลในระดับการผลิตอย่างสมบูรณ์ แต่มันยังแสดงให้เห็นว่า Claude สามารถออกแบบการทดลอง ดำเนินการ และปรับปรุงตนเองได้ภายในกรอบการวิจัยที่มนุษย์กำหนดทิศทางไว้

นอกจากนี้ เมื่อนักวิจัยมนุษย์เดินผิดทาง Claude ยังสามารถให้การตัดสินใจขั้นต่อไปที่ดีกว่า

Anthropic ได้คัดเลือกการสนทนาการวิจัยภายใน Claude Code จำนวน 129 ครั้ง ซึ่งนักวิจัยมนุษย์ร่วมกับ Claude แก้ไขปัญหาการวิจัยแบบเปิด Anthropic ได้ระบุจุดบางจุดที่มนุษย์ต่อมาพิสูจน์แล้วว่าเดินทางไปในทิศทางที่ผิด จากนั้นจึงให้บริบทก่อนจุดนั้นแก่เวอร์ชันต่างๆ ของ Claude เพื่อดูว่ามันจะแนะนำขั้นตอนถัดไปอย่างไร จากนั้นจึงให้ Claude ผู้ตัดสินซึ่งรู้ผลลัพธ์ของการสนทนาทั้งหมด มาประเมินว่า คำแนะนำของโมเดลกับการตัดสินใจของมนุษย์ในเวลานั้น อะไรดีกว่า

ผลการศึกษาแสดงว่าในจุดที่นักวิจัยมนุษย์ได้รับการพิสูจน์แล้วว่ามีพื้นที่สำหรับการปรับปรุง Claude สามารถเสนอขั้นตอนถัดไปที่ดีกว่าได้

Claude

ในอดีต ความก้าวหน้าของโมเดล AI ส่วนใหญ่ขับเคลื่อนโดยนักวิจัยและวิศวกรมนุษย์ มนุษย์เป็นผู้ตัดสินใจว่าจะทำการทดลองอะไร เขียนโค้ด ฝึกโมเดล และผลักดันการพัฒนาฟังก์ชันของ AI

ตอนนี้ องค์ประกอบ越来越多ในห่วงโซ่นี้เริ่มถูก Claude รับไป

Anthropic ได้ให้ตารางขั้นตอนที่ตรงไปตรงมา:

Claude

ระหว่างปี 2021 ถึง 2023 Anthropic ไม่ต่างจากบริษัทเทคโนโลยั่วทั่วไป คือมนุษย์เขียนโค้ดและเอกสารบนแล็ปท็อป

ระหว่างปี 2023 ถึง 2025 หุ่นยนต์แชทเริ่มเข้าสู่กระบวนการทำงาน วิศวกรให้โมเดลสร้างชิ้นส่วนรหัส แล้วคัดลอกไปยังตัวแก้ไข

ในปี 2025 ถึง 2026 ตัวแทนการเขียนโปรแกรมปรากฏขึ้น Claude เริ่มสามารถเขียนและแก้ไขโค้ดได้อย่างอิสระ บางครั้งแม้แต่สามารถ hoàn thiệnไฟล์ทั้งหมดได้เอง

ถึงวันนี้ ตัวแทนอัจฉริยะสามารถรันโค้ดด้วยตัวเอง และยังสามารถมอบงานที่ใช้เวลาหลายชั่วโมงให้ตัวแทนอื่นๆ ทำแทนได้

ต่อมาคือระยะที่ Anthropic กังวลจริงๆ: วงปิด

หากวันนั้นมาถึง รุ่นถัดไปของ Claude อาจได้รับการปรับปรุงอย่างต่อเนื่องโดย Claude เอง—นี่คือ recursive self-improvement หรือการปรับปรุงตนเองแบบเรียกซ้ำ

Anthropic กล่าวอย่างระมัดระวังในบทความว่า: เรายังไม่ได้ไปถึงจุดนั้น และการปรับปรุงตัวเองแบบวนซ้ำไม่ได้เกิดขึ้นอย่างแน่นอน แต่มันยังคงเน้นว่า เส้นทางสู่จุดนั้นได้เริ่มปรากฏชัดขึ้น

ดังนั้น Anthropic จึงพูดถึงการชะลอหรือแม้แต่การหยุดชั่วคราวในตอนท้ายของบทความ ความหมายของมันไม่ใช่การหยุดทำงานทันทีของบริษัท AI ทั้งหมดในตอนนี้ แต่หมายถึง หากความเสี่ยงจากการปรับปรุงตัวเองของ AI ยังคงเพิ่มขึ้นในอนาคต ห้องปฏิบัติการชั้นนำจำเป็นต้องมีกลไกการชะลอที่มีการประสานงานและสามารถตรวจสอบได้

พูดอีกแบบหนึ่ง จุดเอกพจน์กำลังจะมาถึง มนุษย์ต้องควบคุมมัน

Claude ไม่สามารถหยุดยั้งได้

หากพิจารณาเพียงผิวเผิน นี่คือเอกสารความปลอดภัยที่มีวิสัยทัศน์ล้ำหน้ามาก Anthropic พูดถึงการปรับปรุงตนเองแบบวนซ้ำ การที่ AI อาจปรับปรุงตัวเองได้เร็วขึ้นเรื่อยๆ และความจำเป็นที่สังคมมนุษย์ต้องเตรียมความพร้อมสำหรับกลไกการชะลอและการหยุดชั่วคราวล่วงหน้า

แต่เมื่อพิจารณาในบริบทของเวลาที่ Anthropic กำลังเตรียมการเข้าตลาดหุ้น บทความนี้จึงมีความหมายอีกชั้นหนึ่ง

ในบางแง่มุม ข่าวล่าสุดของโรงงาน A ดูเหมือนเด็กเรียนเก่งที่ชอบแสดงตัวในห้องเรียน—มันมีความสามารถจริง แต่ก็ชอบทำตัวประดับประดา

มันไม่ได้หมายถึงแค่ “เรามี Claude ที่แข็งแกร่ง” แต่ล้ำหน้ากว่านั้น มันหมายถึง “Claude กำลังช่วยเราสร้าง Claude ที่แข็งแกร่งยิ่งขึ้น”

หาก Anthropic เพียงแค่ขายโมเดลหรือเครื่องมือหนึ่งๆ มันจะยากที่จะหลีกเลี่ยงการเปรียบเทียบแบบแนวนอน: Anthropic มี Claude, OpenAI มี GPT; Anthropic มี Claude Code, OpenAI มี Codex; Anthropic แย่งชิงลูกค้าองค์กร, OpenAI ก็แย่งชิงลูกค้าองค์กรเช่นกัน การแข่งขันระหว่างสองบริษัทนี้เข้มข้นมาก ขึ้นอยู่กับว่าใครจะเล่าเรื่องที่ใหญ่กว่าให้กับตลาด

โปรดสังเกตว่าเมื่อ 3 วันก่อน OpenAI เพิ่งเขียนไว้ในเอกสารเกี่ยวกับการกำกับดูแล AI ขั้นสูงว่า:

เรายังได้เห็นสัญญาณเบื้องต้นของการปรับปรุงตนเองแบบเรียกซ้ำในระบบวันนี้: การพัฒนาของ AI กำลังได้รับการเร่งโดย AI เอง

สิ่งนี้จะเพิ่มแรงกดดันในการแข่งขันระหว่างนักพัฒนาและรัฐบาล และก่อให้เกิดความท้าทายด้านการกำกับดูแลที่องค์กรเดิมไม่สามารถรับมือได้

สามวันต่อมา Anthropic ก็กล่าวว่า: เส้นทางของ Claude สู่การปรับปรุงตัวเองแบบวนซ้ำ ได้เริ่มปรากฏชัดเจน

Claude

หาก Claude พัฒนาไปตามที่มันคาดหวังไว้ มันจะไม่ใช่เพียงเรื่องเล่าของผลิตภัณฑ์ทั่วไป แต่จะกลายเป็นวงจรการวิจัยและพัฒนา

Claude เขียนโค้ด รันการทดลอง และปรับปรุงกระบวนการฝึกอบรม แล้วใช้ข้อมูลเหล่านั้นลดอุบัติเหตุในผลิตภัณฑ์ของ Anthropic ด้วยตัวเอง... เมื่อระบบชุดนี้ทำงานได้เต็มที่ Claude จะไม่ใช่แค่ผลิตภัณฑ์หนึ่งของ Anthropic อีกต่อไป แต่จะกลายเป็นเครื่องมือการผลิตที่สำคัญของ Anthropic

ผู้ใช้เห็นผลิตภัณฑ์ชื่อ Claude ลูกค้าองค์กรซื้อความสามารถของ Claude แต่สิ่งที่ Anthropic ต้องการให้ตลาดทุนจับตามองคือ: Claude ได้ถูกผสานเข้าไปในกระบวนการพัฒนาโมเดลขั้นสูงในระดับพื้นฐาน มันถูกติดตั้งไว้ในห้องเครื่องของ Anthropic

ตลาดทุนชอบฟังเรื่องของล้อหมุนที่สร้างรายได้เหมือนหม้อข้าวมหัศจรรย์: Claude รุ่นที่แข็งแกร่งขึ้นช่วยให้วิศวกรของ Anthropic รวมโค้ดได้มากขึ้น โค้ดที่มากขึ้นทำให้ผลิตภัณฑ์และโครงสร้างพื้นฐานพัฒนาเร็วขึ้น การพัฒนาที่เร็วขึ้นช่วยให้นักวิจัยสามารถทดลองได้มากขึ้น การทดลองที่มากขึ้นกลับช่วยให้ Claude รุ่นถัดไปแข็งแกร่งขึ้น เมื่อ Claude รุ่นถัดไปแข็งแกร่งขึ้น ก็จะช่วยเร่งการวิจัยและพัฒนาของ Anthropic ต่อไป

ความเร็วในการอัปเดตของ Claude ก็ช่วยหนุนวงจรนี้เช่นกัน จากข้อมูลการเปิดตัวอย่างเป็นทางการ ระหว่างปี 2023 ถึงต้นปี 2025 การอัปเดตโมเดลหลักของ Claude ส่วนใหญ่เป็นทุกสามถึงสี่เดือน แต่เมื่อเข้าสู่ Claude 4 การอัปเดตโมเดลของ Anthropic ดูเหมือนจะถี่ขึ้นอย่างชัดเจน

Claude 4 ออกในเดือนพฤษภาคม 2025, Opus 4.1 ออกในเดือนสิงหาคม, Sonnet 4.5 ออกในเดือนกันยายน, Haiku 4.5 ออกในเดือนตุลาคม, และ Opus 4.5 ออกในเดือนพฤศจิกายน

ถึงปี 2026 Opus 4.6 ออกในวันที่ 5 กุมภาพันธ์ Sonnet 4.6 ออกในวันที่ 17 กุมภาพันธ์ Opus 4.7 ออกในวันที่ 15 เมษายน และ Opus 4.8 ออกในวันที่ 28 พฤษภาคม จาก Opus 4.7 ถึง Opus 4.8 เวลาผ่านไปเพียง 42 วัน

Anthropic ดูเหมือนจะพูดว่า “เรื่องนี้อาจอันตราย เราควรเตรียมเบรกไว้ล่วงหน้า” แต่ในขณะเดียวกันก็กำลังสื่อสารว่า “เราได้เห็นแล้วว่าเกิดอะไรขึ้นเมื่อเหยียบคันเร่ง”

จุดอ่อนของเรื่องราว IPO อยู่ที่ว่า มันทั้งเน้นย้ำถึงความเสี่ยงอย่างหนัก และในเวลาเดียวกันก็ยกตำแหน่งทางเทคโนโลยีของตัวเองให้สูงขึ้น

ไม่ใช่ทุกบริษัท AI ที่มีสิทธิ์พูดถึงการปรับปรุงตัวเองแบบวนซ้ำ คุณต้องทำให้โลกภายนอกเชื่อก่อนว่า AI ของคุณได้เข้าสู่กระบวนการวิจัยและพัฒนา AI แล้ว จึงจะมีสิทธิ์พูดถึงความเป็นไปได้ที่ต้องมีการประสานงานระดับโลก

OpenAI: ทำไมถึงทำแบบนี้ได้?

ก่อนหน้านี้ได้กล่าวไว้ว่า เพียงไม่นานก่อนที่ Anthropic จะเผยแพร่บทความยาวนี้ OpenAI เพิ่งนำแนวคิดการปรับปรุงตัวเองแบบวนซ้ำมาพิจารณา

แต่ทั้งสองบริษัทมีการอธิบายที่ต่างกันมาก

บทความของ OpenAI เรื่อง “Democratic Governance of Frontier AI” เป็นแผนนโยบายที่เขียนถึงวอชิงตัน ซึ่งไม่ได้ให้ความสนใจกับ “โมเดลจะแข็งแกร่งขึ้นได้อย่างไร” แต่ให้ความสำคัญกับการควบคุมเมื่อ AI ขอบเขตหน้าใหม่ยังคงก้าวไปข้างหน้า

เนื้อหาส่วนใหญ่ในรายงานนั้นไม่เหมาะที่จะอธิบายเพิ่มเติม แต่มีประโยคหนึ่งที่สำคัญมาก: OpenAI กล่าวว่า ในระบบปัจจุบัน ได้เห็นสัญญาณเริ่มต้นของการปรับปรุงตนเองแบบวนซ้ำ

ข้อความนี้และบทความยาวของ Anthropic ชี้ไปในทิศทางเดียวกัน

แต่ OpenAI พูดถึงระบบ ในขณะที่ Anthropic พูดถึงตัวเอง

OpenAI หมายความว่า: การพัฒนา AI เร็วเกินไป โครงสร้างการกำกับดูแลปัจจุบันอาจตามไม่ทัน จึงจำเป็นต้องมีกฎเกณฑ์ใหม่

ในขณะเดียวกัน Anthropic ได้เปิดเผยระบบดังกล่าวโดยตรง แจ้งให้ตลาดทราบว่า: Claude ได้เข้าสู่กระบวนการวิจัยและพัฒนาของเราแล้ว ดังนั้นเราจึงเห็นเส้นทางการเร่งตัวเองของ AI

เล่นได้เก่งมากเลย รู้สึกว่าภายใน OpenAI อาจเริ่มมีการถกเถียงกันแล้ว—นี่แทบจะเป็นการลอกไอเดียเลย! เราเป็นคนมาก่อนนะ!

เล่นๆ นะ แต่ OpenAI ควรเร่งหน่อยนะ รีบขึ้น GPT 5.6 มาให้เร็วๆ ที