ไม่กี่วันก่อน Anthropic ได้เผยแพร่บทความชื่อ «When AI Builds Itself» ซึ่งได้รับการพูดถึงอย่างกว้างขวาง บทความเปิดเผยข้อมูลภายในที่น่าตกใจ: จนถึงเดือนพฤษภาคม 2026 โค้ดมากกว่า 80% ในคลังโค้ดของ Anthropic ถูกเขียนโดย Claude และจำนวนโค้ดที่วิศวกรรวมเข้ากับระบบต่อวันเพิ่มขึ้นเป็น 8 เท่าของปี 2024; ในการทดสอบภายในหนึ่งครั้ง Claude สามารถเร่งความเร็วในการรันโค้ดการฝึกอบรมจากค่าพื้นฐานได้ประมาณ 52 เท่า ในขณะที่นักวิจัยมนุษย์ที่มีประสบการณ์โดยทั่วไปต้องใช้เวลา 4 ถึง 8 ชั่วโมงเพื่อให้ได้ความเร็วเพิ่มขึ้นเพียง 4 เท่า
Anthropic ชี้ไปยังเป้าหมายที่ลึกซึ้งยิ่งขึ้น: “การปรับปรุงตนเองแบบวนซ้ำ” — ระบบ AI ออกแบบ สร้าง และฝึกอบรมรุ่นถัดไปของตนเองโดยไม่ต้องให้มนุษย์ขับเคลื่อนแต่ละขั้นตอน โดยน่าสังเกตว่า บริษัทยังเรียกร้องให้ภาคอุตสาหกรรมร่วมมือกัน เพื่อมีตัวเลือกในการระงับหรือระงับชั่วคราวการพัฒนา AI ขั้นสูงสุดเมื่อถึงช่วงเวลาของการปรับปรุงตนเองแบบวนซ้ำ และ Anthropic ได้ดำเนินการแล้ว: การจำกัดไม่ให้ Claude Fable 5 รุ่นล่าสุดใช้ในการวิจัยและพัฒนา AI ขั้นสูงสุด
และตอนนี้ Recursive Superintelligence ประกาศก้าวแรกสู่การวิจัย AI อัตโนมัติ
บริษัทใหม่ที่ร่วมก่อตั้งโดยเทียน เหยียนตง เพิ่งออกจากการอยู่ในสถานะเงียบเพียงหนึ่งเดือน และตอนนี้ได้เปิดเผยผลงานเทคโนโลยีสาธารณะชิ้นแรกแล้ว พวกเขาได้สร้างระบบค้นพบความรู้อัตโนมัติแบบเปิด และบรรลุผลลัพธ์ SOTA บนการทดสอบมาตรฐานสามรายการ โดยสรุปง่ายๆ คือพวกเขาประสบความสำเร็จในการทำให้ AI ทำการทดลองแทนคุณ

https://x.com/tydsh/status/2065062838255649082
ผลลัพธ์ขั้นตอนที่หนึ่ง: ให้ AI วิ่งการทดลองแทนคุณ
Recursive ผลงานทางเทคนิคสาธารณะชิ้นแรกมีชื่อว่า「First Steps Toward Automated AI Research」

https://x.com/Recursive_SI/status/2064980090702962699
ที่อยู่คลังข้อมูล: https://github.com/recursive-org/first-steps-toward-automated-ai-research
ที่อยู่บล็อก: https://www.recursive.com/articles/first-steps-toward-automated-ai-research
หากต้องสรุปด้วยประโยคเดียว แก่นหลักของงานนี้คือ: การสร้างระบบที่สามารถขับเคลื่อนวงจรการวิจัย AI ด้วยตนเอง และทำลายสถิติที่ดีที่สุดบนการทดสอบมาตรฐานสามรายการ
ก่อนที่จะแยกแยะผลลัพธ์อย่างเป็นทางการ จำเป็นต้องเข้าใจตรรกะการออกแบบของระบบชุดนี้ก่อน
กระบวนการวิจัย AI แบบดั้งเดิมเป็นวงจรปิดที่พึ่งพาคนอย่างมาก ซึ่งประกอบด้วยขั้นตอน “เสนอแนวคิด—เขียนโค้ด—รันการทดลอง—วิเคราะห์ผล—เสนอแนวคิดใหม่” ข้อจำกัดด้านประสิทธิภาพไม่ได้อยู่ที่พลังการคำนวณ แต่อยู่ที่คน นักวิจัยทั่วโลกที่สามารถออกแบบกระบวนการฝึกอบรมขั้นสูงมีจำนวนน้อยมาก และแต่ละรอบของการวนซ้ำการทดลองต้องการการมีส่วนร่วมอย่างใกล้ชิดจากพวกเขา
ระบบของ Recursive กำลังพยายามทำให้闭环นี้เป็นอัตโนมัติ
มันทำงานโดยการระบุเป้าหมายการปรับปรุงที่ชัดเจน ระบบจะเสนอแนวคิดการทดลองอัตโนมัติ ดำเนินการโค้ด รันการตรวจสอบ และเรียนรู้จากผลลัพธ์ จากนั้นตัดสินใจว่าจะค้นหาต่อไปอย่างไร สามารถดำเนินการหลายเส้นทางการวิจัยพร้อมกันได้ ผลลัพธ์ที่มีประสิทธิภาพสามารถนำกลับมาใช้ใหม่ข้ามงานต่างๆ และกลไกตรวจจับการโกงรางวัล (reward hacking) ถูกฝังไว้ภายในวงจรทั้งหมด เพื่อป้องกันไม่ให้ระบบ “เลือกทางลัด” โดยการปรับปรุงตัวชี้วัดการประเมินโดยไม่ได้ปรับปรุงสิ่งใดจริงๆ
นี่ไม่ใช่เครื่องมือเฉพาะทางที่ปรับแต่งสำหรับปัญหาเดียว แต่เป็นกรอบงานอัตโนมัติสำหรับการวิจัยที่ใช้ได้ทั่วทุกสาขา Recursive ใช้สามสถานการณ์ทดสอบที่แตกต่างกันอย่างชัดเจนเพื่อพิสูจน์จุดนี้
สามสนามรบ สามสถิติใหม่

สถานการณ์ที่หนึ่ง: การฝึกโมเดลขนาดเล็กภายใต้งบประมาณที่คำนวณคงที่ (NanoChat Autoresearch)
กติกาของการทดสอบนี้มาจากโครงการ autoresearch ที่เริ่มต้นโดย Andrej Karpathy (ผู้แต่ง GPT-2 และผู้ร่วมก่อตั้ง OpenAI): บน GPU หนึ่งตัว โดยมีงบการฝึกคงที่ห้านาที ให้ฝึกโมเดลภาษาขนาดเล็กให้ได้ค่าการสูญเสียการตรวจสอบต่ำที่สุดเท่าที่จะเป็นไปได้ (วัดด้วย BPB ยิ่งต่ำยิ่งดี)
สถานการณ์นี้เหมาะอย่างยิ่งสำหรับการวิจัยแบบอัตโนมัติ: ระยะเวลาการทดลองสั้น ความแปรปรวนของตัวชี้วัดต่ำ และการทุจริตค่อนข้างตรวจจับได้ง่าย ด้วยเหตุนี้ โครงการชุมชนชื่อ “autoresearch@home” จึงได้ดำเนินการบนฐานข้อมูลนี้มานานแล้ว—นักวิจัยมนุษย์数十คนร่วมกับตัวแทน AI หลายร้อยตัว ร่วมกันลดตัวชี้วัดอย่างต่อเนื่อง
ระบบของ Recursive ที่เริ่มต้นด้วยรหัสเริ่มต้นเดียวกัน ได้ผลักดันค่า BPB ที่ตรวจสอบจาก 0.9372 ซึ่งเป็นค่าที่ดีที่สุดของชุมชน ให้เหลือเพียง 0.9109 โดยปรับปรุงไป 0.0263 BPB ในอีกนัยหนึ่ง: ด้วยคุณภาพการฝึกอบรมเท่ากัน โซลูชันของ Recursive ต้องใช้เวลาฝึกอบรมน้อยกว่าคู่แข่งเพียง 1.3 เท่า



การปรับปรุงที่ระบบค้นพบไม่ใช่การแก้ไขเพียงจุดเดียว แต่เป็นการรวมการปรับโครงสร้าง การสูญเสียช่วยเหลือ การเปลี่ยนแปลงกลไกการให้ความสำคัญ พฤติกรรมของตัวปรับแต่ง การจัดการการลดน้ำหนัก และการตั้งค่าคอมไพเลอร์ ฯลฯ จุดสำคัญที่สุดคือการค้นพบกลไกความจำบริบทสั้นที่อุดมสมบูรณ์ยิ่งขึ้น: โดยการฝังข้อมูล bigram (คู่คำที่อยู่ติดกัน) และ trigram (ชุดสามตัว) พร้อมกันผ่านตารางแฮชในเส้นทางค่าของความสนใจ แล้วผสมผสานด้วยการถ่วงน้ำหนักแบบเรียนรู้ได้ แต่ละชั้นของ Transformer ใช้ฟังก์ชันแฮชที่ต่างกัน เพื่อลดความเป็นไปได้ของการชนกันซ้ำระหว่างชั้น
เทคนิคนี้มีความเกี่ยวข้องในเชิงแนวคิดกับงานเช่น DeepSeek Engram แต่ระบบได้นำไปใช้งานในรูปแบบเฉพาะที่ยังไม่เคยปรากฏในเอกสารสาธารณะสำหรับสถานการณ์งบประมาณคงที่
สถานการณ์ที่สอง: การแข่งขันความเร็วในการฝึก (NanoGPT Speedrun)
หากสถานการณ์ก่อนหน้าเป็นการก้าวไปอีกขั้นหนึ่งจากความสำเร็จของชุมชนที่มีชีวิตชีวา สถานการณ์นี้ยากกว่ามาก
NanoGPT Speedrun เป็นมาตรฐานอีกชุดหนึ่งที่ Karpathy เริ่มต้นและชุมชนได้ปรับปรุงอย่างต่อเนื่องมากกว่าสองปี: เวลาที่สั้นที่สุดในการฝึกโมเดล GPT ให้ได้ค่าการสูญเสียการตรวจสอบที่ 3.28 บน GPU H100 8 ตัว ตั้งแต่กลางปี 2024 เป็นต้นมา ชุมชนได้ลดเวลาจากประมาณ 45 นาทีเหลือ 79.7 วินาทีผ่านการมีส่วนร่วมที่บันทึกไว้ทั้งหมด 83 ครั้ง การเสนอวิธีใหม่แต่ละครั้งต้องบีบเวลาออกมาจากโค้ดที่ได้รับการปรับแต่งอย่างสุดขีดแล้ว ความยากลำบากจึงสามารถจินตนาการได้
ระบบของ Recursive ได้เริ่มต้นจากโซลูชันที่ดีที่สุดที่มีอยู่ และลดเวลาการฝึกอบรมลงอีกเป็น 77.5 วินาที ประหยัดได้ 2.2 วินาที ซึ่งเทียบเท่าหรือดีกว่าการปรับปรุงที่ผู้มีส่วนร่วมของมนุษย์สามารถทำได้ในช่วงไม่กี่ปีที่ผ่านมา

เทคนิคหลักที่ระบบครั้งนี้พบรวมถึง:
การคำนวณความสนใจด้วยความแม่นยำ FP8 โซลูชันของชุมชนใช้การคำนวณ FP8 (จุดลอยตัว 8 บิต) เฉพาะในชั้นสุดท้ายของโมเดล (หัวภาษาโมเดล) ในขณะที่ระบบขยาย FP8 ไปยังการดำเนินการเมทริกซ์ในชั้นความสนใจ โดยการแพร่กระจายแบบข้างหน้าใช้ FP8 เพื่อให้ได้ปริมาณการผ่านข้อมูลของ Tensor Core เพิ่มเป็นสองเท่า และการแพร่กระจายแบบย้อนกลับยังคงใช้ BF16 เพื่อรักษาความเสถียร
เสียงการสำรวจอุณหภูมิในตัวปรับแต่ง ระบบจะเพิ่มเสียงกอสเซียนที่มีค่าเฉลี่ยเป็นศูนย์เข้าไปในขั้นตอนการอัปเดตของตัวปรับแต่ง NorMuon โดยความแรงของเสียงจะลดลงเชิงเส้นตามความคืบหน้าของการฝึกจนถึงศูนย์ ซึ่งคล้ายกับการให้ตัวปรับแต่งมีรูปแบบพฤติกรรม “สำรวจอย่างกล้าหาญก่อน แล้วค่อยรวมตัวอย่างมั่นคง” เพื่อช่วยให้ผลลัพธ์สุดท้ายตกอยู่ในพื้นที่ความสูญเสียที่ราบเรียบกว่า
รวมแกน MLP แบบเรียบง่ายขึ้น ระบบได้เขียนแกน Triton GPU ใหม่ เพื่อให้การส่งต่อข้อมูลเก็บเฉพาะค่าการกระตุ้นที่ถูกยกกำลังสองของ ReLU และในการย้อนกลับ คำนวณค่ากลางที่ยังไม่ถูกยกกำลังสองภายในแกนเอง ลดการอ่านและเขียนเต็มรูปแบบของเทนเซอร์การกระตุ้นในหน่วยความจำความเร็วสูง—ซึ่งเป็นการเร่งความเร็วโดยตรงบนระดับฮาร์ดแวร์
การปรับปรุงสามประการ ซึ่งอยู่ในสามด้านวิชาชีพที่แตกต่างกัน ได้แก่ กลยุทธ์ความแม่นยำ การออกแบบตัวเพิ่มประสิทธิภาพ และการเขียนโปรแกรมเคอร์เนล GPU ระบบได้ค้นพบพื้นที่ในการปรับปรุงเพิ่มเติมจากผลลัพธ์ของการปรับปรุงโดยชุมชนเป็นเวลาสองปี ซึ่งแสดงให้เห็นถึงปัญหาอย่างชัดเจน
สถานการณ์ที่สาม: การปรับแต่งเคอร์เนล GPU (SOL-ExecBench)
สองสถานการณ์แรกทำงานในระดับการฝึกโมเดล ส่วนสถานการณ์ที่สามลึกลงไปถึงการปรับแต่งเคอร์เนลการคำนวณของ GPU
SOL-ExecBench เป็นการทดสอบประสิทธิภาพที่ NVIDIA เปิดตัว ซึ่งประกอบด้วยงานเขียนเคอร์เนล 235 งาน ครอบคลุมภาระงานจริงหลายประเภท เช่น การคูณเมทริกซ์ การลดค่า การทำปกติ การประกอบความสนใจ ขั้นตอนการควอนไทซ์ และบล็อกการรวมกัน มาตรฐานการให้คะแนนคือคะแนน SOL: 0.5 หมายถึงการใช้งาน PyTorch พื้นฐาน และ 1.0 หมายถึงขีดจำกัดเชิงทฤษฎีของฮาร์ดแวร์ ผลลัพธ์ที่ดีที่สุดที่เคยเปิดเผยมาก่อนคือ 0.699


ระบบ Recursive ทำงานแบบรวมบน 235 แกน ช่วยให้สามารถใช้ซ้ำรูปแบบการปรับปรุงที่ค้นพบได้ข้ามงานต่างๆ (เช่น กลยุทธ์การเคลื่อนย้ายหน่วยความจำ วิธีการแบ่งบล็อก และเทคนิคการลดขนาด) ทำให้คะแนนสูงขึ้นเป็น 0.754 และลดช่องว่างระหว่างประสิทธิภาพกับขีดจำกัดของฮาร์ดแวร์ลง 18%
สถานการณ์นี้มีความพิเศษ เพราะงานด้านเคอร์เนลเป็นสาขาที่เชี่ยวชาญสูงมาก—วิศวกรที่สามารถเขียนเคอร์เนล Triton/CUDA ที่มีประสิทธิภาพมีอยู่ทั่วโลกเพียงไม่กี่คน และทีม Recursive ได้เปิดเผยในบล็อกว่าพวกเขาเองก็ไม่ใช่ผู้เชี่ยวชาญด้านเคอร์เนล “ความคิดเหล่านี้มาจากตัวระบบเอง ไม่ใช่จากพื้นฐานความเชี่ยวชาญของเรา”
Recursive: ใช้ AI วิจัยการเรียกซ้ำเพื่อปรับปรุง AI
บริษัทที่เปิดตัวผลงานนี้คือ Recursive Superintelligence ก่อตั้งขึ้นระหว่างปลายปี 2025 ถึงต้นปี 2026 และเพิ่งสิ้นสุดช่วงเวลาที่ซ่อนตัวเมื่อเดือนที่แล้ว สมาชิกผู้ก่อตั้งรวมถึง เทียน เหยียนตง หัวหน้านักวิจัยของ Meta FAIR ก่อนหน้านี้ พร้อมด้วย:

ริชาร์ด โซเชอร์ ซีอีโอของ Recursive อดีตวิทยาศาสตร์หัวหน้าของ Salesforce
อเล็กซีย์ โดโซวิตสกีย์ นักวิจัยวิทยาศาสตร์ผู้ก่อตั้งของ Google DeepMind และผู้เขียนหลักของ Vision Transformer ที่มีการอ้างอิงบน Google Scholar มากกว่า 160,000 ครั้ง
ทิม ร็อกเทชเซล อดีตนักวิทยาศาสตร์หลักของ DeepMind และศาสตราจารย์ปัญญาประดิษฐ์ของ UCL
ปีเตอร์ นอร์วิค อดีตผู้อำนวยการวิจัยของกูเกิล ร่วมเขียนหนังสือตำราชื่อดังในสาขาปัญญาประดิษฐ์เรื่อง “Artificial Intelligence: A Modern Approach” กับสจ๊วต รัสเซล
ไกมิง เซี่ยง อดีตรองประธานด้าน AI ของ Salesforce
ติม ชี อดีตนักวิจัยของ OpenAI ผู้ร่วมก่อตั้งและซีทีโอของบริษัทปัญญาประดิษฐ์ด้านธุรกิจ Cresta
โจช ทอบิน หัวหน้าเทคโนโลยีของ Recursive หัวหน้าการวิจัยของ OpenAI และ Uber ATG รายก่อนหน้า
เจฟฟ์ คลูน อดีตรองประธานการวิจัยของ Google DeepMind ศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์ มหาวิทยาลัยบริติชโคลัมเบีย ประเทศแคนาดา
และบริสัทสตาร์ทอัพนี้ได้รับการระดมทุน 6.5 พันล้านดอลลาร์สหรัฐตั้งแต่เพิ่งเปิดตัว โดยยังไม่มีผลิตภัณฑ์เปิดเผยอย่างเป็นทางการ มีมูลค่าบริษัทสูงถึง 46.5 พันล้านดอลลาร์สหรัฐ โดย GV (Google Ventures) และ Greycroft เป็นผู้นำการระดมทุน ขณะที่ NVIDIA และ AMD Ventures เข้าร่วมการระดมทุน
ข้อเสนอหลักของบริษัทสอดคล้องโดยตรงกับชื่อ: การสร้างระบบ AI ที่สามารถเพิ่มความสามารถในการวิจัยของตนเองแบบวนซ้ำ ทำให้ AI มีส่วนร่วมและเร่งกระบวนการพัฒนา AI เอง จนเกิดวงจรการเสริมตัวเองอย่างต่อเนื่อง
สำหรับรายละเอียดเพิ่มเติม โปรดดูรายงานเรื่อง “หลังจากออกจาก Meta 田渊栋เพิ่งประกาศเริ่มต้นธุรกิจของตัวเอง”
แน่นอน ในระดับเส้นทางนี้ Recursive ไม่ได้อยู่คนเดียว AMI Labs ของยาน เลคุน ระดมทุนได้ 1 พันล้านดอลลาร์สหรัฐในเดือนมีนาคมปีนี้ และ Ineffable Intelligence ของเดวิด ซิลเวอร์ ได้รับการระดมทุน种子轮 1.1 พันล้านดอลลาร์สหรัฐในเดือนเมษายน ทั้งสองบริษัทต่างชี้ไปในทิศทางเดียวกัน: ทำให้ระบบ AI สามารถสร้างความรู้ด้วยตัวเอง ลดการมีส่วนร่วมของมนุษย์ในกระบวนการวิจัย แต่ในแง่ของจังหวะการเปิดเผยผลงาน ผลงาน “ขั้นแรก” ของ Recursive น่าจะเป็นหนึ่งในการแสดงเทคโนโลยีที่เฉพาะเจาะจงและสามารถทำซ้ำได้มากที่สุดในบรรดาบริษัทประเภทเดียวกันจนถึงปัจจุบัน
ยุคเริ่มต้นของรูปแบบการเรียกซ้ำ
ผลลัพธ์ที่ Recursive ประกาศนี้ ในบริบทอุตสาหกรรมที่กว้างขึ้น แสดงถึงการประยุกต์ใช้รูปแบบการวิจัย AI แบบใหม่ครั้งแรก: การให้ระบบ AI เป็นผู้รับผิดชอบหลักในการวิจัย
ตรรกะหลักของ “ปัญญาประดิษฐ์แบบวนซ้ำ” นี้ไม่ซับซ้อน: ปัญญาประดิษฐ์ช่วยเพิ่มความสามารถในการวิจัยปัญญาประดิษฐ์ ปัญญาประดิษฐ์ที่ปรับปรุงแล้วสามารถเพิ่มประสิทธิภาพตัวเองได้อย่างมีประสิทธิภาพมากขึ้น และดำเนินไปอย่างต่อเนื่อง มันไม่ได้พึ่งพาการพัฒนาครั้งเดียว แต่พึ่งพาระบบที่สร้างการพัฒนาอย่างต่อเนื่อง
แนวคิดนี้มีความสำคัญอย่างยิ่งต่อเศรษฐศาสตร์ของการวิจัย AI โดยกระบวนการฝึกโมเดลขั้นสูงยังคงพึ่งพาผู้วิจัยจำนวนน้อยที่มีทักษะเฉพาะทาง และมีบุคคลทั่วโลกที่สามารถทำหน้าที่นี้ได้ไม่เกินหลายพันคน หากระบบอัตโนมัติในการวิจัยสามารถรับผิดชอบงานบางส่วนได้ ความเร็วและเส้นโค้งต้นทุนของความก้าวหน้าด้าน AI จะเปลี่ยนไป
การตัดสินใจนี้ยังสอดคล้องกับเสียงอื่นๆ ที่อุตสาหกรรมได้ส่งออกมาในช่วงไม่กี่วันที่ผ่านมา เช่น บทความ “When AI Builds Itself” ของ Anthropic ซึ่งกล่าวถึงในตอนต้นของบทความนี้ มีน้ำเสียงที่ไม่ได้เบาสบาย—มันเรียกร้องให้อุตสาหกรรมร่วมมือกันเพื่อมีตัวเลือกในการระงับหรือหยุดชั่วคราวการพัฒนา AI ขั้นสูงเมื่อถึงเวลาที่ AI เริ่มปรับปรุงตัวเองแบบวนซ้ำ เพื่อให้โครงสร้างทางสังคมและการวิจัยด้านการจัดแนวสามารถตามทันได้ สำหรับรายละเอียดเพิ่มเติมโปรดดูที่ “AI พัฒนาตัวเองเร็วเกินไป Anthropic เรียกร้องให้ระงับการวิจัยทั่วโลก”

https://www.anthropic.com/institute/recursive-self-improvement
มีสองสิ่งเกิดขึ้นพร้อมกัน ซึ่งน่าสนใจอย่างยิ่ง ด้านหนึ่งคือ Anthropic กำลังบันทึกและเตือนเกี่ยวกับทิศทางของเส้นทางนี้ อีกด้านหนึ่งคือทีมอย่าง Recursive กำลังค่อยๆ ทำให้เส้นทางนี้เป็นจริง
แน่นอน Recursive ยอมรับว่า นี่ยังคงเป็น「ขั้นตอนแรก»: ระบบปัจจุบันทำงานได้ดีที่สุดในสถานการณ์ที่มีตัวชี้วัดชัดเจน ข้อมูลย้อนกลับเร็ว และสามารถตรวจจับการโกงได้ ยังห่างไกลจากความสามารถในการขับเคลื่อนปัญหาทางวิทยาศาสตร์แบบเปิดอย่างอิสระ การป้องกันการโกงเพื่อรับรางวัลจะยังคงเป็นความท้าทายหลักที่ต้องเผชิญอย่างต่อเนื่องบนเส้นทางการขยายขนาด
แต่ระบบปิดได้เริ่มทำงานแล้ว คำถามถัดไปคือ มันจะหมุนเร็วแค่ไหน
บทความนี้มาจาก微信号 “Machine Heart” (ID: almosthuman2014) โดยผู้เขียน: Machine Heart ในกระบวนการวิวัฒนาการแบบเรียกซ้ำ และบรรณาธิการ: Panda
