Recursive Superintelligence công bố hệ thống nghiên cứu AI tự động đầu tiên

Vài ngày trước, Anthropic đã công bố một bài viết có tựa đề “When AI Builds Itself” (Khi AI Tự Xây Dựng Chính Mình), nhanh chóng gây ra nhiều cuộc tranh luận rộng rãi. Bài viết tiết lộ một bộ dữ liệu nội bộ đáng chú ý: tính đến tháng 5 năm 2026, hơn 80% mã nguồn trong kho mã của Anthropic đã được Claude viết ra, và lượng mã được các kỹ sư hợp nhất mỗi ngày cao gấp 8 lần so với năm 2024; trong một bài kiểm tra nội bộ, Claude đã tăng tốc độ thực thi một đoạn mã huấn luyện lên khoảng 52 lần so với mức cơ sở, trong khi một nhà nghiên cứu con người có kinh nghiệm thường cần từ 4 đến 8 giờ để đạt được tốc độ tăng 4 lần.

Anthropic đã chỉ ra con đường này hướng đến một mục đích sâu sắc hơn: “tự cải tiến đệ quy” — hệ thống AI tự thiết kế, xây dựng và huấn luyện các phiên bản kế tiếp của chính nó mà không cần con người điều khiển từng bước. Điều đáng chú ý là công ty này còn kêu gọi sự phối hợp ngành công nghiệp để có lựa chọn tạm hoãn hoặc tạm dừng phát triển AI tiên tiến khi thời điểm tự cải tiến đệ quy đến. Và Anthropic đã bắt đầu thực hiện điều này: hạn chế việc sử dụng Claude Fable 5 mới nhất cho nghiên cứu và phát triển AI tiên tiến.

Và hiện tại, Recursive Superintelligence đã công bố bước đi đầu tiên trong nghiên cứu AI tự động hóa.

Công ty mới do Tian Yuan Dong đồng sáng lập vừa kết thúc giai đoạn ẩn danh được một tháng, nay đã công bố thành tựu kỹ thuật công khai đầu tiên. Họ đã phát triển một hệ thống tự động hóa khám phá tri thức mở và đạt được kết quả SOTA trên ba bài kiểm tra chuẩn. Nói một cách đơn giản, họ đã thành công trong việc giúp AI thay bạn thực hiện các thí nghiệm.

https://x.com/tydsh/status/2065062838255649082

Kết quả bước đầu: Để AI chạy thí nghiệm thay bạn

Recursive这项首个公开技术成果名为「First Steps Toward Automated AI Research」（迈向自动化 AI 研究的第一步）。

Bài đăng: https://x.com/Recursive_SI/status/2064980090702962699
Địa chỉ kho: https://github.com/recursive-org/first-steps-toward-automated-ai-research
Địa chỉ blog: https://www.recursive.com/articles/first-steps-toward-automated-ai-research

Nếu tóm gọn trong một câu, cốt lõi của công việc này là: xây dựng một hệ thống có thể tự động thúc đẩy chu trình nghiên cứu AI và đạt thành tích tốt nhất trên ba bài kiểm tra chuẩn.

Trước khi phân tích kết quả chính thức, cần hiểu rõ logic thiết kế của hệ thống này.

Quy trình nghiên cứu AI truyền thống là một vòng lặp phụ thuộc nhiều vào con người: “đưa ra ý tưởng—viết mã—chạy thí nghiệm—phân tích kết quả—đưa ra ý tưởng mới”. Sự hạn chế về hiệu suất không nằm ở sức mạnh tính toán, mà nằm ở con người. Trên toàn thế giới, số lượng nhà nghiên cứu có thể thiết kế các quy trình huấn luyện tiên tiến là rất ít, và mỗi chu kỳ lặp lại thí nghiệm đều đòi hỏi sự can thiệp sâu của họ.

Hệ thống của Recursive cố gắng tự động hóa vòng lặp này.

Nó hoạt động như sau: dựa trên một mục tiêu tối ưu rõ ràng, hệ thống tự động đưa ra ý tưởng thí nghiệm, triển khai mã, chạy xác minh, học hỏi từ kết quả, sau đó quyết định hướng tìm kiếm tiếp theo. Nhiều tuyến nghiên cứu có thể được thúc đẩy song song, các phát hiện hiệu quả có thể được tái sử dụng xuyên suốt các nhiệm vụ, và cơ chế phát hiện gian lận phần thưởng (reward hacking) đã được tích hợp sẵn vào toàn bộ vòng lặp để ngăn hệ thống “đi đường tắt” bằng cách tăng điểm đánh giá mà không thực sự cải thiện bất cứ điều gì.

Đây không phải là một công cụ được tinh chỉnh riêng cho một vấn đề cụ thể, mà là một khung công tác tự động hóa nghiên cứu đa lĩnh vực. Recursive đã chứng minh điều này thông qua ba kịch bản thử nghiệm khác biệt rõ rệt.

Ba chiến trường, ba kỷ lục mới

Cảnh 1: Huấn luyện mô hình nhỏ với ngân sách tính toán cố định (NanoChat Autoresearch)

Các quy tắc của bài kiểm tra hiệu năng này đến từ dự án autoresearch do Andrej Karpathy (tác giả của GPT-2, đồng sáng lập trước đây của OpenAI) khởi xướng: trên một GPU, với ngân sách huấn luyện cố định năm phút, hãy huấn luyện một mô hình ngôn ngữ nhỏ đến mức tổn thất xác thực thấp nhất có thể (đo bằng BPB, càng thấp càng tốt).

Cảnh tượng này rất phù hợp để nghiên cứu tự động hóa: chu kỳ thí nghiệm ngắn, phương sai chỉ số thấp và hành vi gian lận tương đối dễ phát hiện. Chính vì vậy, một dự án cộng đồng có tên "autoresearch@home" đã chạy lâu dài trên cơ sở này—hàng chục nhà nghiên cứu con người cùng hàng trăm tác nhân AI hợp tác liên tục đẩy các chỉ số xuống thấp hơn.

Hệ thống của Recursive, bắt đầu từ cùng một mã ban đầu, đã nâng cao BPB từ mức tốt nhất của cộng đồng là 0,9372 lên 0,9109, cải thiện 0,0263 BPB. Nói cách khác: với cùng chất lượng đào tạo, giải pháp của Recursive chỉ cần 1,3 lần ít thời gian đào tạo hơn so với đối thủ để đạt được kết quả tương đương.

Các cải tiến được hệ thống phát hiện không phải là giải pháp duy nhất. Nó kết hợp nhiều thay đổi như điều chỉnh kiến trúc, tổn thất phụ, thay đổi cơ chế chú ý, hành vi của bộ tối ưu, lịch trình suy giảm trọng số, cài đặt trình biên dịch, v.v. Phát hiện quan trọng nhất là một cơ chế ghi nhớ ngữ cảnh ngắn phong phú hơn: trong đường dẫn value của cơ chế chú ý, thông tin bigram (cặp từ liền kề) và trigram (bộ ba) được nhúng đồng thời thông qua bảng băm, sau đó được trộn lẫn bằng trọng số điều khiển có thể học được. Các lớp Transformer khác nhau sử dụng các hàm băm khác nhau để giảm xác suất va chạm lặp lại giữa các lớp.

Kỹ thuật này có liên quan về mặt khái niệm đến các công việc như DeepSeek Engram, nhưng hệ thống đã triển khai nó dưới dạng biến thể cụ thể chưa từng xuất hiện trong các tài liệu công khai trong bối cảnh ngân sách cố định.

Cảnh hai: Cuộc thi tốc độ huấn luyện (NanoGPT Speedrun)

Nếu cảnh trước là việc "tiến thêm một bước" dựa trên thành quả của một cộng đồng sôi động, thì cảnh này khó hơn nhiều.

NanoGPT Speedrun là một benchmark khác do Karpathy khởi xướng và cộng đồng tối ưu liên tục hơn hai năm: thời gian ngắn nhất để huấn luyện một mô hình GPT đến mức tổn thất xác thực 3.28 trên 8 GPU H100. Kể từ giữa năm 2024, cộng đồng đã giảm thời gian từ khoảng 45 phút xuống còn 79,7 giây thông qua 83 đóng góp được ghi nhận. Mỗi giải pháp mới đều cần rút thêm thời gian từ mã đã được tối ưu cực kỳ, độ khó có thể tưởng tượng được.

Hệ thống Recursive xuất phát từ giải pháp tối ưu hiện tại, đã tiếp tục giảm thời gian huấn luyện xuống còn 77,5 giây, tiết kiệm được 2,2 giây. Điều này tương đương hoặc thậm chí tốt hơn so với mức cải tiến mà các đóng góp của con người gần đây có thể đạt được.

Các kỹ năng cốt lõi mà hệ thống lần này tìm thấy bao gồm:

Tính toán chú ý với độ chính xác FP8. Giải pháp của cộng đồng chỉ sử dụng FP8 (điểm nổi dấu 8 bit) cho lớp cuối cùng của mô hình (đầu mô hình ngôn ngữ), trong khi hệ thống mở rộng FP8 vào các phép toán ma trận trong lớp chú ý, sử dụng FP8 cho lan truyền thuận để đạt được gấp đôi thông lượng Tensor Core, và giữ BF16 cho lan truyền ngược để duy trì độ ổn định.

Tiếng ồn khám phá làm nguội trong bộ tối ưu. Hệ thống thêm nhiễu Gauss có trung bình bằng không vào bước cập nhật của bộ tối ưu NorMuon, với biên độ nhiễu giảm tuyến tính về không theo tiến trình huấn luyện. Điều này giống như tạo cho bộ tối ưu một mô hình hành vi “khám phá táo tợn ban đầu, sau đó hội tụ ổn định”, giúp giải pháp cuối cùng rơi vào một vùng tổn thất phẳng hơn.

Hợp nhất nhân MLP được tối giản hơn. Hệ thống đã viết lại một nhân Triton GPU để trong lan truyền thuận chỉ lưu trữ giá trị kích hoạt sau khi bình phương ReLU, và trong lan truyền ngược, tính lại các kết quả trung gian chưa bình phương bên trong nhân, loại bỏ một lần đọc/ghi đầy đủ tensor kích hoạt trên bộ nhớ GPU băng thông cao—đây là tốc độ tăng trực tiếp ở cấp phần cứng.

Ba cải tiến, thuộc ba lĩnh vực chuyên môn khác nhau: chiến lược độ chính xác, thiết kế bộ tối ưu và lập trình nhân GPU. Việc hệ thống vẫn tìm thấy không gian để cải thiện trên nền tảng tối ưu hóa cộng đồng trong hai năm qua đã nói lên tất cả.

Cảnh ba: Tối ưu hóa lõi GPU (SOL-ExecBench)

Hai kịch bản đầu tiên hoạt động ở cấp độ đào tạo mô hình, trong khi kịch bản thứ ba đi sâu hơn vào mức độ cơ bản: tối ưu hóa nhân tính toán GPU.

SOL-ExecBench là bài kiểm tra hiệu năng do NVIDIA phát hành, bao gồm 235 tác vụ được viết bằng kernel, bao phủ nhiều loại tải công việc thực tế như nhân ma trận, giảm, lớp chuẩn hóa, thành phần chú ý, thủ tục lượng tử hóa và khối hợp nhất. Tiêu chí đánh giá là điểm SOL: 0.5 tương ứng với triển khai PyTorch cơ sở, 1.0 tương ứng với giới hạn lý thuyết phần cứng. Thành tích công khai tốt nhất trước đây là 0.699.

Hệ thống Recursive chạy tổng thể trên 235 lõi, cho phép tái sử dụng các mẫu tối ưu đã phát hiện giữa các tác vụ (ví dụ: chiến lược sao chép bộ nhớ, cách chia khối, kỹ thuật giảm), giúp điểm số tăng lên 0,754, thu hẹp khoảng cách với giới hạn phần cứng xuống 18%.

Bối cảnh này có ý nghĩa đặc biệt vì kỹ thuật lõi là một lĩnh vực cực kỳ chuyên sâu—những kỹ sư có thể viết được các lõi Triton/CUDA hiệu quả trên toàn cầu là cực kỳ hiếm có. Đội Recursive thừa nhận trên blog rằng họ cũng không phải là chuyên gia trong lĩnh vực lõi: “Những ý tưởng này xuất phát từ chính hệ thống, chứ không phải từ nền tảng chuyên môn của chúng tôi.”

Recursive: Dùng AI để nghiên cứu đệ quy nhằm cải tiến AI

Công ty công bố thành tựu này, Recursive Superintelligence, được thành lập vào cuối năm 2025 đến đầu năm 2026, vừa kết thúc giai đoạn ẩn danh vào tháng trước, các thành viên sáng lập bao gồm ngoài cựu Giám đốc Nghiên cứu khoa học của Meta FAIR, Tian Yandong, còn có:

Richard Socher, CEO của Recursive, cựu khoa học gia trưởng của Salesforce

Alexey Dosovitskiy, cựu nhà khoa học nghiên cứu tại Google DeepMind và tác giả đầu tiên của Vision Transformer, với hơn 160.000 trích dẫn trên Google Scholar

Tim Rocktäschel, cựu Principal Scientist của DeepMind và giáo sư trí tuệ nhân tạo tại UCL

Peter Norvig, cựu giám đốc nghiên cứu của Google, đồng tác giả với Stuart Russell của cuốn giáo trình nổi tiếng trong lĩnh vực AI, "Artificial Intelligence: A Modern Approach"

Caiming Xiong, cựu Phó chủ tịch AI của Salesforce

Tim Shi, cựu nhà nghiên cứu của OpenAI, đồng sáng lập và CTO của công ty AI doanh nghiệp Cresta

Josh Tobin, CTO của Recursive, cựu trưởng nhóm nghiên cứu tại OpenAI và Uber ATG

Jeff Clune, cựu Phó chủ tịch nghiên cứu của Google DeepMind, giáo sư khoa học máy tính tại Đại học British Columbia, Canada

Và ngay khi startup này ra mắt, thậm chí còn chưa có sản phẩm công khai, họ đã huy động được 650 triệu USD với định giá lên tới 4,65 tỷ USD, do GV (quỹ đầu tư của Google) và Greycroft dẫn đầu, với sự tham gia của NVIDIA và AMD Ventures.

Tuyên bố cốt lõi của công ty trực tiếp tương ứng với tên gọi: xây dựng hệ thống AI có khả năng tự tăng cường nghiên cứu một cách đệ quy, cho phép AI tham gia và thúc đẩy quá trình phát triển chính nó, cuối cùng tạo thành một vòng lặp tự tăng cường liên tục.

Để biết thêm chi tiết, vui lòng tham khảo bài viết “Sau khi rời Meta, Tian Yuandong vừa công bố khởi nghiệp”.

Tất nhiên, ở cấp độ lĩnh vực, Recursive không đơn độc. AMI Labs của Yann LeCun đã huy động được 1 tỷ USD vào tháng 3 năm nay, còn Ineffable Intelligence của David Silver đã huy động được 1,1 tỷ USD trong vòng seed vào tháng 4, cả hai đều hướng đến cùng một mục tiêu: giúp các hệ thống AI tự tạo ra kiến thức, giảm sự can thiệp của con người trong quy trình nghiên cứu. Tuy nhiên, về tốc độ công bố thành quả, bước "đầu tiên" của Recursive có lẽ là một trong những minh chứng kỹ thuật cụ thể và có thể tái tạo nhất trong số các công ty cùng loại hiện nay.

Dawn of the Recursive Paradigm

Kết quả do Recursive công bố, khi đặt trong bối cảnh ngành rộng lớn hơn, đại diện cho sự triển khai ban đầu của một mô hình nghiên cứu AI mới: biến chính AI hệ thống thành chủ thể của nghiên cứu.

Logic cốt lõi của "AI lặp lại" này không phức tạp: AI nâng cao khả năng nghiên cứu của chính nó, và AI đã được cải tiến lại có thể nâng cao hiệu quả hơn nữa cho chính nó, lặp đi lặp lại. Nó không phụ thuộc vào một đột phá đơn lẻ, mà dựa vào một hệ thống liên tục tạo ra các đột phá.

Ý tưởng này có ý nghĩa quan trọng đối với kinh tế học của chính nghiên cứu AI. Quy trình huấn luyện các mô hình tiên tiến vẫn phụ thuộc rất nhiều vào một số ít nhà nghiên cứu có kỹ năng đặc biệt, và trên toàn cầu chỉ có vài nghìn người đủ năng lực để thực hiện công việc này. Nếu hệ thống nghiên cứu tự động hóa có thể tiếp nhận dù chỉ một phần công việc, tốc độ và đường cong chi phí của sự tiến bộ AI sẽ thay đổi.

Phán đoán này cũng phù hợp với các tiếng nói khác gần đây trong ngành. Ví dụ, bài viết “When AI Builds Itself” của Anthropic được đề cập ở đầu bài viết này, giọng điệu không hề nhẹ nhàng — nó kêu gọi sự phối hợp trong ngành để có lựa chọn tạm hoãn hoặc đình chỉ tạm thời việc phát triển AI tiên tiến khi thời điểm tự cải tiến đệ quy đến, nhằm tạo ra khoảng thời gian để các cấu trúc xã hội và nghiên cứu về sự đồng bộ theo kịp nhịp độ. Để biết thêm chi tiết, vui lòng tham khảo bài viết “AI tự tiến hóa quá nhanh, Anthropic kêu gọi đình chỉ phát triển toàn cầu”.

https://www.anthropic.com/institute/recursive-self-improvement

Hai sự việc xảy ra đồng thời, đáng suy ngẫm. Một bên là Anthropic ghi lại và cảnh báo xu hướng này, bên kia là các đội như Recursive đang từng bước biến xu hướng này thành hiện thực.

Tất nhiên, Recursive cũng thừa nhận rằng đây vẫn chỉ là "bước đầu tiên": hệ thống hiện tại hoạt động tốt nhất trong các tình huống có chỉ số rõ ràng, phản hồi nhanh và có thể phát hiện gian lận, còn xa mới đạt được khả năng tự động thúc đẩy các vấn đề khoa học mở. Việc phòng chống gian lận trong phần thưởng sẽ là thách thức cốt lõi liên tục phải đối mặt trên con đường mở rộng quy mô.

Nhưng một vòng lặp khép kín đã bắt đầu vận hành. Vấn đề tiếp theo chỉ là nó sẽ quay nhanh đến mức nào.

Bài viết này đến từ tài khoản WeChat "Machine Heart" (ID: almosthuman2014), tác giả: Machine Heart trong quá trình tiến hóa đệ quy, biên tập: Panda