Anthropic tuyên bố con đường tự cải tiến của AI đang trở nên rõ ràng, khơi dậy tranh luận về câu chuyện IPO

Bài viết | Chữ AI

Anthropic đã công bố một bài viết dài vào tối qua với tiêu đề “When AI builds itself” (Khi AI tự xây dựng chính nó), nghe giống như một tiểu thuyết khoa học viễn tưởng của Asimov, và chủ đề cũng thực sự là một khái niệm rất khoa học viễn tưởng: recursive self-improvement (cải tiến tự thân lặp lại).

Claude

Nói một cách đơn giản, trước đây là các nhà nghiên cứu con người viết mã, thực hiện thí nghiệm và huấn luyện mô hình để làm cho AI mạnh hơn. Nhưng nếu AI tự tham gia vào việc thiết kế, huấn luyện, kiểm thử và tối ưu hóa các phiên bản tiếp theo của chính nó, thì tốc độ tiến bộ của AI sẽ không còn chỉ do con người thúc đẩy, mà có thể bắt đầu bởi “tiến hóa tự thân” của AI.

Để đáp lại điều này, Anthropic đã đưa ra lời kêu gọi:

We believe that if the world could choose to slow down or temporarily halt the development of frontier AI to allow social structures and alignment research to catch up with technological progress, it would be greatly beneficial to the world.

Câu này nghe như một cảnh báo an toàn, nhưng khi đặt trong bối cảnh Anthropic chuẩn bị IPO, nó cũng khó mà không bị xem như một màn trình diễn kịch bản khác: Claude hữu dụng đến mức thậm chí còn tự tạo ra thế hệ Claude tiếp theo.

Cơn bão mới đã xuất hiện

Để minh họa rằng AI đang ngày càng tham gia nhiều hơn vào chính việc phát triển AI, Anthropic đã trình bày một lượng lớn dữ liệu nội bộ.

Ví dụ, tính đến tháng 5 năm 2026, hơn 80% mã được hợp nhất vào kho mã của Anthropic được Claude viết. Trước khi Claude Code ra mắt, con số này chỉ ở mức chữ số đơn.

Đến quý hai năm 2026, theo thống kê của Anthropic, lượng mã được hợp nhất mỗi ngày của các kỹ sư đã tăng khoảng 8 lần so với năm 2024.

Claude

Điều đáng chú ý hơn số lượng mã nguồn là Claude đang xử lý các vấn đề kỹ thuật mở rộng hơn.

Anthropic cho biết, trong năm qua, tần suất nhân viên sửa lỗi cho Claude, đưa Claude trở lại đúng hướng hoặc tiếp nhận nhiệm vụ giữa chừng đang liên tục giảm xuống. Sự thay đổi này không chỉ xảy ra với các nhiệm vụ đơn giản, mà còn cả với các nhiệm vụ mở phức tạp nhất.

Các nhiệm vụ mở là những vấn đề không có hướng dẫn rõ ràng. Ví dụ: hệ thống bị sập, nhiệm vụ huấn luyện bị treo, ngay cả kỹ sư cũng không biết câu trả lời trông như thế nào ban đầu, mà phải vừa kiểm tra vừa phán đoán.

Trước đây, các nhiệm vụ này phụ thuộc nhiều nhất vào kinh nghiệm con người, nhưng trong những nhiệm vụ mở nhất, tỷ lệ thành công của Claude đã đạt 76% vào tháng 5 năm 2026, tăng 50 điểm phần trăm trong sáu tháng.

Claude

Không chỉ viết mã, Anthropic còn sử dụng Claude để kiểm tra mã, phát hiện lỗi, lỗ hổng bảo mật và các khuyết điểm khác. Họ phân tích ngược lại và phát hiện rằng nếu mọi thay đổi mã trước đây đều được Claude tự động kiểm tra, khoảng một phần ba các lỗi gây ra sự cố trên claude.ai đã có thể bị ngăn chặn trước khi triển khai.

Ở mức độ cao hơn, Claude đã bắt đầu tham gia vào quy trình nghiên cứu.

Anthropic có một bài kiểm tra cố định: cung cấp cho Claude một đoạn mã huấn luyện mô hình nhỏ, yêu cầu nó tìm cách chạy mã nhanh hơn mà không thay đổi kết quả. Tháng 5 năm 2025, Claude Opus 4 có thể đạt tốc độ tăng lên khoảng 3 lần; đến tháng 4 năm 2026, Claude Mythos Preview đã đẩy con số này lên khoảng 52 lần.

Anthropic cũng đề cập đến một trường hợp nghiên cứu an toàn AI mở. Họ đã giao một câu hỏi cho tác nhân được điều khiển bởi Claude: một mô hình yếu hơn có thể giám sát đáng tin cậy một mô hình mạnh hơn không?

Quá trình này yêu cầu đưa ra giả thuyết, kiểm tra giả thuyết, chia sẻ phát hiện với các tác nhân song song và lặp lại nhiều lần.

Hai nhà nghiên cứu con người đã dành một tuần để thu hẹp khoảng cách khoảng 23%; trong khi Claude, với tổng cộng khoảng 800 giờ và chi phí tính toán khoảng 18.000 USD, đã thu hẹp 97%.

Kết quả này tất nhiên có hạn chế, nhưng vấn đề do con người lựa chọn, tiêu chí đánh giá cũng do con người đặt ra, và kết quả chưa được áp dụng hoàn toàn vào mô hình quy mô sản xuất. Tuy nhiên, nó vẫn cho thấy Claude đã có thể tự thiết kế thí nghiệm, tự thực hiện và tự lặp lại trong một khung nghiên cứu mà con người đã định hướng sẵn.

Ngoài ra, khi các nhà nghiên cứu con người đi sai hướng, Claude vẫn có thể đưa ra phán đoán chính xác hơn về bước tiếp theo.

Anthropic đã tìm thấy 129 phiên nghiên cứu nội bộ của Claude Code, trong đó các nhà nghiên cứu con người và Claude cùng nhau giải quyết các vấn đề nghiên cứu mở. Anthropic đã chọn ra một số điểm mà sau này con người chứng minh là đã đi sai hướng, sau đó cung cấp bối cảnh trước điểm đó cho các phiên bản khác nhau của Claude để xem nó sẽ đề xuất bước tiếp theo nào. Sau đó, một Claude judge khác, biết trước kết cục đầy đủ của phiên hội thoại, sẽ đánh giá: đề xuất của mô hình và lựa chọn của con người lúc đó, cái nào tốt hơn.

Kết quả cho thấy, tại những điểm mà các nhà nghiên cứu con người đã được chứng minh là có không gian cải thiện, Claude ngày càng đưa ra các bước tiếp theo tốt hơn.

Claude

Trước đây, sự tiến bộ của các mô hình AI chủ yếu do các nhà nghiên cứu và kỹ sư con người thúc đẩy. Con người quyết định thực hiện thí nghiệm nào, viết mã, huấn luyện mô hình và thúc đẩy các đợt cải tiến chức năng của AI.

Hiện tại, ngày càng nhiều khâu trong chuỗi này đang được Claude tiếp nhận.

Anthropic đã đưa ra một bảng giai đoạn rất trực quan:

Claude

Từ năm 2021 đến 2023, Anthropic không khác gì các công ty công nghệ thông thường, đều là con người viết mã và soạn tài liệu trên máy tính xách tay.

Từ năm 2023 đến 2025, các chatbot bắt đầu được tích hợp vào quy trình làm việc. Các kỹ sư để mô hình tạo ra các đoạn mã, sau đó sao chép vào trình soạn thảo.

Năm 2025 đến 2026, các tác nhân lập trình xuất hiện, Claude bắt đầu có khả năng tự viết và sửa mã, đôi khi thậm chí có thể hoàn thành toàn bộ tệp một cách độc lập.

Đến hôm nay, các tác nhân đã có thể tự chạy mã và giao việc kéo dài hàng giờ cho các tác nhân khác.

Sau đó là giai đoạn mà Anthropic thực sự lo ngại: vòng lặp khép kín.

Nếu ngày đó đến, các phiên bản tiếp theo của Claude có thể được cải tiến liên tục bởi chính Claude—đó là recursive self-improvement, cải tiến tự thân đệ quy.

Anthropic đã nói rất cẩn trọng trong bài viết: chúng ta chưa đến bước đó, và việc tự cải tiến đệ quy cũng không phải điều tất yếu xảy ra. Nhưng nó vẫn nhấn mạnh rằng con đường dẫn đến bước đó đã bắt đầu trở nên rõ ràng.

Vì vậy, Anthropic mới đề cập đến việc giảm tốc độ, thậm chí tạm dừng ở cuối bài viết. Ý nghĩa của nó không phải là tất cả các công ty AI hiện tại sẽ ngừng hoạt động ngay lập tức, mà là nếu rủi ro tự cải tiến của AI tiếp tục gia tăng trong tương lai, các phòng thí nghiệm tiên tiến cần một cơ chế giảm tốc độ được phối hợp và có thể xác minh.

Nói cách khác, “điểm kỳ dị” đang đến gần, nhân loại phải kiểm soát nó.

Claude không thể ngăn cản

Nếu chỉ nhìn bề ngoài, đây là một tài liệu bảo mật rất có tầm nhìn tương lai. Anthropic đang nói về việc tự cải tiến lặp lại, về việc AI có thể ngày càng cải tiến chính nó nhanh hơn, và về việc xã hội loài người cần chuẩn bị sẵn các cơ chế giảm tốc và dừng lại.

Nhưng khi đặt trong bối cảnh Anthropic chuẩn bị IPO, bài viết này mang một ý nghĩa khác.

Theo một nghĩa nào đó, những động thái gần đây của Nhà máy A giống như học sinh giỏi trong lớp hay khoe khoang—nó thực sự có năng lực, nhưng cũng thực sự giả tạo.

Nó không chỉ muốn nói rằng “chúng tôi có một Claude mạnh mẽ”, mà còn tiến xa hơn một bước, nó muốn nói rằng “Claude đang giúp chúng tôi tạo ra một Claude mạnh mẽ hơn”.

Nếu Anthropic chỉ bán một mô hình hoặc một công cụ, thì nó sẽ rất khó để thoát khỏi việc so sánh ngang hàng: Anthropic có Claude, OpenAI có GPT; Anthropic có Claude Code, OpenAI có Codex; Anthropic cạnh tranh khách hàng doanh nghiệp, OpenAI cũng cạnh tranh khách hàng doanh nghiệp. Cuộc cạnh tranh giữa hai công ty rất khốc liệt, và điều quyết định là ai có thể kể được câu chuyện lớn hơn với thị trường.

Cần lưu ý rằng, mới cách đây 3 ngày, OpenAI vừa viết trong một tài liệu về quản trị AI tiên tiến:

Chúng tôi cũng đã thấy những dấu hiệu ban đầu của sự tự cải tiến lặp lại trong hệ thống hôm nay: chính sự phát triển của AI đang được AI thúc đẩy.

Điều này sẽ làm gia tăng áp lực cạnh tranh giữa các nhà phát triển và các quốc gia, đồng thời mang lại những thách thức quản trị mà các tổ chức hiện có không thể ứng phó.

Sau 3 ngày, Anthropic ngay lập tức nói: Con đường của Claude hướng tới tự cải thiện đệ quy đã bắt đầu trở nên rõ ràng.

Claude

Nếu Claude phát triển đúng như kỳ vọng của nó, thì đây sẽ không còn là câu chuyện sản phẩm thông thường, mà sẽ trở thành một vòng xoay nghiên cứu và phát triển.

Claude viết mã, chạy thí nghiệm, tối ưu quy trình huấn luyện, sau đó ngược lại giảm thiểu sự cố trong sản phẩm của chính Anthropic... Khi hệ thống này chạy ổn định, Claude không chỉ là một sản phẩm của Anthropic, mà còn trở thành công cụ sản xuất quan trọng của Anthropic.

Người dùng thấy sản phẩm Claude, khách hàng doanh nghiệp mua khả năng của Claude, nhưng điều Anthropic thực sự muốn thu hút sự chú ý của thị trường vốn là: Claude đã được tích hợp vào quy trình phát triển nền tảng các mô hình tiên tiến, và nó đã được đặt vào buồng động cơ của Anthropic.

Thị trường vốn thích nghe những câu chuyện về bánh xe tăng tốc, giống như một chiếc bát thần thu hút tài lộc không ngừng: Claude mạnh mẽ hơn giúp các kỹ sư của Anthropic hợp nhất được nhiều mã nguồn hơn, nhiều mã nguồn hơn giúp sản phẩm và hạ tầng được cải tiến nhanh hơn, sự cải tiến nhanh hơn giúp các nhà nghiên cứu thực hiện nhiều thí nghiệm hơn, và nhiều thí nghiệm hơn lại góp phần làm cho thế hệ Claude tiếp theo trở nên mạnh mẽ hơn. Khi thế hệ Claude tiếp theo trở nên mạnh mẽ hơn, nó lại tiếp tục thúc đẩy tốc độ nghiên cứu và phát triển của Anthropic.

Tốc độ cải tiến của Claude cũng đang hỗ trợ bánh xe này. Từ thời gian công bố công khai, từ năm 2023 đến đầu năm 2025, các bản cập nhật mô hình chính của Claude thường cách nhau ba đến bốn tháng, nhưng kể từ khi bước vào giai đoạn Claude 4, tần suất cập nhật mô hình của Anthropic rõ ràng đã tăng lên đáng kể.

Claude 4 được phát hành vào tháng 5 năm 2025, Opus 4.1 vào tháng 8, Sonnet 4.5 vào tháng 9, Haiku 4.5 vào tháng 10 và Opus 4.5 vào tháng 11.

Đến năm 2026, Opus 4.6 được phát hành vào ngày 5 tháng 2, Sonnet 4.6 được phát hành vào ngày 17 tháng 2, Opus 4.7 được phát hành vào ngày 15 tháng 4, và Opus 4.8 được phát hành vào ngày 28 tháng 5. Chỉ sau 42 ngày kể từ Opus 4.7 đến Opus 4.8.

Anthropic表面上在说“这件事可能很危险，我们要提前准备刹车”，但它同时也在暗示：“我们已经看到油门踩下去之后会发生什么。”

Sự tinh tế của câu chuyện IPO nằm ở chỗ nó vừa nhấn mạnh rủi ro, vừa nâng cao vị thế công nghệ của chính mình.

Không phải công ty AI nào cũng đủ tư cách để thảo luận về cải tiến tự lặp lại; bạn phải khiến bên ngoài tin rằng AI của bạn đã bước vào quy trình phát triển AI, mới có quyền nói rằng điều này có thể cần sự phối hợp toàn cầu.

OpenAI: Làm sao có thể như vậy?

Như đã đề cập trước đó, ngay trước khi Anthropic đăng bài viết dài này, OpenAI vừa mới đưa vấn đề tự cải tiến lặp lại lên bàn thảo luận.

But the two companies' statements are very different.

Bài viết của OpenAI mang tên "Democratic Governance of Frontier AI" là một bản đồ chính sách dành cho Washington, quan tâm không phải đến việc "mô hình trở nên mạnh hơn như thế nào", mà là làm thế nào để kiểm soát khi AI tiền phong tiếp tục tiến lên phía trước.

Phần lớn nội dung trong báo cáo đó không phù hợp để nhắc lại chi tiết, nhưng có một câu quan trọng: OpenAI cho biết, trong các hệ thống hiện tại, đã có thể nhìn thấy những dấu hiệu ban đầu của việc tự cải tiến đệ quy.

Câu này và bài viết dài của Anthropic thực chất đều hướng đến cùng một hướng.

Chỉ là OpenAI đang nói về hệ thống, còn Anthropic đang nói về chính mình.

OpenAI có nghĩa là: Sự phát triển của AI quá nhanh, các cấu trúc quản trị hiện tại có thể không theo kịp, do đó cần một bộ quy tắc mới.

Và Anthropic đã trực tiếp công khai hệ thống đó, thông báo với thị trường: Claude đã được tích hợp vào quy trình nghiên cứu và phát triển của chúng tôi, do đó chúng ta đã nhìn thấy con đường tự tăng tốc của AI.

Chiêu này chơi rất cao tay, cảm giác bên trong OpenAI có lẽ đã bắt đầu rỉ tai với nhau—đây rõ ràng là ăn cắp ý tưởng! Rõ ràng là chúng ta đến trước!

Chỉ đùa thôi, nhưng OpenAI thực sự cần nhanh tay hơn một chút, hãy đưa GPT 5.6 lên ngay đi.