Nếu ném AI vào một công trường không có đáp án chuẩn, liệu nó có thể sống sót không?
Trong thời gian dài, AI Agent trông như có thể làm được mọi thứ, nhưng thực tế phần lớn chỉ đang “tra cứu ký ức” trong kho tri thức đã biết.
Nhưng thế giới kỹ thuật thực tế lại khắc nghiệt: sự ổn định của robot dưới nước, giới hạn析锂 của pin động lực, kiểm soát nhiễu trong mạch lượng tử... những vấn đề này không có "điểm tuyệt đối", chỉ có sự tối ưu ngày càng tiến gần đến giới hạn.
Gần đây, Frontier-Eng Bench, một bộ đánh giá Agent do Navers lab thuộc Einsia AI phát hành, chính thức gỡ bỏ nhãn hiệu “người giải đề” của AI.

Nhóm nghiên cứu không để AI làm những bài tập mã cũ kỹ, thay vào đó, họ cung cấp cho nó một “vòng lặp kỹ thuật” hoàn chỉnh: đề xuất giải pháp, kết nối với trình mô phỏng, xử lý lỗi, điều chỉnh tham số và chạy lại.
Trước 47 nhiệm vụ cứng cáp đa ngành, AI phải thể hiện như một kỹ sư kỳ cựu, tìm kiếm giải pháp tối ưu trong “tam giác bất khả thi” về công suất, an toàn và hiệu suất.
Đây không chỉ là một bộ dữ liệu kiểm tra, mà còn giống như một buổi diễn tập về sự “tiến hóa” của Agent.
Khi AI bắt đầu học cách tự điều chỉnh dựa trên phản hồi, thời đại Auto Research – nơi con người đưa ra mục tiêu và AI liên tục lặp lại 24/7 – có thể đến gần hơn chúng ta tưởng.
AI đã bắt đầu làm những công việc “khó nhằn”
Các mô hình lớn trước đây giống như một học sinh xuất sắc siêu việt.
Bạn đặt câu hỏi, nó sẽ “tra cứu trí nhớ” từ lượng dữ liệu huấn luyện khổng lồ, sau đó ghép lại thành một câu trả lời trông có vẻ hợp lý.
Trong chế độ này, mô hình lớn về bản chất đang chơi “chơi nối từ”, thay vì giải quyết các vấn đề thực tế.
Tuy nhiên, sự xuất hiện của Frontier-Eng Bench đã khiến AI phải làm công việc “tối ưu hóa kỹ thuật”.
Quy trình chuyển thành việc để AI đề xuất phương án trước, sau đó kết nối với simulator để chạy thí nghiệm, thu thập phản hồi và lỗi, điều chỉnh tham số và mã nguồn, rồi tiếp tục chạy lại cho đến khi hiệu suất tiếp tục tăng lên.
Trong hệ thống khép kín này, danh tính của AI đã trải qua sự thay đổi về chất.
Bạn muốn làm cho robot dưới nước ổn định hơn? AI phải bắt đầu tự điều chỉnh bộ điều khiển.
Bạn muốn tăng thêm tốc độ của cánh tay cơ khí? AI phải tự chạy mô phỏng.
Ở một mức độ nào đó, các AI đã vượt ra khỏi việc hiểu ngữ nghĩa thuần túy và bắt đầu hoạt động như một kỹ sư chuyên nghiệp, liên tục tối ưu hóa dựa trên phản hồi từ môi trường thực tế.

△
Điều thú vị nhất về Frontier-Eng Bench là nó không đo xem AI có trả lời đúng hay không, mà là AI có thể liên tục trở nên mạnh mẽ hơn hay không.
Vì tối ưu hóa kỹ thuật thực sự không bao giờ là bài trắc nghiệm, không có đáp án chuẩn duy nhất.
Ví dụ về sạc nhanh pin, mục tiêu nghe có vẻ đơn giản—sạc càng nhanh càng tốt, nhưng thực tế thì không dễ dàng như vậy.
AI phải chính xác đạt được điểm cân bằng hiệu suất dưới các ràng buộc khắt khe: nhiệt độ không được quá cao, điện áp không được vượt quá giới hạn, tuổi thọ pin không được suy giảm quá nhanh, và phải tránh hiện tượng析锂.
Điều này có nghĩa là AI không thể vượt qua bằng bất kỳ kỹ thuật “luyện đề” nào, mà phải thể hiện sự bền bỉ tiến hóa liên tục qua phản hồi dài hạn.
Liệu AI có thể thực hiện tối ưu hóa dài hạn trong môi trường thực không?
The results show that GPT5.4 performed the most consistently overall, but AI still has a long way to go before it can fully surpass the Benchmark.

△
Auto Research bước vào thời đại "lặp lại và tối ưu hóa"
Nhóm nghiên cứu đã đề cập đến một điểm rất thú vị trong bài báo:
Trí thông minh cao cấp thực sự về bản chất đều dựa vào vòng phản hồi dài hạn.
Giống như AlphaGo có thể đánh bại Lee Sedol nhờ vào hàng triệu lần mô phỏng và phản hồi tức thì đằng sau mỗi quyết định, chứ không phải nhờ ghi nhớ cứng nhắc các lược đồ cờ đã định sẵn.
Cũng giống như nghiên cứu khoa học thực sự, các phòng thí nghiệm hàng đầu không phụ thuộc vào một lần bùng nổ cảm hứng, mà liên tục đưa ra giả thuyết, thực hiện thí nghiệm, xem kết quả, điều chỉnh phương án và tiếp tục thử nghiệm.
Cũng tương tự như tối ưu hóa kỹ thuật, phiên bản đầu tiên thường ai cũng có thể làm được, điều thực sự khó khăn chính là sự tăng trưởng hiệu suất 1% cuối cùng.
Ý nghĩa của Frontier-Eng Bench nằm ở chỗ: nó lần đầu tiên bắt đầu kiểm tra có hệ thống "khả năng lặp lại và tối ưu hóa" của AI, đồng thời rút ra hai quy luật tiến hóa của AI gần như khắc nghiệt.

△
Quy luật đầu tiên là: càng về sau, việc nâng cấp càng khó khăn.
Bài báo này phát hiện rằng tần suất và mức độ cải tiến của Agent đều giảm theo luật lũy thừa:
- Tần suất cải tiến ∝ 1/số vòng lặp
- Mức độ cải tiến ∝ 1/số lần cải tiến
Nói đơn giản là: những vòng đầu tăng nhanh nhất, về sau càng ngày càng khó và càng nhỏ.
Điều này rất giống với quá trình phát triển thực tế, phiên bản đầu tiên của AI có thể nhanh chóng xử lý lượng lớn “quả chín treo thấp”, nhưng càng về sau càng tiếp cận đến giới hạn, muốn cải thiện thêm chút hiệu năng nữa đều phải nỗ lực rất lớn.
Liệu có nên mở nhiều con đường song song để thử và sai không? Đáp án nằm trong quy luật thứ hai.

△
Quy luật thứ hai: Chiều rộng có ích, nhưng chiều sâu mới thực sự không thể thiếu.
Chạy song song nhiều đường dây có thể tránh bị nghẽn, nhưng khi ngân sách cố định, mỗi lần mở thêm một chuỗi sẽ làm giảm độ sâu.
Nhiều đột phá kỹ thuật đòi hỏi sự tích lũy liên tục và điều chỉnh không ngừng mới có thể đạt được sự chuyển biến cấu trúc, chứ không phải chỉ cần “thử nhiều lần” là có thể thực hiện được.
Điều này thực sự chỉ ra hướng phát triển của thế hệ agent tiếp theo: không phải là mô hình “đưa ra câu trả lời một lần”, mà là hệ thống có thể liên tục lặp lại và tự tiến hóa thông qua phản hồi dài hạn.
Các kỹ sư AI, có lẽ đã thực sự đến
Ý nghĩa sâu sắc thực sự của nghiên cứu này nằm ở chỗ nó đã bước đầu phác thảo một hệ thống AI bắt đầu tiến gần đến chu trình kỹ thuật thực tế.

△
Hãy tưởng tượng khi AI được tích hợp vào phần mềm công nghiệp, môi trường mô phỏng, hệ thống CAD, công cụ thiết kế chip, nền tảng tính toán khoa học...
Một cuộc biến đổi lớn trong mô hình năng suất đang sắp xảy ra.
Trong phòng thí nghiệm tương lai, rất có thể sẽ xuất hiện sự phân công như vậy:
Các nhà nghiên cứu con người chịu trách nhiệm đề xuất hướng đi và mục tiêu.
Ví dụ: “giảm 30% mức tiêu thụ năng lượng của bộ phận này”, “giảm thấp hơn nữa tỷ lệ sử dụng GPU trong quá trình tiến của mô hình này”, “nâng cao thêm một chút độ ổn định của việc điều khiển robot”, “tiếp tục tiến gần hơn đến giới hạn độ trung thực của mạch lượng tử” v.v.
Còn AI chịu trách nhiệm “đi sâu vào con đường”, liên tục tối ưu hóa dựa trên những mục tiêu này.
Ví dụ: tự động chạy mô phỏng và thí nghiệm, tự động đọc phản hồi từ verifier và simulator, sau đó tiếp tục chỉnh sửa và tối ưu, lặp lại liên tục 24/7.
Logic tiến hóa này giúp AI thoát khỏi vai trò “công cụ hỗ trợ” và bắt đầu giải quyết các vấn đề hệ thống phức tạp như một đội ngũ kỹ thuật thực sự, mà không bao giờ mệt mỏi.
Tuy nhiên, vấn đề được tiết lộ bởi Frontier-Eng cũng rất trực tiếp:
Khi AI bắt đầu học cách “tối ưu hóa dài hạn”, thì nó còn cách xa trí tuệ kỹ thuật thực sự bao xa?
Tiêu đề luận văn: Frontier-Eng: Đánh giá các tác nhân tự tiến hóa trên các nhiệm vụ kỹ thuật thực tế với tối ưu hóa sinh học
Trang chủ dự án: https://lab.einsia.ai/frontier-eng/
Arxiv: https://arxiv.org/abs/2604.12290
Repo GitHub: https://github.com/EinsiaLab/Frontier-Engineering
Bài viết này đến từ tài khoản chính thức WeChat "Quantum Bit", tác giả: Yun Zhong
