Các bài kiểm tra hiệu suất AI mới đánh giá tối ưu hóa kỹ thuật mà không có đáp án chuẩn

icon MarsBit
Chia sẻ
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconTóm tắt

expand icon
Navers Lab của Einsia AI đã ra mắt Frontier-Eng Bench, một tiêu chuẩn mới để kiểm tra các tác nhân AI trên các nhiệm vụ tối ưu hóa kỹ thuật mà không có câu trả lời chuẩn. 47 nhiệm vụ yêu cầu điều chỉnh lặp lại và mô phỏng để tối ưu hóa dưới các ràng buộc phức tạp. Tiêu chuẩn này phản ánh sự chuyển dịch hướng tới việc AI bắt chước quy trình làm việc kỹ thuật của con người. Các nhà giao dịch phân tích hiệu suất AI có thể xem xét tỷ lệ rủi ro-lợi nhuận khi đánh giá kết quả. Các mức hỗ trợ và kháng cự trong phát triển AI đang trở nên rõ ràng hơn khi các mô hình tiến hóa.

Nếu ném AI vào một công trường không có đáp án chuẩn, liệu nó có thể sống sót không?

Trong thời gian dài, AI Agent trông như có thể làm được mọi thứ, nhưng thực tế phần lớn chỉ đang “tra cứu ký ức” trong kho tri thức đã biết.

Nhưng thế giới kỹ thuật thực tế lại khắc nghiệt: sự ổn định của robot dưới nước, giới hạn析锂 của pin động lực, kiểm soát nhiễu trong mạch lượng tử... những vấn đề này không có "điểm tuyệt đối", chỉ có sự tối ưu ngày càng tiến gần đến giới hạn.

Gần đây, Frontier-Eng Bench, một bộ đánh giá Agent do Navers lab thuộc Einsia AI phát hành, chính thức gỡ bỏ nhãn hiệu “người giải đề” của AI.

Nghiên cứu tự động

Nhóm nghiên cứu không để AI làm những bài tập mã cũ kỹ, thay vào đó, họ cung cấp cho nó một “vòng lặp kỹ thuật” hoàn chỉnh: đề xuất giải pháp, kết nối với trình mô phỏng, xử lý lỗi, điều chỉnh tham số và chạy lại.

Trước 47 nhiệm vụ cứng cáp đa ngành, AI phải thể hiện như một kỹ sư kỳ cựu, tìm kiếm giải pháp tối ưu trong “tam giác bất khả thi” về công suất, an toàn và hiệu suất.

Đây không chỉ là một bộ dữ liệu kiểm tra, mà còn giống như một buổi diễn tập về sự “tiến hóa” của Agent.

Khi AI bắt đầu học cách tự điều chỉnh dựa trên phản hồi, thời đại Auto Research – nơi con người đưa ra mục tiêu và AI liên tục lặp lại 24/7 – có thể đến gần hơn chúng ta tưởng.

AI đã bắt đầu làm những công việc “khó nhằn”

Các mô hình lớn trước đây giống như một học sinh xuất sắc siêu việt.

Bạn đặt câu hỏi, nó sẽ “tra cứu trí nhớ” từ lượng dữ liệu huấn luyện khổng lồ, sau đó ghép lại thành một câu trả lời trông có vẻ hợp lý.

Trong chế độ này, mô hình lớn về bản chất đang chơi “chơi nối từ”, thay vì giải quyết các vấn đề thực tế.

Tuy nhiên, sự xuất hiện của Frontier-Eng Bench đã khiến AI phải làm công việc “tối ưu hóa kỹ thuật”.

Quy trình chuyển thành việc để AI đề xuất phương án trước, sau đó kết nối với simulator để chạy thí nghiệm, thu thập phản hồi và lỗi, điều chỉnh tham số và mã nguồn, rồi tiếp tục chạy lại cho đến khi hiệu suất tiếp tục tăng lên.

Trong hệ thống khép kín này, danh tính của AI đã trải qua sự thay đổi về chất.

Bạn muốn làm cho robot dưới nước ổn định hơn? AI phải bắt đầu tự điều chỉnh bộ điều khiển.

Bạn muốn tăng thêm tốc độ của cánh tay cơ khí? AI phải tự chạy mô phỏng.

Ở một mức độ nào đó, các AI đã vượt ra khỏi việc hiểu ngữ nghĩa thuần túy và bắt đầu hoạt động như một kỹ sư chuyên nghiệp, liên tục tối ưu hóa dựa trên phản hồi từ môi trường thực tế.

Nghiên cứu tự động

Điều thú vị nhất về Frontier-Eng Bench là nó không đo xem AI có trả lời đúng hay không, mà là AI có thể liên tục trở nên mạnh mẽ hơn hay không.

Vì tối ưu hóa kỹ thuật thực sự không bao giờ là bài trắc nghiệm, không có đáp án chuẩn duy nhất.

Ví dụ về sạc nhanh pin, mục tiêu nghe có vẻ đơn giản—sạc càng nhanh càng tốt, nhưng thực tế thì không dễ dàng như vậy.

AI phải chính xác đạt được điểm cân bằng hiệu suất dưới các ràng buộc khắt khe: nhiệt độ không được quá cao, điện áp không được vượt quá giới hạn, tuổi thọ pin không được suy giảm quá nhanh, và phải tránh hiện tượng析锂.

Điều này có nghĩa là AI không thể vượt qua bằng bất kỳ kỹ thuật “luyện đề” nào, mà phải thể hiện sự bền bỉ tiến hóa liên tục qua phản hồi dài hạn.

Liệu AI có thể thực hiện tối ưu hóa dài hạn trong môi trường thực không?

The results show that GPT5.4 performed the most consistently overall, but AI still has a long way to go before it can fully surpass the Benchmark.

Nghiên cứu tự động

Auto Research bước vào thời đại "lặp lại và tối ưu hóa"

Nhóm nghiên cứu đã đề cập đến một điểm rất thú vị trong bài báo:

Trí thông minh cao cấp thực sự về bản chất đều dựa vào vòng phản hồi dài hạn.

Giống như AlphaGo có thể đánh bại Lee Sedol nhờ vào hàng triệu lần mô phỏng và phản hồi tức thì đằng sau mỗi quyết định, chứ không phải nhờ ghi nhớ cứng nhắc các lược đồ cờ đã định sẵn.

Cũng giống như nghiên cứu khoa học thực sự, các phòng thí nghiệm hàng đầu không phụ thuộc vào một lần bùng nổ cảm hứng, mà liên tục đưa ra giả thuyết, thực hiện thí nghiệm, xem kết quả, điều chỉnh phương án và tiếp tục thử nghiệm.

Cũng tương tự như tối ưu hóa kỹ thuật, phiên bản đầu tiên thường ai cũng có thể làm được, điều thực sự khó khăn chính là sự tăng trưởng hiệu suất 1% cuối cùng.

Ý nghĩa của Frontier-Eng Bench nằm ở chỗ: nó lần đầu tiên bắt đầu kiểm tra có hệ thống "khả năng lặp lại và tối ưu hóa" của AI, đồng thời rút ra hai quy luật tiến hóa của AI gần như khắc nghiệt.

Nghiên cứu tự động

Quy luật đầu tiên là: càng về sau, việc nâng cấp càng khó khăn.

Bài báo này phát hiện rằng tần suất và mức độ cải tiến của Agent đều giảm theo luật lũy thừa:

  • Tần suất cải tiến ∝ 1/số vòng lặp
  • Mức độ cải tiến ∝ 1/số lần cải tiến

Nói đơn giản là: những vòng đầu tăng nhanh nhất, về sau càng ngày càng khó và càng nhỏ.

Điều này rất giống với quá trình phát triển thực tế, phiên bản đầu tiên của AI có thể nhanh chóng xử lý lượng lớn “quả chín treo thấp”, nhưng càng về sau càng tiếp cận đến giới hạn, muốn cải thiện thêm chút hiệu năng nữa đều phải nỗ lực rất lớn.

Liệu có nên mở nhiều con đường song song để thử và sai không? Đáp án nằm trong quy luật thứ hai.

Nghiên cứu tự động

Quy luật thứ hai: Chiều rộng có ích, nhưng chiều sâu mới thực sự không thể thiếu.

Chạy song song nhiều đường dây có thể tránh bị nghẽn, nhưng khi ngân sách cố định, mỗi lần mở thêm một chuỗi sẽ làm giảm độ sâu.

Nhiều đột phá kỹ thuật đòi hỏi sự tích lũy liên tục và điều chỉnh không ngừng mới có thể đạt được sự chuyển biến cấu trúc, chứ không phải chỉ cần “thử nhiều lần” là có thể thực hiện được.

Điều này thực sự chỉ ra hướng phát triển của thế hệ agent tiếp theo: không phải là mô hình “đưa ra câu trả lời một lần”, mà là hệ thống có thể liên tục lặp lại và tự tiến hóa thông qua phản hồi dài hạn.

Các kỹ sư AI, có lẽ đã thực sự đến

Ý nghĩa sâu sắc thực sự của nghiên cứu này nằm ở chỗ nó đã bước đầu phác thảo một hệ thống AI bắt đầu tiến gần đến chu trình kỹ thuật thực tế.

Nghiên cứu tự động

Hãy tưởng tượng khi AI được tích hợp vào phần mềm công nghiệp, môi trường mô phỏng, hệ thống CAD, công cụ thiết kế chip, nền tảng tính toán khoa học...

Một cuộc biến đổi lớn trong mô hình năng suất đang sắp xảy ra.

Trong phòng thí nghiệm tương lai, rất có thể sẽ xuất hiện sự phân công như vậy:

Các nhà nghiên cứu con người chịu trách nhiệm đề xuất hướng đi và mục tiêu.

Ví dụ: “giảm 30% mức tiêu thụ năng lượng của bộ phận này”, “giảm thấp hơn nữa tỷ lệ sử dụng GPU trong quá trình tiến của mô hình này”, “nâng cao thêm một chút độ ổn định của việc điều khiển robot”, “tiếp tục tiến gần hơn đến giới hạn độ trung thực của mạch lượng tử” v.v.

Còn AI chịu trách nhiệm “đi sâu vào con đường”, liên tục tối ưu hóa dựa trên những mục tiêu này.

Ví dụ: tự động chạy mô phỏng và thí nghiệm, tự động đọc phản hồi từ verifier và simulator, sau đó tiếp tục chỉnh sửa và tối ưu, lặp lại liên tục 24/7.

Logic tiến hóa này giúp AI thoát khỏi vai trò “công cụ hỗ trợ” và bắt đầu giải quyết các vấn đề hệ thống phức tạp như một đội ngũ kỹ thuật thực sự, mà không bao giờ mệt mỏi.

Tuy nhiên, vấn đề được tiết lộ bởi Frontier-Eng cũng rất trực tiếp:

Khi AI bắt đầu học cách “tối ưu hóa dài hạn”, thì nó còn cách xa trí tuệ kỹ thuật thực sự bao xa?

Tiêu đề luận văn: Frontier-Eng: Đánh giá các tác nhân tự tiến hóa trên các nhiệm vụ kỹ thuật thực tế với tối ưu hóa sinh học

Trang chủ dự án: https://lab.einsia.ai/frontier-eng/

Arxiv: https://arxiv.org/abs/2604.12290

Repo GitHub: https://github.com/EinsiaLab/Frontier-Engineering

Bài viết này đến từ tài khoản chính thức WeChat "Quantum Bit", tác giả: Yun Zhong

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.