Ujian Patokan AI Baharu Mereka Rekabentuk Pengoptimuman Kejuruteraan Tanpa Jawapan Standard

Jika AI dilemparkan ke tapak kejuruteraan tanpa jawapan standard, adakah ia masih boleh bertahan?

Selama ini, AI Agent kelihatan mampu melakukan apa sahaja, tetapi sebenarnya kebanyakannya hanya “mencari ingatan” dalam perpustakaan pengetahuan yang sudah diketahui.

Namun dunia kejuruteraan yang sebenar adalah kejam: stabiliti robot bawah air, sempadan pelapukan litium pada bateri kuasa besar, pengawalan bunyi dalam litar kuantum... masalah-masalah ini tidak ada "skor penuh", hanya "pengoptimuman yang lebih mendekati had".

Baru-baru ini, Frontier-Eng Bench, penilaian Agen yang dikeluarkan oleh Navers lab di bawah Einsia AI, secara rasmi melepaskan label "ahli soalan" terhadap AI.

Penyelidikan Automatik

Pasukan penyelidik tidak membiarkan AI menyelesaikan soalan kod lama; sebaliknya, mereka memberinya satu “siklus kejuruteraan” penuh: mencadangkan penyelesaian, menyambungkan ke simulator, menghadapi ralat, mengubah parameter, dan menjalankan semula.

Di hadapan 47 tugas keras lintas disiplin, AI mesti berperilaku seperti jurutera berpengalaman, mencari penyelesaian optimum di dalam "segitiga mustahil" kecekapan tenaga, keselamatan, dan prestasi.

Ini bukan sekadar set ujian, ia lebih seperti latihan awal tentang "evolusi" Agent.

Apabila AI mulai belajar memperbaiki diri melalui umpan balik, era Auto Research di mana "manusia menetapkan tujuan, AI beriterasi tanpa henti 24 jam" mungkin lebih dekat daripada yang kita bayangkan.

AI kini mulai melakukan kerja yang lebih berat

Model besar sebelum ini lebih seperti seorang pelajar cemerlang.

Anda mengajukan soalan, ia “mencari ingatan” daripada data latihan yang besar, kemudian menyusun semula menjadi jawapan yang kelihatan masuk akal.

Dalam mod ini, model besar pada dasarnya sedang bermain “sambung kata”, bukan menyelesaikan masalah nyata.

Namun, kehadiran Frontier-Eng Bench membuat AI melakukan pekerjaan "pengoptimuman kejuruteraan".

Proses berubah menjadi membiarkan AI mengusulkan cadangan terlebih dahulu, kemudian menyambungkan ke simulator untuk menjalankan eksperimen, seterusnya mendapatkan maklum balas dan ralat, memodifikasi parameter dan kod, lalu meneruskan menjalankan semula sehingga prestasi terus meningkat.

Dalam sistem tertutup ini, identiti AI mengalami perubahan kualitatif.

Ingin membuat robot bawah air lebih stabil? AI mesti mulai menyesuaikan pengawal secara automatik.

Ingin meningkatkan kelajuan lengan robot lagi? AI perlu menjalankan simulasi sendiri.

Dalam beberapa segi, AI telah melangkah jauh daripada pemahaman semantik semata-mata dan mulai berfungsi seperti seorang jurutera profesional yang terus mengoptimumkan berdasarkan maklum balas dari persekitaran sebenar.

Penyelidikan Automatik

△

Yang paling menarik tentang Frontier-Eng Bench ialah: ia menguji bukan sama ada AI menjawab dengan betul, tetapi sama ada AI benar-benar mampu menjadi lebih kuat secara berterusan.

Kerana pengoptimuman kejuruteraan yang sebenar, bukanlah soalan pilihan, tiada jawapan standard yang tunggal.

Dengan contoh cas pantas bateri, matlamatnya kedengaran mudah—semakin pantas cas, semakin baik, tetapi kenyataannya tidak semudah itu.

AI mesti secara tepat mencapai titik keseimbangan prestasi di bawah sekatan ketat: suhu tidak boleh melebihi had, voltan tidak boleh melebihi kelajuan, hayat bateri tidak boleh menurun terlalu cepat, dan pengendapan litium mesti dielakkan.

Ini bermakna AI tidak dapat lulus melalui sebarang trik "latihan soalan", ia mesti menunjukkan ketahanan berterusan yang berkembang dalam umpan balik jangka panjang.

Bolehkah AI melakukan pengoptimuman jangka panjang dalam persekitaran sebenar?

Dari hasilnya, GPT5.4 menunjukkan kinerja paling stabil, tetapi AI masih memiliki jalan panjang untuk melampaui Benchmark.

Penyelidikan Automatik

△

Auto Research memasuki era "pengulangan dan pengoptimuman"

Pasukan penyelidik menyebut satu titik yang sangat menarik dalam kertas kerja mereka:

Kecerdasan sejati yang tinggi pada dasarnya bergantung pada gelung umpan balik jangka panjang.

Seperti AlphaGo mampu mengalahkan Lee Sedol kerana setiap keputusannya didasarkan pada simulasi yang sangat mendalam dan umpan balik serta-merta, bukan menghafal pola permainan yang telah ditetapkan.

Ilmu penyelidikan yang sebenar juga sama, makmal terkemuka tidak bergantung pada satu kejutan inspirasi sahaja, tetapi terus-menerus mengemukakan hipotesis, menjalankan eksperimen, memerhati keputusan, mengubah rancangan, dan mencuba semula.

Begitu juga dengan pengoptimuman kejuruteraan, versi pertama biasanya boleh dilakukan oleh siapa sahaja, tetapi yang benar-benar sukar ialah lompatan prestasi 1% terakhir.

Maksud Frontier-Eng Bench ialah: ia pertama kali mula menguji secara sistematik "keupayaan peningkatan berulang AI" dan merumuskan dua hukum evolusi AI yang hampir kejam.

Penyelidikan Automatik

△

Peraturan pertama adalah: semakin ke belakang, semakin sukar untuk meningkatkan.

Kertas ini mendapati bahawa frekuensi dan magnitud peningkatan Agen menunjukkan penurunan kuasa:

Kekerapan peningkatan ∝ 1/jumlah lelaran
Tingkat peningkatan ∝ 1/jumlah peningkatan

Secara ringkas: beberapa putaran pertama naik paling cepat, semakin ke belakang semakin sukar dan semakin kecil.

Ini sangat mirip dengan proses pembangunan sebenar, versi pertama AI boleh dengan cepat memanfaatkan banyak "buah yang mudah dicapai", tetapi semakin ke belakang, ia semakin mendekati batas, dan untuk mendapatkan sedikit peningkatan prestasi lagi, anda perlu berusaha keras.

Adakah lebih menguntungkan untuk membuka beberapa jalan secara selari untuk mencuba dan membuat kesilapan? Jawapannya tersembunyi dalam hukum kedua.

Penyelidikan Automatik

△

Peraturan kedua: Lebar berguna, tetapi kedalaman lebih penting.

Menggunakan beberapa saluran secara serentak boleh mengelakkan kemacetan, tetapi apabila bajet tetap, setiap saluran tambahan yang dibuka akan mengurangkan kedalaman pasaran.

Banyak terobosan kejuruteraan memerlukan akumulasi berterusan dan penyesuaian berulang sebelum berlakunya lompatan struktural, dan bukan sekadar dicapai dengan "mencuba lebih banyak kali".

Ini sebenarnya menunjukkan arah perkembangan agen generasi seterusnya: bukan model yang "memberi jawapan sekali sahaja", tetapi sistem yang boleh berterusan beriterasi dan berevolusi sendiri melalui maklum balas jangka panjang.

Jurutera AI, mungkin benar-benar akan tiba

Makna mendalam sebenar kajian ini ialah ia secara awal menggambarkan satu sistem AI yang mulai mendekati kitaran kejuruteraan sebenar.

Penyelidikan Automatik

△

Bayangkan apabila AI disambungkan kepada perisian industri, persekitaran simulasi, sistem CAD, alat reka bentuk cip, platform pengiraan saintifik...

Perubahan besar dalam modus produktiviti sedang menjelma.

Di dalam laboratorium masa depan, kemungkinan besar akan muncul pembahagian tugas seperti ini:

Penyelidik manusia bertanggungjawab untuk mengusulkan arah dan matlamat.

Sebagai contoh, “kurangkan penggunaan tenaga komponen ini sebanyak 30%”, “tekan lebih rendah penggunaan GPU bagi langkah maju model ini”, “tingkatkan sedikit lagi kestabilan kawalan robot”, “terus hampiri had keaslian litar kuantum” dan sebagainya.

Sementara itu, AI bertanggungjawab untuk “mengikuti jalan secara tekun”, mereka terus-menerus mengoptimumkan berdasarkan sasaran ini.

Contoh: menjalankan simulasi dan eksperimen secara automatik, membaca umpan balik dari verifier dan simulator secara automatik, kemudian terus memodifikasi dan mengoptimumkan, beriterasi tanpa henti 24 jam.

Logik evolusi ini membebaskan AI daripada identiti sebagai "alat bantuan" dan mulai menyelesaikan masalah sistem kompleks seperti pasukan kejuruteraan yang sebenar, tanpa rasa letih.

Namun, masalah yang diungkapkan oleh Frontier-Eng ini juga sangat jelas:

Apabila AI mula belajar “pengoptimuman jangka panjang”, sejauh manakah ia masih berjarak daripada kecerdasan kejuruteraan sejati?

Tajuk kertas: Frontier-Eng: Penilaian Agen Self-Evolving pada Tugasan Kejuruteraan Dunia Nyata dengan Pengoptimuman Generatif

Laman utama projek: https://lab.einsia.ai/frontier-eng/

Arxiv: https://arxiv.org/abs/2604.12290

Repo GitHub: https://github.com/EinsiaLab/Frontier-Engineering

Artikel ini berasal daripada akaun微信公众号 "Quantum Bit", penulis: Yun Zhong