Uji Benchmark AI Baru Merancang Optimasi Teknik Tanpa Jawaban Standar

Jika AI dilemparkan ke lokasi proyek tanpa jawaban standar, apakah ia bisa bertahan?

Sejak lama, AI Agent tampak mampu melakukan segalanya, padahal sebagian besar hanya “mencari ingatan” di dalam basis pengetahuan yang sudah diketahui.

Namun dunia teknik yang sebenarnya kejam: stabilitas robot bawah air, batas pelapisan litium pada baterai daya tinggi, pengendalian noise pada sirkuit kuantum... masalah-masalah ini tidak memiliki "nilai sempurna", hanya "optimasi yang semakin mendekati batas".

Baru-baru ini, Frontier-Eng Bench, benchmark agen yang dirilis oleh Navers lab di bawah Einsia AI, secara resmi melepaskan label "ahli soal" pada AI.

Riset Otomatis

Tim peneliti tidak membiarkan AI mengerjakan soal kode lama, sebaliknya, mereka memberinya satu siklus lengkap "rekayasa": mengusulkan solusi, mengintegrasikan simulator, menghadapi kesalahan, menyesuaikan parameter, dan menjalankan ulang.

Di hadapan 47 tugas keras lintas disiplin, AI harus berkinerja seperti insinyur berpengalaman, mencari solusi optimal di dalam "segitiga mustahil" konsumsi daya, keamanan, dan kinerja.

Ini bukan hanya sekadar kumpulan uji coba, tetapi lebih seperti simulasi evolusi Agent.

Ketika AI mulai belajar memperbaiki dirinya sendiri melalui umpan balik, era Auto Research di mana "manusia menetapkan tujuan, AI beriterasi tanpa henti 24 jam" mungkin lebih dekat dari yang kita bayangkan.

AI mulai melakukan pekerjaan berat

Model besar sebelumnya lebih seperti seorang juara kelas.

Anda mengajukan pertanyaan, ia "mencari ingatan" dari data pelatihan yang sangat besar, lalu menyusun jawaban yang tampak masuk akal.

Dalam mode ini, model besar pada dasarnya sedang bermain "lanjutan teks", bukan menyelesaikan masalah nyata.

Namun, munculnya Frontier-Eng Bench membuat AI melakukan pekerjaan "optimasi teknik".

Proses berubah menjadi meminta AI untuk terlebih dahulu mengusulkan solusi, lalu menghubungkan ke simulator untuk menjalankan eksperimen, selanjutnya mendapatkan umpan balik dan kesalahan, memodifikasi parameter dan kode, lalu menjalankan ulang terus-menerus hingga kinerja terus meningkat.

Dalam sistem tertutup ini, identitas AI mengalami perubahan kualitatif.

Ingin membuat robot bawah air lebih stabil? AI harus mulai menyesuaikan pengendali secara otomatis.

Ingin meningkatkan kecepatan lengan robot lagi? AI harus menjalankan simulasi sendiri.

Dalam beberapa hal, AI telah melampaui pemahaman semantik murni dan mulai berperilaku seperti insinyur profesional yang terus mengoptimalkan berdasarkan umpan balik dari lingkungan nyata.

Riset Otomatis

△

Yang paling menarik dari Frontier-Eng Bench adalah: ia mengukur bukan apakah AI menjawab dengan benar, tetapi apakah AI benar-benar bisa terus menjadi lebih kuat.

Karena optimasi teknis yang sebenarnya bukanlah soal pilihan ganda, tidak ada satu jawaban standar yang pasti.

Misalnya dengan pengisian cepat baterai, tujuannya terdengar sederhana—semakin cepat diisi, semakin baik, tetapi kenyataannya tidak semudah itu.

AI harus secara tepat menemukan keseimbangan kinerja di bawah batasan ketat: suhu tidak boleh meledak, tegangan tidak boleh melebihi batas, masa pakai baterai tidak boleh menurun terlalu cepat, dan harus menghindari presipitasi litium.

Ini berarti AI tidak dapat lulus dengan trik-trik "latihan soal" apa pun; ia harus menunjukkan ketahanan berkelanjutan dalam umpan balik jangka panjang.

Bisakah AI melakukan optimasi jangka panjang di lingkungan nyata?

Dari hasilnya, GPT5.4 secara keseluruhan menunjukkan kinerja paling stabil, tetapi AI masih memiliki jalan panjang untuk benar-benar mengalahkan Benchmark.

Riset Otomatis

△

Auto Research memasuki era "iterasi dan optimasi"

Tim peneliti menyebutkan satu poin yang sangat menarik dalam makalah mereka:

Kecerdasan tingkat tinggi yang sejati pada dasarnya bergantung pada loop umpan balik jangka panjang.

Seperti halnya AlphaGo mampu mengalahkan Lee Sedol karena setiap keputusannya didasarkan pada simulasi masif dan umpan balik instan, bukan menghafal pola permainan yang sudah ada.

Penelitian ilmiah yang sejati juga demikian, laboratorium top tidak bergantung pada satu kali ledakan inspirasi, tetapi terus-menerus merumuskan hipotesis, menjalankan eksperimen, melihat hasil, memperbaiki rencana, dan mencoba lagi.

Hal yang sama berlaku untuk optimasi teknis, versi pertama seringkali bisa dikerjakan oleh siapa saja, yang benar-benar sulit justru adalah peningkatan kinerja 1% terakhir.

Arti Frontier-Eng Bench adalah: ini pertama kalinya secara sistematis menguji "kemampuan iteratif dan optimasi AI", serta merumuskan dua hukum evolusi AI yang hampir kejam.

Riset Otomatis

△

Aturan pertama adalah: semakin ke belakang, semakin sulit untuk meningkatkan.

Penelitian ini menemukan bahwa frekuensi dan tingkat perbaikan agen menunjukkan penurunan pangkat:

Frekuensi perbaikan ∝ 1/jumlah iterasi
Tingkat perbaikan ∝ 1/jumlah perbaikan

Singkatnya: putaran awal naik paling cepat, semakin ke belakang semakin sulit dan semakin kecil.

Ini sangat mirip dengan proses pengembangan nyata, versi pertama AI dapat dengan cepat memanfaatkan banyak "buah yang mudah diraih", tetapi semakin ke belakang, semakin mendekati batas, dan untuk mendapatkan sedikit peningkatan kinerja pun harus dilakukan dengan usaha besar.

Apakah lebih menguntungkan untuk membuka beberapa jalur secara paralel untuk mencoba dan salah? Jawabannya tersembunyi dalam hukum kedua.

Riset Otomatis

△

Aturan kedua: Lebar berguna, tetapi kedalaman lebih tak tergantikan.

Menjalankan beberapa jalur secara paralel dapat menghindari kemacetan, tetapi dengan anggaran tetap, setiap penambahan jalur akan mengurangi kedalaman pasar.

Banyak terobosan teknis memerlukan akumulasi berkelanjutan dan perbaikan terus-menerus untuk mencapai lompatan struktural, bukan hanya dengan mencoba beberapa kali.

Ini sebenarnya menunjukkan arah pengembangan agen generasi berikutnya: bukan model yang "memberikan jawaban sekali saja", melainkan sistem yang dapat terus beriterasi dan berevolusi sendiri melalui umpan balik jangka panjang.

Insinyur AI, mungkin benar-benar akan datang

Makna mendalam sebenarnya dari penelitian ini adalah bahwa ia secara awal menggambarkan sistem AI yang mulai mendekati siklus teknik nyata.

Riset Otomatis

△

Bayangkan ketika AI terhubung dengan perangkat lunak industri, lingkungan simulasi, sistem CAD, alat desain chip, platform komputasi ilmiah...

Sebuah perubahan besar dalam modus produktivitas segera terjadi.

Di laboratorium masa depan, kemungkinan besar akan muncul pembagian tugas seperti ini:

Peneliti manusia bertanggung jawab untuk menentukan arah dan tujuan.

Misalnya “mengurangi konsumsi energi komponen ini sebesar 30%”, “menurunkan penggunaan GPU pada forward model ini lebih rendah lagi”, “meningkatkan sedikit stabilitas kontrol robot”, “mendekatkan fidelitas sirkuit kuantum terus mendekati batasnya”, dll.

Sementara AI bertanggung jawab atas “menggali jalur”, mereka terus mengoptimalkan berdasarkan tujuan-tujuan ini.

Misalnya menjalankan simulasi dan eksperimen secara otomatis, membaca umpan balik dari verifier dan simulator secara otomatis, lalu terus memodifikasi dan mengoptimalkan, beriterasi tanpa henti selama 24 jam.

Logika evolusi ini membuat AI lepas dari identitasnya sebagai "alat bantu" dan mulai menyelesaikan masalah sistem kompleks seperti tim teknik yang sebenarnya, tanpa pernah lelah.

Namun, masalah yang diungkapkan oleh Frontier-Eng ini juga sangat langsung:

Ketika AI mulai belajar "optimisasi jangka panjang", seberapa jauhkah ia dari kecerdasan rekayasa yang sejati?

Judul makalah: Frontier-Eng: Benchmarking Agen Self-Evolving pada Tugas Rekayasa Dunia Nyata dengan Optimasi Generatif

Halaman proyek: https://lab.einsia.ai/frontier-eng/

Arxiv: https://arxiv.org/abs/2604.12290

Repo GitHub: https://github.com/EinsiaLab/Frontier-Engineering

Artikel ini berasal dari akun WeChat "Quantum Bit", penulis: Yunzhong