Bagong mga Pagsusulit sa AI Benchmark na Nagtatanggol ng Pagpapabuti ng Inhinyeriya nang Walang Standard na Sagot

icon MarsBit
I-share
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconSummary

expand icon
Ang Navers Lab ng Einsia AI ay naglunsad ng Frontier-Eng Bench, isang bagong benchmark na nagtatala sa mga AI agent sa mga gawain sa pag-optimize ng inhinyeriya na walang standard na sagot. Ang 47 na gawain ay nangangailangan ng iteratibong pag-adjust at pag-simula upang mag-optimize sa ilalim ng mga kumplikadong limitasyon. Ang benchmark ay nagpapakita ng paglipat patungo sa pagpapakita ng mga proseso ng inhinyeriya ng tao ng AI. Ang mga trader na nag-aanalisa sa performance ng AI ay maaaring isaalang-alang ang risk-to-reward ratio sa pag-evaluate ng mga resulta. Ang mga antas ng suporta at resistensya sa pag-unlad ng AI ay naging mas malinaw habang umuunlad ang mga modelo.

Kung ilalabas mo ang AI sa isang proyektong walang tamang sagot, makakabuhay pa ba ito?

Matagal nang tila kayang lahat ng AI Agent, ngunit karamihan sa kanila ay nagpapalit-lit lang sa alam na database.

Ngunit ang totoong mundo ng inhenyeriya ay malupit: ang katatagan ng mga robot sa ilalim ng tubig, ang boundary ng lithium plating sa mga battery, ang kontrol ng ingay sa quantum circuits... walang "perpekto" sa mga problema na ito, lamang ang "mas malapit sa optimal na limitasyon".

Kamakalawian, ang Agent Benchmark na Frontier-Eng Bench na inilabas ng Navers lab sa ilalim ng Einsia AI, ay opisyal na tinanggal ang label na “problem solver” sa AI.

Auto Research

Hindi pinayagan ng research team ang AI na mag-solve ng mga lumang coding problems; sa halip, ibinigay sa ito ang isang buong “engineering loop”: pagbuo ng solusyon, pag-connect sa simulator, pagharap sa mga error, pagbabago ng mga parameter, at pagrerun ulit.

Sa harap ng 47 mga hamon na multidisiplinario, kailangan ng AI na magtrabaho tulad ng isang karanasan na inhinyero, habang hinahanap ang pinakamabuting solusyon sa “imposibleng tatsulok” ng pagkawala ng enerhiya, kaligtasan, at performance.

Hindi ito simpleng isang test set, kundi mas katulad ng isang pagpapahanda para sa “evolution” ng Agent.

Kapag nagsimula na ang AI na matututo na mag-ayos sa sarili sa pamamagitan ng feedback, ang panahon ng Auto Research kung saan “ang tao ang nagtatakda ng layunin, at ang AI ay nag-i-iterate nang walang paghinto sa 24 oras” ay maaaring mas malapit kaysa sa inyong inisip.

Ang AI ay nagsisimula na magawa ang mga “tunay na gawain”

Ang mga nakaraang malalaking modelo ay mas tulad ng isang super scholar.

Ikaw ang nagtatanong, at ito ay “nagbabasa sa memorya” mula sa malaking dami ng training data, tapos pinagsasama-sama ang isang sagot na tila makatotohanan.

Sa ilalim ng mode na ito, ang malalaking modelo ay naglalaro ng “word chain” sa halip na lutasin ang mga tunay na problema.

Ngunit ang pagkakaroon ng Frontier-Eng Bench ay nagbigay sa AI ng gawain na “engineer optimization.”

Ang proseso ay nagbago upang ang AI ay muna ang magpropose ng solusyon, sumali sa simulator para sa pagpapatakbo ng eksperimento, kumuha ng feedback at mga error, baguhin ang mga parameter at code, at ulitin ang pagpapatakbo hanggang sa patuloy na umabot sa mas mataas na performance.

Sa ganitong sariling loop na sistema, nagkaroon ng kwalitatibong pagbabago ang pagkakakilanlan ng AI.

Gusto mo bang gawing mas stable ang underwater robot? Dapat magsimula na ang AI na awtomatikong i-adjust ang controller.

Gusto mo pa bang pataasin ang bilis ng robotic arm? Dapat mag-run ng simulation ang AI.

Sa ilang paraan, ang mga AI ay nagsisilbing higit pa sa simpleng pag-unawa sa kahulugan, at nagsisimula nang magtrabaho tulad ng isang propesyonal na inhinyero, na nagpapabuti nang patuloy batay sa mga real-time na feedback.

Auto Research

Ang pinakamagandang bahagi ng Frontier-Eng Bench ay ang pagsubok kung paano patuloy na lumalakas ang AI, hindi kung tama o mali ang sagot nito.

Dahil sa tunay na pag-optimize ng inhinyeriya, hindi ito isang pagsagot sa multiple choice, at walang iisang tamang sagot.

Halimbawa na ang mabilis na pag-charge ng battery, ang layunin ay tila simpleng—mas mabilis ang pag-charge, mas maganda; ngunit ang katotohanan ay hindi ganito kasing-aliw.

Dapat ng magkaroon ng AI ng tumpak na pagkabalanse sa performance sa ilalim ng mahigpit na pagtatakda: hindi dapat mabawasan ang temperatura, hindi dapat labis ang boltahe, hindi dapat mabilis ang pagbaba ng buhay ng battery, at dapat iwasan ang pagkakaroon ng lithium plating.

Ibig sabihin nito na hindi kayang pumasa ang AI sa pamamagitan ng anumang nakakapagpapalito na “pagsasagot ng mga tanong”; kailangan nito na ipakita ang patuloy na pag-unlad at tiyaga sa mahabang panahon ng feedback.

Kaya ba ng AI na mag-optimize sa matagalang panahon sa tunay na kaligiran?

Batay sa mga resulta, ang GPT5.4 ay ang pinakamatatag sa pangkabuuang pagganap, ngunit malayo pa ang mga AI mula sa pagpapalabas ng Benchmark.

Auto Research

Ang Auto Research ay pumasok sa "iterative optimization" era

Binanggit ng panel ng mga mananaliksik ang isang napakagandang punto sa papel:

Ang totoong mataas na intelihensya ay batay sa mahabang pagsasalaysay ng feedback loop.

Tulad ng kung paano nakalaban si AlphaGo kay Lee Sedol, dahil sa malalim na libu-libong simulasyon at agad na feedback sa bawat desisyon nito, hindi dahil sa pagmumuni-muni sa mga nakaraang mga hakbang ng chess.

Ang totoong siyentipikong pananaliksik ay pareho: ang mga top laboratoryo ay hindi nakasalalay sa isang pagkakataon ng pagkakaroon ng inspirasyon, kundi patuloy na nagtatatag ng hipotesis, nagpapatakbo ng mga eksperimento, sinusuri ang mga resulta, binabago ang mga plano, at patuloy na sinusubukan.

Kasalungat din sa pag-optimize ng inhinyeriya, ang unang bersyon ay karaniwang gawin ng sinuman, ngunit ang totoong hirap ay ang huling 1% na pagtaas sa performance.

Ang kahalagahan ng Frontier-Eng Bench ay: ito ang unang pagkakataon na sinusubok nang sistematiko ang "kapasidad sa iteratibong pagpapabuti" ng AI, at natuklasan ang dalawang halos krimen na batayan ng pag-unlad ng AI.

Auto Research

Ang unang batas ay: mas mahirap ang pagpapabuti habang lumalayo ka.

Nakakita ang papel na ang kalikasan at laki ng pagpapabuti ng Agent ay nagpapakita ng pagbaba sa kapangyarihan:

  • Pagsusuri ng frequency ∝ 1/number of iterations
  • Laki ng pagpapabuti ∝ 1/bilang ng pagpapabuti

Sa madaling salita: ang mga unang ilang round ang pinakamabilis na tumataas, habang ang mga susunod ay lalong mahirap at lalong maliit.

Parang totoo ang proseso ng pagbuo, ang unang bersyon ng AI ay mabilis na makakalikha ng maraming “mababang prutas,” ngunit habang lumalayo, mas malapit sa hangganan; upang makakuha ng kaunting pagpapabuti pa, kailangan ng malakas na pagsisikap.

Kaya ba mas mabuting magbukas ng maraming paralel na daan para subukan at mali? Ang sagot ay nakatago sa pangalawang batas.

Auto Research

Ikalawang batayan: Ang lapad ay may kahalagahan, ngunit ang depth ay mas mahalaga.

Ang pagpapatakbo ng maraming linya nang sabay-sabay ay maaaring maiwasan ang pagkabigat, ngunit kapag fixed ang budget, bawat dagdag na chain ay magpapababa ng depth.

Kailangan ng patuloy na pagkumpuni at pagkolekta upang makamit ang mga malalaking pag-angat sa paggawa, at hindi lamang sa pagsubok nang maraming beses.

Nagpapakita ito sa atin ng direksyon para sa susunod na henerasyon ng Agent: hindi ang mga modelo na “nagbibigay ng sagot sa isang pagkakataon,” kundi ang mga sistema na makakapag-itera at makakapag-ebolusyon nang patuloy sa mahabang pagtugon.

Ang mga inhinyero ng AI, baka naman ay dumating na

Ang tunay na malalim na kahulugan ng pag-aaral na ito ay ang pagkakalikha ng isang AI system na unang naglalarawan ng isang siklo ng inhenyeriya na nagtatagpo sa katotohanan.

Auto Research

Isipin mo ang pagkakaroon ng AI na nakakonekta sa industriyal na software, simulation environment, CAD system, mga kasangkapan sa pagdisenyo ng chip, mga platform sa agham na kalkulasyon...

Isang malaking pagbabago sa productivity ay darating na.

Sa hinaharap na laboratorio, malamang ay magkakaroon ng ganitong pagkakahati ng mga gawain:

Ang mga human researcher ang responsable sa pagtukoy ng direksyon at layunin.

Halimbawa, “bawasan ang pagkakagamit ng enerhiya ng bahaging ito ng 30%,” “pababain ang paggamit ng GPU sa forward pass ng modelo na ito,” “pataasin ang katatagan ng kontrol ng robot,” “palapitin pa ang fidelity ng quantum circuit sa limitasyon,” atbp.

Ang AI naman ang responsable sa “pagsisikap sa path,” at patuloy na pinapabuti ang mga ito ayon sa mga layunin.

Halimbawa, awtomatikong pagsasagawa ng simulasyon at eksperimento, awtomatikong pagbabasa ng feedback mula sa verifier at simulator, at patuloy na pagpapabuti at pagpapabuti nang 24 oras araw-araw.

Ang logika na ito sa pag-unlad ay nagpalaya sa AI mula sa pagiging “tulong na kasangkapan” at nagsimula nang umasal tulad ng isang tunay na inhinyerong tim na naglulutas ng mga kumplikadong sistemang problema, at walang pagod.

Ang problema na inilahad ng Frontier-Eng na benchmark ay lubos na direkta:

Gaano kalayo ang AI kapag nagsimula na itong matutunan ang “long-term optimization” mula sa tunay na engineering intelligence?

Pamagat ng papel: Frontier-Eng: Pagbabantay sa Mga Sariling Nagpapalalim na mga Agente sa Mga Tunay na Inhenyerong Gawaing may Genetikong Optimize

Pahina ng proyekto: https://lab.einsia.ai/frontier-eng/

Arxiv: https://arxiv.org/abs/2604.12290

GitHub repo: https://github.com/EinsiaLab/Frontier-Engineering

Ang artikulong ito ay galing sa WeChat public account na “Quantum Bit”, may-akda: Yun Zhong

Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.