Yeni AI Başarımları, Standart Cevapsız Mühendislik Optimizasyonunu Test Ediyor

Eğer bir yapay zekâ, standart bir cevabı olmayan bir mühendislik sahasına atılırsa, orada hayatta kalabilir mi?

Uzun süredir AI Agent'lar her şeyi biliyor gibi görünüyor, ancak çoğu zaman bilinen bir bilgi bankasında “hatırlama” yapıyor.

Ancak gerçek mühendislik dünyası serttir: altınsu robotlarının stabilitesi, lityum iyon pillerin lityum析ik sınırı, kuantum devrelerinin gürültü kontrolü... Bu sorunlar için "mükemmel puan" yoktur, sadece "sınıra daha yakın optimizasyon" vardır.

Son zamanlarda Einsia AI'nın alt birimi Navers Lab, Agent Benchmark—Frontier-Eng Bench'i yayınladı ve AI'nın "soru çözen" etiketini kaldırdı.

Otomatik Araştırma

Araştırma ekibi, AI'ya eski kod sorularını çözdürmek yerine, tam bir "mühendislik döngüsü" verdi: çözüm önerisi sunmak, simülatöre entegre etmek, hataları yakalamak, parametreleri değiştirmek ve yeniden çalıştırmak.

47 çok disiplinli zorlu görev karşısında, AI enerji tüketimi, güvenlik ve performansın "imkânsız üçgeni" içinde en iyi çözümü bulmak için deneyimli bir mühendis gibi davranmalıdır.

Bu sadece bir test seti değil, Agent'in "evrimi" üzerine bir öncü gösteri.

AI, geri bildirimde kendini düzeltmeyi öğrenmeye başladığında, "insanlar hedef belirler, AI ise 24 saat boyunca sürekli olarak yineleme yapar" otomatik araştırma dönemi, hayal ettiğimizden daha yakındır.

AI artık zor işlere girişiyor

Geçmişteki büyük modeller, daha çok bir süper öğrenciler gibi davranıyordu.

Soruyu atıyorsunuz, büyük veri setlerinden "hafızayı arıyor" ve görünüşte mantıklı bir cevap oluşturuyor.

Bu modda, büyük modeller aslında gerçek dünya sorunlarını çözmez, sadece “metin zinciri” oynar.

Ancak Frontier-Eng Bench'in ortaya çıkışı, AI'nın "mühendislik optimizasyonu" yapmasına neden oldu.

İşlem, AI'nin önce bir çözüm önermesine, ardından simülatöre bağlanarak deneyleri çalıştırmaya, geri bildirim ve hataları alıp, parametreleri ve kodu değiştirmeye ve performans artana kadar tekrar çalıştırmaya dönüştü.

Bu kapalı döngü sisteminde, AI'nın kimliği kalitatif bir değişime uğradı.

Altınsız robotları daha kararlı hale getirmek istiyorsanız, AI'nın kontrolcüyü otomatik olarak ayarlamaya başlaması gerekir.

Robot kol hızını biraz daha artırmak istiyor musunuz? AI'nın kendi kendine simülasyon yapması gerekiyor.

Bir ölçüde, yapay zekâlar sadece anlam anlayışından öteye geçerek, gerçek ortam geri bildirimlerinde sürekli iyileştirme yapıyorlar.

Otomatik Araştırma

△

Frontier-Eng Bench'in en ilginç yanı, AI'nın "doğru cevap verip vermediğini" değil, AI'nın sürekli olarak güçlenip gücelenemeyeceğini ölçmesidir.

Gerçek mühendislik optimizasyonları asla çoktan seçmeli sorular değildir ve tek bir standart cevap yoktur.

Pil hızlı şarjına örnek verildiğinde, hedef basit gibi görünüyor—ne kadar hızlı şarj edilebilirse o kadar iyi, ancak gerçeklik o kadar kolay değil.

AI, sıcaklık aşırı yüklenmemeli, voltaj aşırı hızlanmamalı, pil ömrü çok hızlı azalmamalı ve lityum析liği önlenmelidir; bu sıkı sınırlamalar altında performans dengesini tam olarak sağlamalıdır.

Bu, AI'nın herhangi bir taktiksel “soru çözmek” yöntemiyle geçemeyeceği, uzun vadeli geri bildirimde sürekli gelişen bir dayanıklılık göstermesi gerektiği anlamına gelir.

AI gerçek ortamda uzun vadeli optimizasyon yapabilir mi?

Sonuçlara göre, GPT5.4 genel olarak en istikrarlı performansı gösterdi, ancak Benchmark'u "aşmak" için AI'ların hâlâ uzun bir yol kat etmesi gerekiyor.

Otomatik Araştırma

△

Auto Research, "yineleme ve iyileştirme" dönemine girdi

Araştırma ekibi makalesinde çok ilginç bir noktaya değindi:

Gerçekten ileri düzey akıl, temel olarak uzun vadeli geri bildirim döngülerine dayanır.

AlphaGo'nun Lee Sedol'u yenmesinin nedeni, önceden belirlenmiş bir oyun planını ezberlemek değil, her hamlesinin ardında sonsuz sayıda simülasyon ve anlık geri bildirim bulunmasıdır.

Gerçek bilimsel araştırmada da aynı şekilde, üst düzey laboratuvarlar tek bir ilham patlamasına değil, sürekli varsayımlar ortaya koyarak, deneyler gerçekleştirerek, sonuçları gözlemleyerek, planları değiştirerek ve tekrar deneyerek bağlıdır.

Mühendislik optimizasyonu da aynı şekilde, ilk sürüm genellikle herkes tarafından yapılabilir; gerçek zorluk, son %1'in performans atlamasındadır.

Frontier-Eng Bench'in anlamı şudur: İlk kez AI'nın "yinelemeli iyileştirme yeteneğini" sistematik olarak test etmiş ve neredeyse korkutucu iki AI evrim kanunu ortaya koymuştur.

Otomatik Araştırma

△

İlk kural şudur: İlerledikçe yükselmek daha zorlaşır.

Bu makale, Agent'in iyileştirme sıklığının ve miktarının kuvvet yasasıyla azaldığını buldu:

İyileştirme sıklığı ∝ 1/iterasyon sayısı
İyileştirme miktarı ∝ 1/İyileştirme sayısı

Basitçe söylemek gerekirse: İlk birkaç tur en hızlı yükseldi, ardından giderek daha zor ve daha küçük hale geldi.

Bu, gerçek bir geliştirme sürecine çok benziyor; ilk versiyon AI, hızlıca birçok "düşük asma meyvesini" ortadan kaldırabilir, ancak ilerledikçe daha çok sınıra yaklaşılır ve performansı biraz daha iyileştirmek için sert çabalar gerekir.

Birden fazla yolu paralel olarak denemek daha karlı mı? Cevap ikinci kuralda gizli.

Otomatik Araştırma

△

İkinci kural: Genişlik önemlidir, ancak derinlik daha da hayati öneme sahiptir.

Paralel olarak daha fazla hat çalıştırmak tıkanmaları önler, ancak bütçe sabitse her eklenen bir zincir derinliği azaltır.

Çok sayıda mühendislik başarı, yapısal bir zıplama gerçekleşmeden önce sürekli birikim ve sürekli düzeltmelerle elde edilir; sadece "birkaç kez denemek"le sağlanamaz.

Bu, bir sonraki nesil Agent'in gelişim yönünü şu şekilde gösteriyor: "tek seferde cevap veren" modeller değil, uzun vadeli geri bildirimlerde sürekli olarak yineleyen ve kendini geliştiren sistemler.

Yapay zeka mühendisi gerçekten geliyor

Bu araştırma, gerçek mühendislik döngüsüne yaklaşmaya başlayan bir AI sisteminin ilk çizimini ortaya koymakta gerçek anlamda derin bir etkiye sahiptir.

Otomatik Araştırma

△

Yapay zekânın endüstriyel yazılımlara, simülasyon ortamlarına, CAD sistemlerine, çip tasarımı araçlarına, bilimsel hesaplama platformlarına entegre edildiğini hayal edin...

Bir verimlilik modası büyük bir değişim yaşamaktadır.

Geleceğin laboratuvarlarında, böyle bir iş bölümü ortaya çıkabilir:

İnsan araştırmacılar, yön ve hedefleri belirlemekten sorumludur.

Örneğin “bu bileşenin enerji tüketimini %30 azaltmak”, “bu modelin ileri yönlü GPU kullanımını daha da düşürmek”, “robot kontrolünün kararlılığını biraz daha artırmak”, “kuantum devresinin sadakatini sınırına daha da yaklaştırmak” vb.

Ancak AI, "sıkı yol"u sorumlu tutar ve bu hedefler etrafında sürekli olarak iyileştirme yapar.

Örneğin, otomatik simülasyon ve deney yürütme, verifier ve simulator'dan geri bildirimleri otomatik okuma ve bunları sürekli olarak değiştirip optimize etme, 24 saat boyunca kesintisiz iterasyon.

Bu evrimsel mantık, AI'nın "yardımcı bir araç" kimliğini bırakarak, yorulmadan karmaşık sistem sorunlarını çözme konusunda gerçek bir mühendislik ekibi gibi davranmaya başlamasını sağladı.

Frontier-Eng bu performans testinin ortaya koyduğu sorun da aslında oldukça doğrudur:

Yapay zekâ "uzun vadeli optimizasyon" öğrenmeye başladığında, gerçek mühendislik akılına ne kadar uzak?

Tez Başlığı: Frontier-Eng: Üretken Optimizasyon ile Gerçek Dünya Mühendislik Görevlerinde Kendini Geliştiren Ajanların Başarımlanması

Proje Ana Sayfası: https://lab.einsia.ai/frontier-eng/

Arxiv: https://arxiv.org/abs/2604.12290

GitHub deposu: https://github.com/EinsiaLab/Frontier-Engineering

Bu yazı, WeChat hesabının "Quantum Bit" adlı grubundan gelmiştir, yazar: Yun Zhong