Ang ME News ay nag-ulat na noong Abril 14 (UTC+8), ayon sa pagmamasid ng 1M AI News, kapag ang AI programming agent ay nagpapatakbo ng isang task nang maraming beses, madalas itong magbibigay ng iba’t ibang solusyon, kung saan ilan ay tama at ilan ay mali. Kung maaaring awtomatikong piliin ang pinakamahusay, maaaring lalong mapataas ang pangkabuuang tagumpay. Ang tanong ay paano ito piliin: ang paggamit ng isang ibang model bilang hurado na nagbibigay ng puntos (o LLM-as-a-Judge) ay kasalukuyang pangunahing paraan, ngunit ang antas ng pagmamarka ay masyadong malaki, at madalas itong magbibigay ng parehong puntos sa iba’t ibang solusyon, kaya’t hindi makakapagpasya kung alin ang mas mabuti. Ang Stanford AI Laboratory at ang Berkeley Sky Computing Laboratory, kasama ang NVIDIA, ay nagmungkahi ng LLM-as-a-Verifier upang mapabuti ang proseso ng pagpili. Hindi na lamang pinapansin ang huling puntos na ibinigay ng hurado, kundi binabasa ang probability distribution ng model sa bawat antas ng pagmamarka upang kalkulahin ang isang tuloy-tuloy na reward value. Kasabay nito, inuulit ng hurado ang paghuhusga nang maraming beses at kinukuha ang average upang tanggalin ang random na bias, at hinati ang buong pagsusuri sa tatlong hiwalay na dimensyon (kung natutugunan ang mga pangangailangan ng task, kung tama ang output format, at kung mayroon bang maliit na signal ng error) para sa bawat isa. Sa eksperimento, ginamit ang Gemini 2.5 Flash bilang verifier, na nakamit ang 74.7% na accuracy sa isang pagpapatakbo, samantalang ang tradisyonal na Judge ay may 57.0% lamang; pagkatapos ng 16 ulit, umabot ang Verifier sa 77.4%, habang ang Judge ay 70.2%. Mayroong 26.5% na mga pagkakahambing na nagwakas sa isang draw sa tradisyonal na Judge, samantalang ang Verifier ay may 0% na draw rate sa lahat ng konfigurasyon. Sa praktikal na epekto: sa Terminal-Bench 2, kapag ginawa ng GPT-5.4 ang 5 pagpapatakbo sa isang task at pinili nang random ang isang solusyon, ang tagumpay ay 81.8%, ngunit tumataas ito sa 86.4% pagkatapos gamitin ang Verifier. Sa SWE-Bench Verified, mula sa isang solusyon bawat isa mula sa Claude Opus 4.5, Claude Opus 4.6, at Gemini 3 Flash (kabuuang 3), itinataas ng pagpili ang tagumpay mula sa 76.1% patungo sa 77.8%. Noong ipinahayag ito noong Abril 9, parehong nasa unahan. Ang framework ay nasa open source na. (Pinagmulan: BlockBeats)
Proposado ng Stanford at Berkeley ang LLM-as-a-Verifier, nangunguna sa Terminal-Bench at SWE-Bench
KuCoinFlashI-share
Pinakamataas na balita tungkol sa altcoin noong Abril 14 (UTC+8) ay nagpapakita ng Stanford AI Lab at Berkeley Sky Computing Lab, kasama ang NVIDIA, na nagpropose ng LLM-as-a-Verifier upang mapabuti ang pagpili ng AI solusyon. Ang paraan ay gumagamit ng tuloy-tuloy na reward mula sa mga distribusyon ng rating sa iba’t ibang pagtataya, nakamit ang 77.4% na akurasyon pagkatapos ng 16 pagsubok, mas mahusay kaysa sa tradisyonal na LLM-as-a-Judge na 70.2%. Sa Terminal-Bench 2 at SWE-Bench Verified, ang mga rate ng tagumpay ay umabot sa 86.4% at 77.8%, gawing pinakamahusay na performer hanggang Abril 9. Ang framework ay ngayon ay open-sourced. Ang balita tungkol sa AI + crypto ay patuloy na nagpapakita ng mga pagbubukas sa verification at performance.
Source:Ipakita ang original
Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito.
Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.