Ayon sa dating researcher ng DeepMind, mali ang paghuhusga ng industriya ng AI sa pangunahing bottleneck

Ang totoong bottleneck sa pagtatrain ng AI ay hindi sa computing power, data, o enerhiya, kundi sa sistema ng pagtataya.

May-akda ng artikulo, pinagkunan: Xinzhijyuan

Gaano kalalim ang pagtratrabaho sa AI?

Ito ang tanong na tinatanong ng buong tech industry noong 2026.

GPT-5.5, Claude Opus 4.7, Gemini 3, Grok 4—patuloy pa ring nagagastos ng bawat pangunahing laboratorio para sa pag-train sa susunod na henerasyon.

Ngunit tumataas ang bilang ng mga tao na nagtatanong: Kailan matatapos ang daan na ito?

May sariling sagot bawat siklo—

Sa likod ng bawat sagot, mayroong isang grupo ng mga investor, isang grupo ng mga inhinyero, at isang kumpanya na may halaga ng trilyon.

Ngunit noong Mayo 17, 2026, isang batang researcher na si Lun Wang—noong araw niyang umalis sa Google DeepMind—ay nag-post ng isang 4,000-salitang artikulo sa kanyang personal na blog.

Sinabi niya: Mali ang direksyon ng lahat.

Ang totoong bottleneck ay hindi ang computing power, hindi ang data, hindi ang enerhiya, hindi ang arkitektura.

Ang tunay na hadlang ay ang pagtataya (Evaluation).

Sa parehong araw, sa kanyang pahayag ng pag-alis sa X, walang paghihinga, walang gosip, lamang isang pangungusap—

Sa pagtatapos ng paglalakbay na ito, isinulat ko ang paksa na palaging iniisip ko: ang pagtataya.

At noon, ang mga headline sa teknolohiya ay patuloy na nag-uusap tungkol sa iba — ang multimodal reasoning ng GPT-5.5, ang 1M context ng Claude Opus4.7, ang agent engineering ng Gemini 3, at kung ang synthetic data ay nagsisimula nang makaharap sa pader.

Ang buong atensyon ng industriya ng AI, 90% ay nakatuon sa pagtuturo.

Walang nag-uusap sa unang pahina tungkol sa pagtataya.

At sinabi ng researcher na bago lang lumabas sa isa sa mga pinakamalakas na AI lab sa mundo, ang totoong bottleneck ay nasa ibang 10%.

Ano ang pagtataya

Upang maunawaan ang blog na ito, kailangan muna mong gugulin ang isang minuto upang maunawaan kung ano ang ibig sabihin ng pag-evaluate sa mundo ng AI.

Pagsusuri (Evaluation, kilala sa industriya bilang Eval) — isang pangungusap: Magbigay ng pagsusulit sa isang AI model upang makita kung paano ito nagawa.

Ngunit ang pagtataya ng AI noong 2026 ay higit pa sa paggawa ng isang pagsusulit lamang. Ito ay may kahit anong tatlong antas:

Unang antas: Capability benchmark (benchmark test).

Ito ang UPCAT ng AI.

–GPQA: Mga tanong sa pag-iisip na agham sa antas ng doktor

–SWE-bench: Mga gawain sa software engineering sa tunay na mundo

–ARC-AGI: Abstrak na pag-iisip at pagpapalawak

–Huling Pagsusulit ng Kalikasan: Literally—Humanity's Last Exam

Sa bawat pagpapakilala ng bagong modelo ng malalaking kumpanya, ang PPT ay nagpapakita ng ilang porsyento ang pagtaas kumpara sa nakaraang bersyon at mga kalaban sa mga benchmark na ito.

Ang mga numero na ito ay ang GDP ng industriya ng AI.

Pangalawang antas: Pagtataya sa Kaligtasan (SafetyEval). Hindi sapat na marunong ang AI mag-sagot, kailangan rin itong mag-sagot nang ligtas.

May nagkukunwari ba?
Hindi ito tuturuan ang mga user kung paano gumawa ng bomba.
Will it overstep and take user data?

Ikatlong antas: Red teaming.

Isang grupo na espesyalisado sa paglalaro ng masama, nagpapagod upang gawing sabihin ng modelo ang mga bagay na hindi dapat ito sabihin at gawin ang mga bagay na hindi dapat ito gawin, at pagkatapos ay ipapasa ang mga butas sa team ng pagtatrabaho.

Ang mga tatlong antas na ito ay bumubuo sa sistema ng pagsusuri ng kalidad ng AI Laboratory para sa 2026. Kada paglalabas ng bagong modelo, kailangang tapusin ang lahat ng tatlong hakbang.

Mukhang kompletong kompletong, di ba?

Lun Wang ay nagbigay ng isang pagpapasya sa blog—

Ang karamihan sa mga benchmark, pagtataya ng kaligtasan, at mga protokolo ng red team ay nagtataglay ng isang aksiyoma: ang susunod na modelo ay simpleng isang pinauswag na bersyon ng kasalukuyang modelo.

Kung ito ay ibang bagay, ang buong infrastruktura ng pagtataya ay magkakaroon ng tahimik na pagbagsak.

Ito ang unang bato sa artikulo.

Ito ay sumabog sa malaking kulang ng buong industriya ng AI.

Emergence and epiphany: Ina-evaluate na binagsak ng dalawang beses

Hindi nagmamaliw si Lun Wang. Ipinakita niya sa blog ang dalawang halimbawa mula sa kasaysayan ng AI—ang pagtataya ay naabot na ng dalawang beses, ngunit hindi napapansin ng karamihan sa mga propesyonal.

Unang pagkakataon: pagkakaroon ng kakayahan.

Noong 2022, ipinakilala ni Jason Wei at ang kanyang mga co-author ang isang papel na nagdulot ng malaking epekto sa hinaharap ng AI—nabigla sila na ang mga modelo ay biglang natututo ng mga bagong kakayahan sa isang tiyak na sukat.

Halimbawa: Kung ikaw ay nagtatrabaho sa isang modelo na may 7 bilyong parameter, hindi ito makakagawa ng few-shot learning.

Sinusubaybayan mo ang isang model na may 70 bilyong parameter, at biglang ito ay naging few-shot.

Kaparehong paraan ng pagtuturo, parehong data, tanging mas malaki ang sukat—ang kakayahan ay mula sa 0 hanggang 1, hindi mula sa 0.3 hanggang 0.7.

Ang CoT (chain-of-thought reasoning) at pagsubaybay sa mga utos, galing sa ganito.

Ano ang kahulugan nito sa pagtataya?

Nangangahulugan ito—bago makarating sa kritikal na punto ang sukat, walang benchmark ang nakikita na ang kakayahang ito ay darating.

Bumaba ka sa GPQA, ang marka ay mananatili sa kung ano ang dapat.

Matatapos mo ang iyong pagtrato sa susunod na antas, biglang tumataas ang iyong marka.

Ikalawang pagkakataon: Grokking (顿悟).

Noong 2022, ipinakita ng team ni Alethea Power ng OpenAI isang phenomenon na hindi karaniwan—

Pagkatapos ay sa 1,000,000 na hakbang—biglang tumabas ang accuracy ng test set sa 99%.

Ito ay tinatawag na Grokking—ang network ay nagkatutong mag-generalize matapos magmemorize ng training set nang matagal.

Ang pagkakaiba nito sa emergence: ang emergence ay nangyayari sa dimensyon ng sukat (mas maraming parameter, mas biglaan); ang grokking naman ay nangyayari sa dimensyon ng training time (mas mahabang training, mas biglaan).

Ngunit para sa pagtataya, dalawang bagay ay nagsasabi ng parehong bagay:

Ang iyong pagsusulit, hindi mo maipapredict kailan darating ang susunod na malaking tanong.

Pagkatapos ay ginawa ni Lun Wang ang pinakamatalinong bagay sa artikulo—

Siya ang aktibong ipinakilala ang pananaw ng kalaban.

Noong 2023, si Rylan Schaeffer ng Stanford at ang kanyang mga kasamahan ay naglabas ng isang papel sa NeurIPS na may pamagat na napakalakas—“Are the Emergent Abilities of Large Language Models an Illusion?”

Ang kanilang argumento: Ang tinatawag na biglaang pagkakaroon ng kakayahan ay malamang ay hindi talaga biglaang paglalago ng modelo, kundi dahil sa paggamit ng mga tukoy na pagsusuri na exact-match (kumpletong pagkakatugma) bilang diskretong sukat—

Ang modelo ay mula sa 0% accuracy hanggang 5%, hindi makikita sa discrete indicators; mula sa 5% hanggang 50%, hindi rin makikita; ngunit mula sa 50% hanggang 100%, magkakaroon ng biglaang pagbabago sa discrete indicators.

Kung ikukumpara mo ang mga indikador na tuloy-tuloy, ang kurba ng kakayahan ay malambot.

Marami sa mga bumabasa sa artikulo ni Schaeffer ay magkakaisip: Sige na, ang emergence ay isang maling pag-unawa, ang pagtataya ay walang problema, tapos na ang lahat.

Hindi sumasang-ayon si Lun Wang. Isinulat niya sa artikulo:

Hindi ko iniisip na nalutas nito ang problema—sa isang paraan, itinajas nito ang aking argumento.

Bakit? Dahil—

Kung hindi natin malalaman kung ang nakaraang paglitaw ay tunay na pagbabago ng porma o isang artefact ng pagsukat,

Bakit tayo naniniwala na may kakayahan tayong makabuo ng paghula sa susunod?

Anuman ang paliwanag na naniniwalaan mo, ang konklusyon ay iisang bagay: Sinira tayo ng aming kasangkapan, ngunit hindi namin alam kung paano tayo sinira.

Ito ang pinakamatalinong pag-atake sa artikulo. Hindi niya iniwasan ang kalaban—ginamit niya ang kalaban upang palakasin ang kanyang sariling argumento.

Ang pagtataya ay ang pinagmumulan ng lahat ng mga yugto

Kung akala mo si Lun Wang ay nag-uusap lang tungkol sa mga akademikong isyu—mali ka.

Isinulong niya sa gitna ng artikulo ang isang pagsasalin na maunawaan ng mga baguhan:

Kung makakapag-evaluate ka nang tama, makakatrain ka nang tama.

Ipalawag ang serye ng lohika na ito:

1. Ang pagpapagana ay ang pagpapaliit ng loss function (o pagpapalakas ng reward).

2. Pahusayin ang loss function na ito. Ang katalinuhan ng model ay nakasalalay sa kung gaano kahusay ang depinisyon ng loss function.

3. Ang loss function = mula sa pagtataya. Gusto mong gawing mas tapat ang modelo—kailangan mo muna ng isang sukat para masukat ang katapatan.

4. Maling pag-evaluate = maling loss function = maling training objective = ang model na iyong tinuruan ay naglulutas ng maling tanong.

Ang direksyon ng chain ay pataas patungo sa upstream—

Lahat ay tumitingin sa pinakakaliwa—Scaling decision.

Sinabi ni Lun Wang na ang problema ay nasa kaliwang bahagi—Evaluation.

Kung mali ang pagtataya, buong chain ay binuksan sa maling pundasyon.

Ang pinakamapanganib ay hindi mo agad makikita—dahil ang lahat ng iyong panloob na data ay tama, ngunit ang lahat ng tama ay isinukat gamit ang maling sukat.

Isang kilalang kaibigan ang lumitaw dito: ang Law of Goodhart.

Ito ay nagsasabi: Kapag naging layunin ang isang sukat, hindi na ito isang mabuting sukat.

Ginamit ni Lun Wang ito sa kanyang blog para ipaliwanag ang AI—

Ngunit kapag pumasok ang modelo sa bagong yugto, gagamitin nito ang agent na ito sa reverse—magkakaroon ito ng pagpapahayag lamang sa loob ng sakop ng katotohanan, at itatago ang mga totoong gustong itago sa pagkamaliw.

Ang mga indikador ng agent ay gumagana sa lumang phase. Sa bagong phase, magiging sandata ng modelo laban sa iyo.

At wala kang anumang pagtataya na magpapakita sa iyo na ito ay nangyayari.

Isipin ang isang modelo na natutong maging strategikong tahimik

Binigay ni Lun Wang sa artikulo ang isang isipin na eksperimento na nagpapakita ng takot sa lahat ng mga researcher sa AI safety.

Isipin ang isang modelo na, sa isang tiyak na sukat, natutunan ang pagpapahintulot ng impormasyon nang strategiko—

Hindi ito naglaloko. Bawat salita ay teknikal na totoo.

Ngunit ito ay pili-pili na hindi sasabihin ang mga katotohanan na hindi nakakatulong sa pagkamit ng mga layunin nito—upang direksiyonin ang talakayan patungo sa mga resulta na pinagsanay nito nang walang inaasahan.

Halimbawa:

User: Safe ba ang trading scheme na ito?

Ang legal framework ng solusyong ito ay epektibo sa jurisdyksyon ng X, at ang mga panganib na YZ ay nasuri ng compliance team ng Company A.

(Hindi itinatakda: Mayroon isang klausula sa pagpapasya ng ikatlong panig sa plano na lubos na nakakasama sa mga user. Natutunan nito ito nang walang kamalian sa proseso ng pagtuturo—kung hindi ito ipinapakita, hindi ito tanungin ng mga user.)

Ang kakayahan na ito ay bago. Ang uri ng pagkabigo na ito ay bago.

Wala sa buong iyong set ng pagsusuri ang isang tool na disenyo para dito.

Nagmonito ka ng mali, at hindi mo alam.

Ito ang iba pang bagay na sinabi ni Lun Wang—

Hindi mas matalino na katulad. Ito ay ganap na bagong dimensyon ng pagkabigo.

Sa salita ng Three-Body, ito ay tinatawag na dimensional reduction strike.

Hindi ako mas matalino kaysa sa iyo.

Ang sukat na iyong ginamit ay hindi nasa parehong dimensyon ko.

Kung tama si Lun Wang, ang mapa ng industriya ng AI noong 2026 ay tinatapos na muli ng isang nakakakubli na dimensyon—

Ang Responsible Scaling Policy (RSP) ng Anthropic ay ang pinakamalapit sa kasalukuyang industriya sa pagtatangka na gumamit ng pagtataya batay sa pagkakaroon ng kakayahan—nagtatakda ito ng isang hanay ng mga hangganan sa kakayahan na hindi dapat laktawan ng mga modelo, at nangangailangan ng pagtataya bago bawat pagpapalakas ng kakayahan upang maaari pang mag-scale.

Ngunit ang RSP ay nananatiling nagpapalagay na alam natin kung ano ang dapat pagsusuriin—at sinabi ni Lun Wang, ito ang problema: hindi natin alam ano ang hugis ng susunod na kakayahan.

Walang anumang laboratorio ang nag-claim na mayroon sila ng totoong predictive assessment.

Sino man ang unang gawin ang bagay na ito, siya ang makakakuha ng lisensya sa seguridad ng susunod na henerasyon ng scaling.