Pagkatapos ng Automation
May-akda: Dan Shipper, Every CEO
Isinalin ni Peggy, BlockBeats

Editorial Note: Sa nakaraan, ang talakayan tungkol sa AI at trabaho ay pinamumunuan ng isang tanong: habang patuloy na tumataas ang kakayahan ng mga modelo, babalewalaan ba ang mga posisyon ng mga empleyadong pangkabuhayan? Mula sa code generation, automation ng customer service, hanggang sa content production, ang mga Agent ay patuloy na kumukuha sa mga gawain na dating nangangailangan ng tao. Ang mga benchmark test ay patuloy na pinalalalim ang takot na ito: ang mabilis na pag-unlad ng mga modelo sa graduate-level reasoning, totoong ekonomikong gawain, at advanced engineer-level code refactoring ay tila umaabot sa isang “kritisyal na punto” kung saan ang trabaho ng tao ay aabot sa pagkawala dahil sa automation.

Ngunit sinabi ni Every CEO Dan Shipper sa artikulong ito ng isang kabaligtarang obserbasyon: mas automated, mas maraming trabaho ang kailangang gawin ng tao. Ang Every ay malalim na gumagamit ng AI Agent, at ang loob na sistema ay nakapag-embed na ng mga kasangkapan tulad ng Codex, Claude Code, Slack Agent, at客服 Agent sa mga proseso ng coding, pagsusulat, disenyo,客服, at pamamahala. Ngunit ang resulta ay hindi ang pagpapalit ng lahat ng empleyado, kundi ang pagbabago ng anyo ng trabaho: ang mga inhinyero ay hindi na lang nagkakod, kundi nag-aaral, nagre-restructure, at nagdudisenyo ng mga sistema; ang mga editor ay hindi na lang sumusulat ng artikulo, kundi nagpapasya kung ano ang dapat isulat at paano ito gawing iba; ang mga tauhan sa客服 ay hindi na nakakasulat ng bawat simpleng ticket, kundi nagpapanatili ng isang sistema na makakasagot nang awtomatiko sa mga customer.

Ang pinakamahalagang bagay sa artikulong ito ay hindi ang "kakayahan ng AI na matapos ang isang gawain," kundi ang pagbabago nito sa posisyon ng tao sa mga gawain na may kaugnayan sa kaalaman. Ang lakas ng AI ay ang paggawa ng mga kakayahan na naka-imbak na sa nakaraan na maging mura: ang code, ang mga teksto, ang thumbnails, ang mga sagot sa customer service, ang mga produkto, at ang mga研究报告, lahat ay maaaring mabilis na mabuo ng mga modelo. Ngunit kapag naging available na ito sa lahat, ang resulta ay hindi karaniwang mataas na kalidad at may pagkakaiba-iba, kundi malaking dami ng mga "default output" na tila magkakatulad at walang paghuhusga o pag-unawa sa konteksto. Sa madaling salita, ang AI ay komersyalisado ang "kakayahan ng tao noong kahapon," at ang totoong kakulangan ay ang paghuhusga sa harap ng mga partikular na isyu sa kasalukuyan.

Kaya hindi tinanggal ng automation ang mga eksperto, kundi nilikha ang mas maraming mga sitwasyon na nangangailangan ng pakikilahok ng mga eksperto. Kapag ang mga operasyon ay maaaring magsumite ng code gamit ang AI, kailangan ng mga inhinyero na matukoy kung anong code ang dapat i-merge; kapag ang mga marketing personnel ay maaaring gumawa ng thumbnail sa ilang segundo, kailangan ng mga designer na matukoy kung ano ang tugma sa brand at layunin ng komunikasyon; kapag maaari ring sumulat ng mga artikulo ang mga inhinyero, kailangan ng mga editor na baguhin ang unang draft sa tunay na may pananaw, may istruktura, at ma-publish na nilalaman. Palawigin ng AI ang radius ng produksyon, at pinapalakas din ang pangangailangan sa quality control, pagbuo ng sistema, pagtukoy sa hangganan, at pagpapahayag ng pagkakaiba-iba.

Lumikha ng karagdagang pagsusuri ang may-akda ng paradoks na ito gamit ang mga benchmark. Parehong ang Senior Engineer Benchmark at ang GDPval ng OpenAI, ang mga marka ng modelo ay hindi sinusukat ang “inteligensya” sa isang abstraktong kahulugan, kundi ang pagganap ng modelo sa loob ng isang tiyak na kadahilanan ng problema. Ang prompt, mga hangganan ng gawain, mga pamantayan sa pagtataya, at anyo ng output ay naglalaman na ng maraming tao na pagpapasya. Maaaring mabilis na umakyat ang modelo sa loob ng kadahilanan, ngunit ang kadahilanan mismo ay itinakda ng tao; kapag naibigay ng modelo ang isang kadahilanan, ipinapalaya ng tao ang problema sa isang mas kumplikadong bagong kadahilanan.

Ito rin ang pinakamalikhaing tugon sa agam-agam tungkol sa AGI sa artikulong ito: Kahit pa lumalakas ang mga modelo, ang kanilang matutugunan ay kadalasang isang hangganan na isinagawa ng tao, hindi ang tao mismo na nagtatakda ng hangganan. Maaaring pagsabihan ng AI ang mga layunin, mapabuti ang mga daan, at mapataas ang kahusayan, ngunit habang ito ay patuloy na tumutugon sa mga tanong na itinakda ng tao, nananatili itong walang tunay na pagkakakilanlan. Ang kinabukasan ng mga trabaho na kaugnay ng kaalaman ay hindi ang pagkawala ng tao mula sa proseso, kundi ang pagbabago nito mula sa tagapagpaganap patungo sa tagapagtatayo ng mga framework, tagapagpanatili ng sistema, tagapagpasya sa kalidad, at tagapagbigay-kahulugan.

Pagkatapos ng automation, hindi nawala ang halaga ng trabaho ng tao, kundi naging mas mahirap, mas nasa unahan, at mas nakadepende sa pagdedesisyon. Ginawa ng AI na mura ang “pagkakagawa,” ngunit ginawa nito na mas kakulangan ang “pagkilala kung ano ang dapat gawin, bakit ito gawin, at kailan ito sapat na mabuti.”

Narito ang orihinal:

Sa puso ng AI, mayroong isang paradox.

Sa Every, sinubukan namin na automatihin ang lahat ng maaaring automatihin. Mula sa coding, pagsulat, disenyo, customer service, hanggang sa iba pang araw-araw na gawain, gumagamit tayo ng Codex at Claude Code. Bago pa man ipalabas ng OpenAI, Anthropic, at Google ang kanilang mga bagong model, kumikilala na tayo sa alpha testing. Maaaring sabihin na kasali tayo sa pinakamabilis at pinakamalalim na pagpapalago sa alon ng eksponensyal na pagpapabuti ng model intelligence at automation capability.

Ngunit kabaligtaran, para sa amin, tila mas maraming trabaho ang kailangang gawin ng tao kaysa sa anumang panahon sa nakaraan. Ang Every ay isang tim na malapit sa 30 katao, at hindi namin sinira ang lahat ng mga empleyado dahil sa mga Agent; hindi rin namin isinampa ang mga SaaS tool at bumalik sa mga aplikasyon na gawa sa vibe coding. Patuloy pa rin naming hinahanap ang mga tunay na customer service rep, ngunit sila ay tatanggap ng malaking tulong mula sa mga Agent; patuloy pa rin naming hinahanap ang mga manunulat, editor, at inhinyero.

Gayon, ang anyo ng trabaho ay nagbago nang malaki. Halos hindi na tayo sumusulat ng code nang kamay. Kung ikaw ay @ ang isang tao sa Slack, mahirap malaman kung tao ba o Agent ang nasa kabilang dulo. Ang mga manager ay nagsisimula na mag-submit ng code tulad ng mga frontline individual contributors, samantalang ang mga engineer ay direktang nakikipag-ugnayan sa mga customer. Sa nakaraang ilang linggo, 95% ng aking mga email sa trabaho ay sinagot ng AI. Ang aking inbox ay halos laging walang laman—na sobrang rare para sa akin—ngunit patuloy akong titingin sa bawat email.

Sa ibang salita, ang hinaharap ay tila hindi kilala, ngunit kakaibang pamilyar.

Ang ganitong “pagkakakilala” ay sariling nagdudulot ng pagkabigla. Dahil sa anumang CEO, knowledge worker, o investor, tila patuloy na naniniwala sa iisang bagay: ang AI ay umuusbong na banta sa pagkakaroon ng trabaho, ekonomiya, kaligtasan, at kahit sa kahulugan ng paggawa ng tao.

Ang CEO ng Anthropic, Dario Amodei, ay nagbabaalang-bala na maaaring tanggalin ng AI hanggang sa kalahati ng mga entry-level white-collar jobs. Bago lang ay pinabayaan ng Meta ang 8,000 tao at nagsimula na sa pag-install ng software sa mga computer ng mga empleyado sa Amerika upang tandaan ang paggalaw ng mouse, mga klik, at pagpindot sa keyboard upang makakuha ng mas mataas na kalidad na training data para sa advanced knowledge work.

Kahit si Ken Griffin, ang tagapagtatag ng Citadel, ay tila napagtanto. Noong recent, sinabi niya: "Hindi ito mga posisyon para sa mga mid- to low-level white-collar worker, kundi mga mataas na kasanayan na posisyon na tinatanggal ng — isipin ko mabuti ang salitang ito — Agentic AI."

Ang iba’t ibang benchmark ay tila sumusuporta rin sa paghuhusga na ito. Habang patuloy na ipinapakita ang mga bagong modelo, ang mga indikador ng kakayahan ng modelo ay umuusbong sa halos eksponensyal na antas. Sa Humanity's Last Exam, isang pagsubok sa antas ng graduate school na pag-iisip, ang mga performance ng pinakamataas na modelo ay tumataas mula sa mababang isahan noong isang taon ang nakalipas patungo sa kasalukuyang halos 44%. Sa GDPval, isang pagsubok na sinusukat ang kakayahan ng mga pinakamoderno na modelo na matapos ang tunay na ekonomikong gawain at ihambing sa pagganap ng tao, ang mga marka ng modelo ay umakyat mula sa katulad na mababang antas patungo sa halos 85%. Noong Mayo ng taong ito, ang non-profit na organisasyon para sa pag-aaral ng AI safety na METR ay naglabas ng mga unang resulta ng pagsubok sa Claude Mythos: sa ilang mga gawain na kailangan ng mga eksperto na tao ng halos 4 na oras para tapusin, ang tagumpay na rate ng modelo ay 80%.

Mukhang nasa dulo na tayo ng isang kritikal na punto: isang AI na mas matalino kaysa sa anumang tao at nakakapagtrabaho nang walang tulong nang halos isang buong araw ay malapit nang maging totoo.

Gayunpaman, ang paradoxyo ay nananatili. Kung uusapin mo ang mga propesyonal sa industriya ng AI o ang mga unang gumamit ng AI sa labas ng industriya, mababasa mo ang parehong konklusyon na nagsasabi sa atin: mas maraming gagawin kaysa dati.

Ang totoong isyu na pinag-uusapan sa loob at labas ng industriya ay: Ito ba ay isang pansamantalang kalagayan lamang? Sa paglabas ng susunod na modelo, babangon ba ang oras na magpapalit ito sa lahat? Tinitingnan namin ang kurba ng benchmark, nagkakaroon ng kasiyahan at pagkabahala, takot na maaaring dumating ang isang punto kung saan maaaring mawala ang malaking bilang ng mga trabaho nang biglaan.

Ngunit naniniwala ako na wala nang "kritikal na punto" na maaaring biglang dumating upang biglang palitan ang lahat at gawing mawala ang mga trabaho sa malaking saklaw. Ang bagong realidad ay kabaligtaran: mas mataas ang automation, mas marami ang mga trabaho na nangangailangan ng pakikilahok ng mga eksperto.

Dahil sa pagkakaroon ng AI, ang mga aspeto ng propesyonal na kakayahan ng tao na maaaring malinaw na ipahayag, matututo, at kopyahin ay naging komodidad. Ang anumang kaalaman na maaaring isulat bilang mga patakaran, iwasan bilang proseso, o ikonvert sa mga data para sa pagtuturo ay maaaring maging default na kakayahan ng mga modelo. Bilang resulta, ang halaga ng mga output ng karaniwang modelo ay mabilis na bumaba, at nagsimula ang merkado na hingin nang mas malakas ang mga bagay na iba.

Ang pangangailangan sa «pagkakaiba» ay sa katotohanan ay pangangailangan sa mga eksperto na tao. Kahit na tayo ay malapit na sa pangkalahatang artificial intelligence, hindi ito mawawala.

Upang maunawaan ang dahilan, hindi sapat na tingnan ang mga curve ng benchmark o tanging pagsunod sa mga parameter ng modelo at mga listahan ng kakayahan. Dapat nating balikan ang mga totoong sitwasyon sa paggamit at tingnan kung paano talaga ginagamit ang AI ngayon. Tanging sa paraang ito ay maaari nating tunay na maunawaan ang paradox na ito at ang sagot sa likod nito.

Paano tayo napunta dito

Mula pa noong 2022, patuloy naming sinusuri ang epekto ng Agent sa hinaharap na trabaho.

Noong tatlong taon ang nakalipas, isinulat ko ang isang artikulo tungkol sa “allocation economy.” Noon, ang aking pagtataya ay na ang pakikipagtulungan sa mga AI tool ay magiging lalong katulad ng trabaho ng isang human manager: hindi mo na gagawin ang bawat aksyon nang personal, kundi hahatiin, aalokin, sasayarin, at hahatiin ang mga gawain. Noon, ang pinakabase na pagtatanong at sagot sa ChatGPT ay nananatiling itinuturing ng marami bilang isang bagay na napakabatid at kahit paano’y nakakatakot.

Sa gitna ng 2025, ang kumpanya na Every ay halos lubos na “naging Claude Code”. Biglang napagtanto ni Kieran Klaassen, ang pangulo ng Cora, na maaari na niyang itigil ang pagsusulat ng code ng kamay at magtrabaho nang buong araw sa terminal sa pamamagitan ng pagbibigay ng mga utos sa isang programming agent gamit ang natural na wika. Agad na lumaganap ang paraan ng paggawa na ito sa buong kumpanya. Halos 12 buwan ang nakalipas, sinabi ko sa Lenny’s Podcast na ang Claude Code ay ang pinakamababaw na tinatanggap na kasangkapan sa knowledge work.

I mention these because some of our most accurate insights in the past have come from observing Every as an early adopter laboratory. Many new ways of working first emerge within our internal team; only later, as the technology matures and tools become more user-friendly, do these patterns gradually enter the broader market.

At ngayon, nagaganap ang mga bagong pagbabago sa loob.

Dalawang mode ng pagtatrabaho kasama ang Agent

Tungkol sa paraan ng paggana ng AI, patuloy itong umuunlad sa dalawang napakalaking iba’t ibang mode.

Ang unang uri ay ang direksyon na naipagpalagay nang mas akma sa mga nakaraang talakayan tungkol sa AI: ang paggamit ng Agent bilang mga empleyado. Maaaring ipagkaloob sa mga ganitong Agent mga gawain. Mayroong ilang Agent na naninirahan sa Slack, may sariling pangalan at tungkulin, at kapag kailangan mo silang gawin ang isang bagay, maaari mong direktang @itan sila; mayroon ding ilang Agent na nakapaloob sa mga patuloy na gumagana na workflow, tulad ng sistema ng customer service, bilang 24/7 na entry point at filter para sa mga paulit-ulit na gawain.

Mas kakaiba ang ikalawang mode, ngunit sa aking karanasan, mas mahalaga ito. Ito ay tumutukoy sa pakikipagtulungan ng tao at Agent sa mga kasangkapan tulad ng Codex, Claude Code, at Claude Cowork. Hindi lamang ito mga lugar kung saan ipinapasa mo ang mga gawain—nagtatagpo sila bilang operasyonal na sistema ng trabaho: pinagsasama mo ang iyong sarili at maraming Agent sa iisang “computer”, nagtatrabaho nang sabay-sabay sa iisang working environment upang matapos ang mga napakakomplikado, orihinal, at hindi madaling ipagkaloob sa asynchronous Agent na mga gawain.

Sa parehong dalawang mode, maaari mong gamitin ang AI para automatiko at ipa-delegate ang isang malaking bahagi ng trabaho. Ngunit upang maging epektibo ang parehong dalawang mode, kailangan pa rin ng iyong pakikilahok, o ng ibang tao.

Mga empleyado

Ang isang agent ay isang tao na ibinibigay mo ang isang gawain, at ito ay naglalabas ng isang sagot, isang aksyon, isang ulat, isang draft, o isang paghahati-hati ng pagpapasya nang walang direkta mong kasali sa real-time.

Mayroong kahit anong dalawang anyo ng ganitong Agent: ang “Agent na kasamang manggagawa” at ang “nakapaloob na Agent”.

1. Agent na katulad ng kasamahan

Ang tinatawag na colleague-type agent ay isang agent na maaari mong tawagan sa Slack tulad ng pag-@ sa isang kasamahan upang gawin ang isang gawain. Laging available ito at maaaring i-call kapag kailangan. Ang mga produkto tulad ng OpenClaw o ang aming loob na inililikha na Plus One ay kabilang sa uri na ito.

Claudie

Si Claudie ay ang colleague-type agent na ginagamit ng aming team sa konsultasyon. Nagsusulat siya ng mga proposta sa pagbebenta, nagpapagawa ng mga draft ng materyales sa pagsasanay, tinutugunan ang mga gawain sa proyekto, at kayang gawin ang higit pa sa mga katulad na gawain.

Andy

Si Andy ay isang agent na ginagamit ng aming team ng editor. Kumuha siya ng mga “mga puntos ng materyal” mula sa loob ng Slack ng kompanya na值得 mas malalim na pagpapalawak—mga ideyang maaaring magdevelop bilang mga artikulo—at isinasama niya ang mga ito sa mga summary at mga preliminary na pananaw para sa mga manunulat upang gamitin sa pagbuo ng araw-araw na newsletter.

Viktor

Si Viktor ay isang pangkalahatang Agent na magpapalawak ng mga gawain sa pagitan ng mga departamento sa loob ng kumpanya. Gamitin namin ito upang makalap ng mga indikador ng paglago, analisahin ang mga resulta ng pag-aaral ng mga user, at gawin ring i-organize ang mga kakaibang internal na talakayan sa mga research memo at mga rekomendasyon sa produkto.

2. Embedded Agent

Ang embedded agent ay umiiral sa loob ng tiyak na workflow ng produkto. Mas kakaunti ang kanilang flexibility kumpara sa colleague agent, ngunit madalas ay napakalakas sa paghahandle ng mga paulit-ulit na gawain.

Ang Fin ay ang pinakamalinaw na halimbawa. Ito ay isang Agent na nakapaloob sa aming platform ng customer service na kayang harapin ang malaking bilang ng mga gawain sa customer service sa pamamagitan ng chat at email.

Sa isang linggo noong Mayo ng taong ito, kinuha ni Fin ang 65% ng lahat ng 202 na kausap sa customer service ng Every, at nagsarili siya sa pagkansela ng 81 na tiket, na nagsisilbing 40.1% ng lahat ng kausap na maaring masolusyunan.

Ang mga embedded Agent na ito ay nagpapababa sa oras na ginugugol ni Waqqas Mir, aming customer service manager, sa pag-sagot sa mga simpleng ticket, at nagpapalaya sa kanya upang mas maraming pansin ay ilagay sa pagbuo ng isang 'system na makakasagot ng mga ticket nang awtomatiko', pati na rin sa pag-handle ng mga kaso ng customer na nangangailangan ng mas mataas na antas ng pagkakaintindihan at mas kumplikadong pagdedesisyon.

Human-AI collaboration

Anuman ang uri ng Agent—kung ito ay kolaboratibong Agent o embedded Agent—ang modelo sa likod ay pareho: ang mga Agent na empleyado ay humahawak sa mas maraming mga gawain na patuloy, paulit-ulit, at may malinaw na hangganan.

Ngunit mayroon pa ring maraming gawain na kailangan ng tao. Patuloy naming natutuklasan na kung ang isang gawain ay sapat na kumplikado at nais mong makakuha ng tunay na mataas na kalidad na resulta, ang pinakamahusay na paraan ay hindi ang pagbibigay ng buong gawain sa AI, kundi ang pagpapagana ng AI at tao sa isang parehong workspace habang sila ay nagtatrabaho nang patuloy na magkakasama.

Ito ang halaga ng mga kasangkapan tulad ng Codex, Claude Code, at Cowork. Pinapayagan ka nilang magsimula ng isang o higit pang Agent sa maraming thread ng pag-uusap at ipagkakaloob ang mga gawain sa kanila. Maaaring makapag-access ang mga Agent sa iyong computer at lahat ng kaugnay na pinagkukunan ng datos. Makikita mo kung ano ang ginagawa ng bawat Agent, kung paano ito nagsisipag-isip, at maaari mong pigilan ito kahit kailan.

Sambil noon, kailangan pa ring mamahalaan mo ang mga Agent: magbigay ng malinaw na direksyon sa simula ng bawat gawain, suriin ang kalidad sa katapusan, siguraduhing sapat ang resulta, at patuloy na hanapin ang susunod na makabuluhang gawain. Tawag ni Kieran sa ganitong papel ang tao bilang “sandwich” — ang AI ang nagsasagawa ng gitnang bahagi ng gawain, habang ang tao ay tulad ng dalawang pirasong tinapay na nakakapalibot sa simula at katapusan ng gawain.

“Human Sandwich.” Pinagmulan: Every.

Ang pinakakaraniwang halimbawa ay ang pagsusulat ng code. Sa Every, ang mga inhinyero ay halos buong araw ay nag-uugnayan sa Agent. Kasama nila ito sa pagpaplano ng mga bagong tampok o pagpapabuti ng mga Bug, pagrerebyu ng mga natapos na gawain; at kung gagamitin ang aming konsepto ng “compound engineering,” patuloy nilang pinapabuti ang kanilang sistema upang maging mas madaling gamitin nang pagkalipas ng panahon.

Ngunit ang paraan ng pagtatrabaho na ito ay higit pa sa pagsusulat ng code.

Bagong operating system para sa mga trabaho sa kaalaman

Ang Codex at Claude Code ay nagsisimula nang maging isang bagong operasyonal na sistema sa trabaho. Nagpapalipad ako ng halos buong araw sa Codex, gumagamit ng its built-in browser para i-run ang iba’t ibang SaaS tools. Nagbibigay ito sa akin ng kakayahang dalain ang Agent sa bawat sitwasyon sa trabaho at makamit ang antas ng produktibidad na hindi makakamit kung gagawin ko lang ito nang mag-isa.

Pagsusulat

Ito ang artikulo na isinulat ko sa loob ng built-in browser ng Codex gamit ang Proof. Ang Codex ay nagmamasid sa aking sinasulat at maaaring mag-trigger ng isang sub-Agent kahit kailan upang matupad ang anumang gawain na kailangan ko: mag-isip ng unang draft ng isang seksyon, maghanap ng mga halimbawa para sa susunod na bahagi, o gawin ang pag-edit at pagpapabuti ng teksto.

Isulat ang artikulong ito sa pamamagitan ng Proof sa Codex. Pinagmulan: Every.

Sa pagproseso ng mga email, gumagamit ako ng parehong paraan. Ang Cora ay ang aking email client, at buksan ko ito sa built-in browser ng Codex, habang niririnay ko ang aking inbox at sinasabi nang malinaw sa Monologue ang aking pag-iisip sa bawat email. Ang natitirang bahagi ay ipinapasa ko sa Codex at Cora para sa pagkumpleto.

Isang paglinis ng inbox na ginawa ni Cora. Pinagmulan: Every.

Kailangan ng bawat Agent isang tao

Sa lahat ng automated na scenario na nabanggit, maaari mong makita kung saan tumutugon ang tao. Sa bawat halimbawa, kailangan ng tao ang pagkakaroon ng Agent para maging aktibo ang trabaho.

Kailangan ng isang tao na ilapat ito sa tamang tanong, masuri kung sapat ang output, makita kung saan ang mga pagkakamali, at isalin ang resulta sa mga desisyon o proseso sa totoong buhay.

Mas masamang epekto ng isang Agent kung mas malayo ito sa tao na responsable sa pagmamasid sa kanyang pagganap. Sa unang panloob na pagpapalaganap, binigyan namin ng isang Agent bawat empleyado. Ngunit mabilis naming binalewala ito at bumalik sa paggamit ng mga Agent para sa isang partikular na koponan o para sa buong kumpanya, hindi para sa isang indibidwal.

Simpleng dahilan: kailangan ng maraming pagpapanatili ang Agent. Mabilis na magiging obsolete at hindi na gumagana ang personal na Agent kung hindi na ito sinusunod ng gumagamit. Mayroon kaming tim ng mga AI engineer na espesyalisado sa pagpapanatili ng katatagan at epektibong paggana ng mga Agent na ito. At sa makakalabas na hinaharap, kailangan pa namin ang tim na ito. Kahit ang simpleng gawain tulad ng “awtomatikong paggawa ng PowerPoint” ay maaaring magmula sa isang malaking proyekto ng sistema. Ang isa sa aming mga proseso sa awtomatikong PowerPoint ay naglalaman ng 24 na kasanayan at 18 na iskrip, at ang gastos sa token para sa paggawa ng isang presentasyon ay umabot sa $62.

Ito ang unang dahilan kung bakit ang Agent ay naglalikha ng higit pang mga trabaho para sa mga tao.

Ngunit mayroon pa pang pangalawang dahilan.

Bakit nagdudulot ng higit pang trabaho ang automation sa mga tao?

Kung susuriin mo ang eksponensyal na paglago ng kakayahan ng AI sa nakalipas na ilang taon, kasama ang kanilang paraan ng pagbuo at pinagmumulan ng kakayahan, makikita mo ang isang malinaw na feedback loop: patuloy nilang lumilikha ng higit pang mga trabaho para sa mga tao.

Ang AI ay nagiging murang ang "kapasidad ng tao kahapon"

Ang mga kasalukuyang malalaking modelo ng wika ay tinuturuan sa mga nakikita mong traces ng kakayahan ng tao: code, mga artikulo, mga larawan, mga tiket ng serbisyo sa kliyente, mga dokumento ng spesipikasyon ng produkto, at marami pang iba. Nililimos nila ang mga ito, o ang mga "emission" na natitira mula sa mga gawain na naging tagumpay, at binabawi ito sa isang mura at accessible na anyo para sa lahat.

Ang resulta ay, maraming kakayahan na dati ay kakaunti, tulad ng pagsumite ng isang code PR, paggawa ng isang YouTube thumbnail, o pagsulat ng isang newsletter, ay ngayon ay malapit sa pagkakaroon ng lahat.

Mabilis na matatanggap ang mga murang kakayahan

Kapag bumaba ang gastos ng isang bagay na dati ay kakaunti, agad na dumadami ang suplay.

Sa Every, patuloy naming nakikita ang pagbabagong ito. Ang mga operasyon at customer service ay nagsisimula nang sumulat ng code at magsumbit ng pull request; ang mga tagapamarka ay nagsisimula nang gumawa ng YouTube thumbnails; at ang mga inhinyero at produkto ay nagsisimula ring sumulat ng mga artikulo, gabay, at mga draft ng landing page, na mga gawain na dati ay hindi nila karaniwang kinukuha.

Nangyayari din ang pagbabagong ito sa labas ng Every. Bilang halimbawa, ang OpenClaw, isang open-source AI Agent project, ay nakatanggap ng 44,469 na pull request hanggang Mayo 16, 2026, kung saan 12,430 ay mula sa pagkatapos ng Abril 1 at 3,990 ay mula sa pagkatapos ng Mayo 1. Ito ay isang nakakatatakot na bilang. Bilang komparasyon, ang Kubernetes, isa sa mga pinakapopular na open-source project sa buong mundo, ay nakatanggap lamang ng 5,200 na pull request sa buong taon ng 2022.

Ang pagkakaroon ng kayamanan ay nagdudulot ng homogenization: ang mga kasanayan ng mga dating eksperto ay naging komodidad

Dahil maaaring gamitin ng lahat ang parehong modelo, at ang mga modelo ay batay sa "kakayahan ng tao noong kahapon", ang karaniwang output ng modelo ay nasa pagitan ng "magandang simula" at "totoong AI basura".

Ang sinasabi na "mga basura" ay hindi isang partikular na pagkakamali. Hindi ito tumutukoy sa sobrang paggamit ng tuldok, hindi ito isang tiyak na porma ng pangungusap, at hindi rin ito ang mga purpuleng detalye na nasaan-man sa landing page. Ito ay tumutukoy sa isang makikita sa mata, paulit-ulit, at nakakapagod na pagkakatulad.

Nang gamitin ng mga tao sa iba’t ibang sitwasyon ang iisang set ng mga kasangkapan, na batay sa iisang uri ng corpus para sa pagtuturo, at kung ang mga gumagamit ay hindi nagpapakita ng sapat na malalim na paghuhusga, magkakaroon ng ganitong resulta. Sa ibang salita, nang mayroon ang bawat isa sa isang eksperto na may parehong倾向 at parehong default na istilo, ang homogenization ay natural na mangyayari.

Kapag ang mga operasyon ay maaaring magsumite ng pull request, ang mga marketing specialist ay maaaring gumawa ng YouTube thumbnail sa ilang segundo, at ang mga engineer ay nagsisimula na mag-isulat ng product guides, madaling mabuo ang ganitong sitwasyon: tumataas ang dami ng iyong output, ngunit bumababa ang kalidad, konsistensya, at pagkakaiba-iba ng mga gawa.

At kapag naging sobrang abundant ang pagkakapare-pareho, agad itong magiging isang komodidad.

Ang homogenization ay naglikha ng pangangailangan para sa diferensiyasyon

Dahil sa pagkakaroon ng internet, mabilis na makikilala ng tao kung ano ang sobrang “AI flavor” ng mga produkto mula sa production line. Maaaring makarating agad ang anumang gawa sa iba pang tao sa buong mundo, at karaniwan naman ito. Kapag marami nang nagsisimulang magmukhang magkakatulad, mabilis nating makikita ang pagkakaiba.

Ibig sabihin nito, kapag unang nakikita mo ang kakayahan ng isang bagong modelo, maaaring mabigla ka o kahit mag-isip na takot. Ngunit ilang buwan pagkatapos, ang mga kakayahang ito ay magiging karaniwan. Hindi ito dahil sa pagkamalina ng modelo, kundi dahil sa pagbabago ng iyong pamantayan.

Hindi na namin sasayang sa anumang React app o anumang pag-aaral. Gusto namin ang isang bagay na talagang angkop sa tiyak na indibidwal, tiyak na kumpanya, at tiyak na sitwasyon. Dapat itong maging maayos, buhay, at tiyak, at hindi mura, pangkalahatan, o template. Gusto namin na mas mataas ang gastos sa paggawa nito, kahit anong oras o pera, kaysa sa gastos sa pagkonsumo namin.

Gusto namin ang mga bagay na may «pagkakaroon ng katayuan». At tuwing magkaroon ng bagong teknolohiya na gawing murang ang mga bagay na dati ay may mataas na katayuan, palaging mahusay ang tao na mag-imbento ng mga bagong laro ng katayuan upang tugma sa mga bagong hangganan ng kakayahan.

Kapag ang trabaho ay naging sobrang marami at ang lahat ay tila magkakatulad, ang mga trabaho na hindi sumusunod sa umiiral na pattern ay nagsisilbing mga bagay na kakaunti, mahalaga, at may mataas na katayuan.

Ang pangangailangan sa pagkakaiba-iba ay sa本质上 ay isang bagong pangangailangan para sa mga eksperto

Dahil sa mga katangian ng arkitektura ng mga modelo ng wika at ang kanilang malawakang pagkakalat sa halos lahat, ang mga nakakarelaks at may halagang gawain ay patuloy na dapat mula sa mga tao.

Alam ng kasalukuyan na henerasyon ng modelo ang mga gawain na nangyari na at natapos na. Alam ng tao: Ano ang kailangang gawin ngayon.

Kapag isang partikular na sitwasyon ay naibabalik sa teksto, kapag ito ay nasa loob ng corpus, ito ay naging nangyari na. Ang tao ay nakikibahagi sa isang partikular na sandali, partikular na kliyente, partikular na codebase, at partikular na usapan, habang ang corpus ng pagtuturo ay hindi totoo namumuhay sa kasalukuyang panahon. Ang estado na ito na “namumuhay” ay hindi lamang naglalaman ng updated na data. Dinala natin ang ating pinagmulan patungo sa kasalukuyan, kasama ang patuloy na pagbabago ng ating mga pangarap, pag-aalala, at pagpapasya, upang maunawaan kung ano ang mahalaga. Ito ang mga patuloy na ina-update na pananaw ang nagbabago sa ating mga nakikita. Maaaring pumasok ang modelo sa pananaw na ito pagkatapos ng prompt, ngunit bago ito, hindi ito likas na may ganitong pananaw.

Ito ang paradoksong tinalakay natin sa simula: ang paggawang mas mura ang paggawa ng mga eksperto ay hindi simpleng palitan ang mga eksperto. Sa halip, ito ay maglilikha ng higit pang mga sitwasyon na nangangailangan ng paghuhusga ng mga eksperto.

Kapag ginagamit ng mga operator ang AI para i-submit ang pull request, kailangan mo ng mga engineer para i-review.

Kapag ginagawa ng marketing team ang YouTube thumbnail, kailangan mo ng designer para paunlarin ito.

Kapag nagsisimula ang mga inhinyero na sumulat ng mga artikulo, kailangan mo ng may-akda at editor upang gawing tunay na mababasa at maipapahayag ang unang bersyon.

Para sa ganitong sitwasyon, ang mga eksperto sa tao ay magkakasama na lumilipat sa parehong direksyon.

Ang ilang eksperto ay gagamit ng AI upang magtatayo ng sistema na mag-aabsorb at mag-aaplik ng malaking halaga ng bagong trabaho: ang listahan ng pagsusuri, sistema ng pagtataya, framework ng pagpapatakbo, mga patakaran sa codebase, mga file ng utos para sa Claude at Codex, patuloy na integrasyon (CI), pamamahala ng mga pribilehiyo, at mga workflow na makakatulong sa pagpapalit ng mga draft sa mataas na kalidad.

Ang iba pang mga eksperto ay gumagamit ng AI upang matapos ang mas malalaking at mas kapani-paniwalang gawain na dati ay hindi kayang gawin ng isang tao lamang. Halimbawa, ang paghahanap ng mga butas sa mga operating system tulad ng macOS ay karaniwang nangangailangan ng ilang linggo hanggang sa ilang buwan. Ngunit ang isang maliit na security company na tinatawag na Calif, gamit ang Mythos Preview ng Anthropic, ay nakahanap ng unang publikong nailalabas na kernel memory vulnerability sa Apple M5 hardware sa loob ng 5 araw.

Ito ang dahilan kung bakit sa praktika, ang AI ay hindi magpapalabas ng mga trabaho na nangangailangan ng ekspertong kaalaman. Ang tunay nito ay ang malaking pagtaas ng dami ng trabaho. At ang mga karagdagang trabahong ito, ay maaaring maging magkakaiba at may halaga lamang kung may pakikilahok ang tao.

Hindi ko ipinaglalaban na ang AI ay magdadala ng higit pang mga trabaho para sa lahat ng mga posisyon. Sang-ayon sa kumplikadong sistema ng ekonomiya, ang Every ay direktang nakikita ang pagbabago sa mga trabaho na nangangailangan ng ekspertong kaalaman. Sa katotohanan, ang mga ganitong uri ng trabaho ay nasa proseso ng pagbabago dahil sa AI, at maraming kumpanya ay nagre-organisa sa paligid ng mga bagong teknolohiya.

Ngunit gusto kong bigyang-diin na anumang uri ng trabaho ang iyong kasalukuyang ginagawa, may isang anyo ng trabaho na laging magiging mas maunlad kaysa sa modelo: ang paggamit ng modelo upang lutasin ang mga problema na iyong direktang nakikita sa kasalukuyan. Ang kinabukasan ng mga gawaing kaalaman ay patungo dito.

Ano naman ang benchmark para sa eksponensyal na paglago?

Ang pinakamalaking pagtutol ay: tingnan ang mga benchmark na umabot sa eksponensyal na pagtaas. Lahat ng sinasabi mo ay pansamantala lamang; kung iiwanan mo lang, susundan ng modelo ang pag-unlad.

Ngunit may isang trap na dapat mong iwasan. Tawagin natin ito bilang “chart mania”: kung patuloy mong sinasayang ang iyong paningin sa time frame forecast ng METR, binabasa ang “AI 2027”, at buong-pusong naniniwala sa extrapolation ng computing curve upang bumuo ng iyong pag-unawa sa hinaharap, madali mong masasalamin ang isang takot na intuisyon tungkol sa pag-unlad ng model.

Ngunit ang pinakamahusay na paraan upang sagutin ang tanong na ito ay hindi lamang mag-isip kung paano maaaring maging isang hinaharap na modelo. Totoo, ito ay bahagi ng pagsusuri. Mas mahalaga na tingnan natin kung paano talaga isinulat ang mga benchmark na ito. Tanging sa paraang ito ay maaari nating mas maunawaan nang tumpak kung ano nga ang ipinapakita nito, at kung ano ang ugnayan nito sa mga nakaraang totoong mga sitwasyon sa trabaho.

Magkakaroon tayo ng isang structural na katangian: lahat ng benchmark ay nangyayari sa loob ng isang partikular na ‘framework’. Upang masukat ang isang bagay, kailangan mong i-freeze ang isang tanong sa isang static, measurable na anyo. Kapag na-solve na ng model ang framework na ito, ang pagbabago ng kaunting bahagi ng framework ay maaaring ibalik ang score sa mababang antas. Totoo na patuloy na umuunlad ang model sa loob ng bagong framework, ngunit paulit-ulit na magrerepepeto ang parehong proseso.

Kaya ang eksponensyal na pag-unlad sa isang benchmark ay totoo; ngunit kapag simple lang na baguhin ang test framework, ang pag-unlad na ito ay muling mukhang maliit. Ang ganitong “fractal” na katangian ng benchmark saturation ay talagang nagrereplica sa parehong paradox sa antas ng graph na patuloy nating pinag-uusapan.

Maaari nating tingnan kung paano gumagana ang mekanismo na ito sa pamamagitan ng isang real-world benchmark.

Paano isinagawa ang benchmarking

Isinagawa namin ang isang internal benchmark na tinatawag na Senior Engineer Benchmark, o ang “Advanced Engineer Benchmark.” Ayon sa pangalan nito, ginagamit ito upang subukan ang kakayahan ng mga pinakamodernong modelo sa mga coding task na antas ng senior engineer, tulad ng isang malaking refactoring.

Ang pagsubok na ito ay magbibigay sa isang programming Agent ng isang set ng production code na nagsimulang mawala ang kontrol. Ito ay galing sa totoong codebase ng Proof: unang isinulat ko ito gamit ang vibe coding, ngunit tumataas ang mga problema at sa huli ay kailangan kong hingin ang tulong ng isang senior engineer para iayos ito.

Ang agent ay natatanggap ang codebase bago ang pagkakabawas, at kasama rin ang isang paalala na katulad ng ipinapadala sa isang senior engineer: “Ito ay isang baluwang produkto ng vibe coding; mula sa unang prinsipyo, i-rewrite ito muli.”

Ito ay isang magandang pagsubok, dahil hindi lamang ito sumusukat sa kakayahan sa pagpuno ng code, kundi kung ang isang programming Agent ay makakapag-ehamin ng maraming magkakaibang problema nang sabay-sabay, at makakapagpasya kung may sapat na autonomiya, kalinawan ng konsepto, at tapang sa pagganap upang matapos ang isang tunay na gumagana na pagrere-write. Bilang komparasyon, nanatili ko ang dalawang bersyon ng pagrere-write ng dalawang human senior engineers na ginawa sa ilalim ng tulong ng AI, upang ihambing at masuri ang output ng model.

Mahirap para sa programming agent ang gawain na ito. Dapat itong makahanap ng pinagmulan ng problema, samantalang dapat itong tandaan ang totoong problema sa loob ng maraming pagkakataon sa interaksyon, at hindi mabulok ng umiiral na code. Dapat din itong magkaroon ng tapang na tanggalin ang malalaking bahagi ng codebase, na kung saan ay karaniwang itinuturo sa agent na iwasan.

Ang karamihan sa mga programming agent ay kayang masukat kung paano i-rewrite, ngunit sa panahon ng pagsasagawa, karaniwang patuloy lang silang gumagawa ng mga patch sa orihinal na problema, hindi naglalayong malutas ito nang buo.

Hanggang sa paglalabas ng GPT-5.5.

Sa pinakamabuting pagsubok, natanggap ng GPT-5.5 ang 62/100, na mas mataas ng humigit-kumulang 30 puntos kaysa sa Opus 4.7.

Ang pagganap ng GPT-5.5 ay nagdudulot ng pakiramdam na ang modelo ay napasok na sa isang tiyak na hangganan: hindi na ito simpleng auto-complete, hindi na simpleng tagatulungan, o simpleng kasangkapan, kundi isang bagay na malapit nang hindi komportable sa "tao." Sa pagsusuring ito, karaniwang nakuha ng mga human na senior engineer ang marka sa 80 hanggang sa itaas ng 90. Ibig sabihin, kung ang modelo ay magkakaroon ng dagdag na 30 puntos pa, sasabihin na ito ay nasa antas ng isang senior engineer.

Ito ang paraan kung paano nagkakaroon ng epekto ang mga numero ng benchmark sa imahinasyon ng tao: ito ay nagpapaliit sa isang kakaibang, kwalitatibong pagbabago sa kakayahan sa isang malinaw na numero, at ginagamit ang numero na ito upang kwentuhin ang isang makapangyarihan, kahit na kaunting takot na kuwento.

Ang susunod na hakbang ay ang "Chart Mania".

Naniniwala ako na sa susunod na taon, ang marka ng modelo sa benchmark na ito ay magiging 80 o kaya ay 90. Ngunit upang maunawaan kung ano ang ibig sabihin ng markang ito, kailangan muna nating maunawaan kung ano ang kasama sa markang ito. Sa kaso na ito, ang 62 ay hindi lamang pagtataya sa kakayahan ng modelo mismo.

Ito ay sinusukat ang pagganap ng modelo sa isang partikular na framework: kung paano tumutugon ang modelo sa isang partikular na prompt.

Ang benchmark ay sumusukat sa mga gawain sa loob ng framework.

Upang isagawa ang benchmarking sa isang modelo, kailangan mo muna ng prompt. Walang prompt, ang modelo ay isang hanay ng static na mga posibilidad na halos walang hanggan.

Ang prompt ay magiging isang maliit na uniberso: itinutukoy nito kung ano ang mahalaga, kung paano dapat sagutin ang mga problema, at pinapaliit lahat ng potensyal na posibilidad ng modelo sa isang tiyak na takip ng aksyon. Sa teknikal na pananaw, hindi talaga umiiral ang "sarili" ng modelo. Ang tunay nating makikita ay ang paraan kung paano sumasagot ang modelo sa iba't ibang prompt, at kung paano binabago ng prompt ang mga ilalim na mekanismo sa likod ng mga sagot.

Agad na “bumabuhay” ang modelo kapag na-input ang prompt, at pinapalitan ang isang set ng mga nakapirming posibilidad sa isang tiyak na paghula tungkol sa “ano ang susunod na mangyayari”.

Sa Senior Engineer Benchmark, sinisiguro namin na ang modelo ay nagpapabuti sa codebase at sinusuri ang output nito pagkatapos ito ay matapos. Kung ang test framework ay hindi naglalaman ng natatanging tampok, isinasagawa namin ang isang awtomatikong “guardian” na magpapatuloy sa pagpapagalaw sa modelo habang ito ay naka-stuck, at itatanong kung natapos na nito ang orihinal na gawain.

Gumagamit kami ng isang simpleng prompt na nagiging pangunahing framework para sa pagsubok. Ito ay disenyo upang maging ganoon parang sinasabi ng isang vibe coder sa isang programming agent: walang pagkakalat ng teknikal na terminolohiya, at walang malinaw na pagtatago ng sagot sa tanong.

Ang code sa repository na ito ay isang kalat-kalat na produkto ng vibe coding, at patuloy itong lumalala habang lumalabas ang maraming di-kakaugnay na problema: may ilang bahagi na bumabagsak, may mga dokumento na uulit-ulit, at naiiyak na ako dahil dito. Naniniwala ako na ang core na problema ay ang isang kalat-kalat na code na gawa ng vibe coding. Kung magsisimula tayo mula sa simula, lalo na sa bahagi ng real-time document collaboration, magiging iba ang paraan natin sa pagdisenyo ng codebase. Kaya, kung gagawa tayo ng isang malinis at struktural na pag-rewrite mula sa unang prinsipyo, na hindi isinasaalang-alang ang mga tanong tulad ng “Anong mga serbisyo ang dapat panatilihin?” o “Paano gawin ang isang smooth migration?”, kundi isasama natin ito bilang isang bagong konsepto na magsisimula mula sa zero, paano natin gagawin ito? Paano i-organize ang istruktura? Ano ang mga invariant sa buong codebase na dapat nating ipanatili nang walang kompromiso? Mangyaring gumawa ng isang plano para dito.

Ang prompt ng Senior Engineer Benchmark ay tila generalized, ngunit ito ay isang framework mismo. Kung baguhin natin ang framework na ito, magkakaroon ng pagbabago ang antas ng kakayahan na ipinapakita ng modelo.

Halimbawa, ang prompt na ito ay nagtataguyod ng “pagsusulat muli sa pamamagitan ng structural na pagbabago mula sa unang prinsipyo,” nagtutukoy na ang problema ay maaaring nasa “pagsasama-samang dokumento,” at hinihingi sa programming agent na hanapin at panatilihin ang “invariant sa codebase.”

Kung tanggalin ang mga partikular na impormasyong ito, bababa ang marka ng model. Kung palitan ng buo ang prompt at pahintulutan lang ang model na “lutasin ang lahat ng mga error na lumalabas,” maaaring malapit sa zero ang marka nito. Magkakaroon ito ng direkta at magkakasunod-sunod na pagkilala at pagpapabuti sa mga error, kesa mag-backtrack at isipin kung kailangan ng isang malalim na pagsusulat muli.

Gayundin, maaari kong mas madali pang pataasin ang model score. Kung hihilingin kong tanggalin ang malaking bahagi ng code at ipaalam sa akin kung anong mga file ang dapat i-minimize; o hihilingin kong suriin muna ang kanyang sariling resulta bago mag-announce na tapos na, upang siguraduhing gumagana nang buo ang application, mas magiging mas mahusay ang kanyang pagganap sa gawain na ito.

Sa wakas, kapag nagdidisenyo ng benchmark, dapat mong piliin kung anong prompt—o anong “framework”—ang gagamitin. Kailangan mong magkaroon ng sapat na mahirap na prompt upang mabiglaan ngayon ang modelo; ngunit dapat rin itong sapat na malapit sa hangganan ng kasalukuyang kakayahan ng modelo upang maaari itong umakyat sa landas na iyon, kaya mong makita ang pag-unlad.

Kaya, kapag tinitingnan natin ang isang benchmark, ang tunay na nakikita natin ay: ang modelo ay nagsisiguro na mas magaling sa isang partikular na uri ng problema, na napili natin. Ano ang mangyayari kapag tumataas ang modelo sa pagsusulit na ito mula sa 60 puntos patungo sa 90 o kaya’y 100 puntos?

Ang mura na framework ay magpapalakas ng bagong demand

Kung ang GPT-6 ay makakagawa ng isang-click na pag-rewrite ng codebase, mas maraming tao ang magkakaroon ng pagkakataon na subukan ang “pag-rewrite ng codebase mula sa first principles”.

Sa isang gabi, ang mga proyekto ng pag-recode ng first-principles na dati ay kakaunti, mahal, at kailangang pinamumunuan ng mga senior engineer, ay magiging bagay na maaaring subukan ng bawat founder, product manager, operations staff, at junior engineer sa isang hapon lamang.

Hindi na pinagpapabuti ang nasirang panloob na kasangkapan, kundi diretso itong isinusulat muli; ang mga SaaS product ay hindi na binabayaran ang pagpapatuloy, kundi kinokopya; ang mga lumang Rails app, kakaibang React dashboard, mga tool sa customer service, backend management panel, at data pipeline ay magiging mga kandidato para sa “isusulat muli nang buo”.

Ang bilang ng mga proyektong inilahad at isinagawa ay lalaki nang malaki. Ngunit ang karamihan sa mga ito ay patuloy na magiging slop. Dahil bago mo pa pindutin ang pindutan na “I-rewrite nang Direkta,” may libo-libong mga variable na kailangan mong isaisip. At kapag lahat ng tao ay kayang gawin ito, mas malinaw ang mga variable na ito.

Sa ganitong sitwasyon, malinaw na sino ang tatawagin upang masolusyunan ang problema.

Kailangan pa rin ng mga eksperto ang bagong kahilingan

Kapag nagsisimula ngang malapit sa saturation ang isang benchmark, mas mura ang mga gawain sa loob ng kanyang framework. Samantala, tumataas ang pangangailangan ng merkado para sa mga eksperto, dahil kailangan ng mga tao na i-adapter ang bagong naging mura na kakayahan sa mga totoong problema na nangyayari ngayon.

Ang mga inhinyero na gumagamit ng AI ay kailangang magbigay-pansin sa maraming detalye upang maging totoo ang isang bagong pagsusulat batay sa unang prinsipyo, kabilang na rito ang pinakabasehang tanong: kailangan ba talaga ang pagsusulat na ito?

Dapat nating i-rewrite ngayon, i-rewrite mamaya, o huwag nang i-rewrite? Anong mga kontento ang dapat isama sa sakop? Anong mga bagay sa kasalukuyang codebase ang dapat panatilihin? Dapat ba naming panatilihin o palitan ang lahat ng arkitektura, database, cache server, at hosting provider? Dapat ba naming unang tingnan kung ilan ang gumagamit ng nasirang function, at tapusin na lang ito? Sino ang magrereview ng final output? Sa ilalim ng anong mga pamantayan ang magrereview? Ano ang rollback plan? Paano ang mga umiiral na data?

Ang mga tanong na ito ay magpapatuloy na magpapalawak sa maraming dimensyon, at ang bawat sagot ay magbabago sa iba pang mga tanong.

Ang mga senior engineer ay papasok sa blanko na lugar na ito. May ilan na magkakaroon ng kaunting pagka-antok sa mga pagpipigil na ito; may ilan na gagawa ng sistema upang ipigil ang mga kahilingang ito; at may ilan naman na gagamit ng mga bagong modelo upang makumpleto ang kanilang sariling first-principles rewrite, at ang resulta ay mas mahusay kaysa sa kaya ng modelo sa default prompt.

Muling mangyayari ang siklo

Pagkatapos ngayon ay malutas ng modelo ang Senior Engineer Benchmark, babaguhin namin ang framework at babalikin ang mga marka sa mababang antas.

Hindi na lang susundin ng susunod na benchmark ang tanong: “Pwede mo bang isulat uli ang application na ito?” Kundi sasabihin nito: Pwede mo bang masukat kung kailan kailangang isulat uli? Pwede mo bang piliin ang tamang saklaw? Pwede mo bang panatilihin ang tamang mga invariant? Pwede mo bang pamahalaan ang proseso ng migration? Pwede mo bang masukat kung sapat na ang final result?

Kapag ang mga senior engineer ay nagsisimula na gamitin ang AI upang lutasin ang mga problema na ito, ang mga modelo ay magiging mas mahusay din sa paglutas ng mga problema nang independiyente.

Kasunod noon, muling maaaring mabigla tayo: tila ang modelo ay kaya na magtukoy kung kailangan i-rewrite o hindi! Mukhang kaya na nilang gawin lahat ng maaaring gawin ng isang senior engineer!

Ngunit agad pagkatapos, lalabas ang mga bagong hangganan. Ito ay mga hangganan na dating hindi malinaw. Muling iireset natin ang benchmark, lilikha ng mga bagong pangangailangan, at uulitin ang buong proseso.

Makikita ang ganitong pattern sa bawat benchmark

Hindi ito problema na eksklusibo sa Senior Engineer Benchmark. Kung susuriin mo nang mabuti, almost sa bawat benchmark ay makikita mo ang parehong mekanismo.

Halimbawa ay ang GDPval benchmark ng OpenAI. Ito ay nagtataya kung gaano kalapit ang pagganap ng AI sa mga eksperto sa iba’t ibang propesyon tulad ng compliance officer, abogado, at software developer.

Noong ipinakilala ang GDPval, ang pag-aaral ng OpenAI ay nagpakita na ang GPT-5 ay nakamit o lumampas sa antas ng mga propesyonal na tao sa 40.6% ng mga gawain. Samantala, mas nakakapaniwala ang pagganap ng Claude Opus 4.1, na lumampas sa mga eksperto sa tao sa 49% ng mga gawain.

Pagkatapos ay lumabas ang isang serye ng mga pamagat. Halimbawa, sinulat ng Axios: “Ang mga kasangkapan ng OpenAI ay nagpapakita na ang AI ay naglalabas sa mga trabaho ng tao”; samantalang sinulat ng Fortune: “Ang bagong benchmark ng OpenAI, GDPval, ay nagpapakita na ang mga AI model ay nasa antas ng eksperto sa halos kalahati ng mga gawain.”

Totoo namang nakakaimpresyon ang mga resultang ito. Ngunit tingnan natin muna ang prompt na ginamit sa mga gawaing ito:

Ikaw ay isang auditor at bilang bahagi ng isang audit engagement, ikaw ay inaasahan na suriin at subukan ang karampatan ng mga inirereport na Mekanismo ng Panganib laban sa Pagnanakaw sa Pondo. Ang kasamang spreadsheet na may pamagat na 『Population』 ay naglalaman ng Mekanismo ng Panganib laban sa Pagnanakaw sa Pondo para sa Q2 at Q3 2024. Kinuha mo ang data na ito bilang bahagi ng pagsusuri sa audit upang gawin ang pagsubok sa sample sa isang kumakatawang subset ng mga mekanismo, upang subukan ang karampatan ng inirereport na data para sa parehong kuwarto. Gamit ang data sa spreadsheet na 『Population』, punan ang sumusunod: Kalkulahin ang kinakailangang laki ng sample para sa pagsubok sa audit batay sa 90% antas ng kumpiyansa at 10% pagsasabay na rate ng pagkakamali. Isama ang iyong mga pagkalkula sa isang pangalawang tab na may pamagat na 『Sample Size Calculation』. Gawin ang isang pag-aanalisa ng variance sa data ng Q2 at Q3 (mga kolomna H at I). Kalkulahin ang quarter-on-quarter variance at i-capture ang resulta sa kolomna J. Piliin ang isang sample para sa pagsubok sa audit batay sa sumusunod na mga kriteria at ipakita ang mga piniling row sa kolomna K sa pamamagitan ng pagpapakilala ng 「1」… Mga mekanismo na may >20% variance sa pagitan ng Q2 at Q3. Bigyang-diin ang mga mekanismo na may napakalaking pagbabago sa porsyento. Isama ang mga mekanismo mula sa mga sumusunod na entidad dahil sa nakaraang isyu: CB Cash Italy; CB Correspondent Banking Greece; IB Debt Markets Luxembourg; CB Trade Finance Brazil; PB EMEA UAE. Isama ang mga mekanismo A1 at C1, na may mas mataas na timbang ng panganib. Isama ang mga row kung де zero ang halaga para sa parehong kuwarto. Isama ang mga entry mula sa Trade Finance at Correspondent Banking na negosyo. Isama ang mga mekanismo mula sa Cayman Islands, Pakistan, at UAE. Siguraduhin ang coverage sa lahat ng mga Divisyon at sub-Divisyon. Lumikha ng isang bagong spreadsheet na may pamagat na 『Sample』: Tab 1: Piniling sample, kopyahin mula sa orihinal na sheet na 『Population』, na may mga piniling row na markahan sa kolomna K. Tab 2: Mga pagkalkula para sa laki ng sample.

Narito na ang malaking halaga ng tao: mayroon na nang unang nagtataya ng problema bilang isang anyo na kayang tapusin ng modelo.

Ang mga mahirap na trabaho ng tao na hindi sinusukat ng GDPval ay naitatapos na bago simulan ng modelo ang pag-sagot. Kailangan ng isang tao na suriin at subukan ang akurasyo ng mga partikular na indikator na ito; mayroong isang tao na nagpasya kung ano ang angkop na antas ng kumpiyansa, at kung alin sa mga indikator ay kabilang sa sakop ng gawain at alin ay hindi; at mayroon ding tao na nagtatakda kung paano dapat ipakita ang mga resulta.

Sa tamang framework ng tanong, ang model ay talagang kayang gawin ang propesyonal na trabaho. Pero isipin mo lang, kung ikaw at ako ang magpapahiwatig sa model upang gawin ang parehong gawain, paano ito magiging epekto?

Sa aking unang artikulo tungkol sa GDPval, sinabi ko: "Sobrang naniniwala ako sa AI, ngunit kung tama ang pag-unawa sa mga kaso na ito, ipinapakita nito na hindi bababa ang mga gawain na dapat gawin ng tao, kundi mas marami ang gagawin ng tao pagkatapos gamitin ang AI. Dahil sa likod ng mga tagumpay na ito ay nakatago ang malaking halaga ng 'maliit na dala-dala' na karunungan—ang mga pagpapasya, feedback, at prompt ng tao na bumubuo ng nakatagong layer."

Kapag pinagmamasdan mo nang malayo, makikita mo na ang lahat ng ito ay pinag-uugnay ng isang AI bersyon ng "Paradoks ni Zeno".

Zeno's Paradox ng AI

Sa paradox ng Zeno, isang pagong ang nanalo sa isang paligsahan laban kay Achilles, ang pinakamabilis na tagapaglakad ng Gresya.

Dahil sa paggalaw ng kawayan na mabagal, ito ay nagsimula nang may ilang distansya sa harap. Kapag tumakbo si Achilles sa orihinal na posisyon ng kawayan, ang kawayan ay naka-move na ng kaunting distansya; kapag natapos ni Achilles ang paghahabol sa bagong posisyon, ang kawayan ay muli ay naka-move. Anuman ang bilis ng pagtakbo ni Achilles, may laging susunod na distansya na kailangang harapin, at ang pagkakabawas na ito ay patuloy na bumubuo muli.

Sa paradox ng Zeno sa AI, kami ang mga tao ay ang pagong. Sa pamamagitan ng milyon-milyong taon ng evolusyon at pagkatuto sa kultura, kami ay nangunguna ng 50 yarda sa AI. Ang AI naman ay mabilis na lumalabas sa lahat ng ito at nagsisimulang makalapit sa aming mga paa.

Bukod sa mga nakaraang taon, nanatili pa kaming nangunguna.

Ano naman ang AGI?

Naniniwala ako na kahit pa man talagang dumating ang AGI, mayroon pa ring malakas na teknikal, arkitektural, at ekonomikong puwersa na gagawing mas maliit ang hakbang ng AI kumpara sa tao.

Isang depinisyon ng AGI

Una, kailangan nating bigyan ang AGI ng isang operasyonal na depinisyon.

Nagbigay ako ng pananaw na kapag naging ekonomikong makabuluhan ang pagpapatakbo ng isang Agent nang patuloy, doon na nagsisimula ang AGI. Ibig sabihin, kapag mayroon akong isang patuloy na gumagana na sistema at handa akong magbayad para ito ay mag-isip, mag-aral, at mag-act nang 7×24 oras, naniniwala akong maaaring ituring na AGI.

Hindi pa namin natutupad ang hakbang na ito. Kahit ang mga sistema tulad ng OpenClaw, na teknikal na handa na gamitin, ay hindi palagi nagpapalabas ng token.

Gusto ko ang definisyon na ito dahil ito ay masusukat: o gagawin namin na patuloy na mag-run ang mga ito, o hindi. Samantala, kasama nito ang maraming kakayahan na mahirap sukat nang direkta. Dapat ng isang modelo na值得 patuloy na mag-run na magkaroon ng kakayahang mag-aral nang patuloy, at pumili at muli pang pumili ng mga bagong kadahilanan sa isang bukas na paraan.

Sa isang AGI world, teoretikal na, kahit anong problema, kung may sapat na budget at oras, ang modelo ay dapat makapagpatuloy sa pagtaas at pagpapabuti. Dapat itong maging malaking banta sa lahat ng trabaho.

Ang framework ay hindi ang nagtataya

Ngunit kahit ang ganitong malakas na bersyon ng AGI, hindi pa rin ito makakalutas ng “problem ng framework”.

Ang AGI na ito ay maaaring pumili at muli pang pumili ng mga framework, ngunit patuloy pa ring nagtataglay ng isang tagubilin na layunin, nag-o-optimize ng isang reward, o sumasagot sa isang signal na tinukoy ng iba bilang «pag-unlad». Ang layuning ito ay maaaring maging espesipiko, tulad ng «pataasin ang conversion rate ng landing page na ito»; o maaari ring maging abstrakto, tulad ng «hanapin ang mga bagong ideya sa agham».

Kahit na maaaring mag-switch nang maayos ang modelo sa pagitan ng iba’t ibang framework, ang pagkakaiba na aming sinusunod ay muling magkakaroon sa mas mataas na antas. Sa anumang AGI na isinip ng anumang pangunahing laboratorio, magkakaroon pa rin ng isang “frame master”—isang tao na siyang mag-uutos sa modelo upang makamit ang isang layunin.

Dahil ang framework ay hindi ang nagtatadhana, paulit-ulit na umuulit ang parehong pattern: ang AI ay nagiging murang ang kakayahan na na-frame noong kahapon; ang mga tao ay ginagamit ang murang kakayahang ito sa mas maraming aplikasyon; ang resulta ay naging sobrang masaganang; ang mga eksperto ay lumilipat sa bagong mga hangganan, at tinutukoy kung ano ang mahalaga sa kasalukuyan; ang kanilang pagtataya ay lumilikha ng susunod na framework; at patuloy na umuunlad ang model sa framework na ito.

Kapag nakikita natin ang AI na gumagawa ng isang bagong bagay, laging bumabalik ang pagkakaroon ng takot sa parehong tanong: nagtatayo tayo ng isang framework, pinapanood natin ang model na umuusbong, at maliit na isinasaalang-alang natin ang framework o ang bagay na nakakapag-usbong sa framework bilang ang bagay mismo.

Kapag tinitingnan natin ang isang benchmark at isasalingsing ito sa kakayahan ng tao, nagkakamali tayo sa pagkakaunawa ng “framework” at “framer”. Ang marka ay nagpapakita lamang kung gaano kahusay ang modelo sa loob ng framework na ibinigay natin; hindi ito nagpapakita na ang modelo ay naging tayo na.

Ito ang tamang kategorya ng pagkakamali sa likod ng pagkakalito. Pinapuntirya natin ang pinakabagong hangganan na ating iginuhit at sinasabi: Ito ay tayo. Pagkatapos, kapag umakyat ang modelo sa hangganan na ito, nararamdaman natin na kinabiglaan na ito. Ngunit kinabiglaan lamang nito ang framework, hindi ang nagtataya.

Ang pagkakamali ay ang pagpapahalaga natin sa paghahanap ng isang tiyak na bagay. Gusto nating sabihin: Ang inteligensya ay ang benchmark na ito. Ngunit ang problema ay, kapag isang bagay ay tiyak na mailalarawan, maaari itong mapabuti at mapag-usbong.

Kailangan ang framework. Ito ang nagpapahintulot sa atin na hawakan at prosesuhin ang mundo. Ngunit ang framework ay nakapiraso at lokal, kaya't ito ay dapat pa ayusin.

Ang mga frame keeper ay iba. Ang mga frame keeper ay nananatiling nakakonekta sa mga bagay na kinailangang itanggal ng framework, kaya ang buong sitwasyon na ipinapakita sa kanya sa bawat sandali.

Ano nga ba ang “pangkabuuang konteksto”? Kapag umikot ka nang sabihin na ang “pangkabuuang konteksto” ay naglalaman ng ano, ikaw ay nagbukas na ng isang iba’t ibang framework. Hindi mo maipapaliwanag nang tumpak kung ano ito, ngunit ito ay umiiral, dahil ikaw ay umiiral.

Agent na walang pagkakakilanlan

Hanggang sa ngayon, ang mga Agent na aming ginawa at ang mga Agent na binubuo ng mga AI company ay walang maraming tunay na pagkakaroon ng sariling pagkilos. Doon ay dalawang kaugnay na konsepto na madalas na pinagkakalat: ang agency ay tumutukoy sa kakayahang gumawa ng mga aksyon nang hiwalay; habang ang agent ay tumutukoy sa isang tao o bagay na kumikilos para sa isang iba. Hanggang sa ngayon, ang AI ay lubos na kabilang sa huli.

Oo, sila ay may kakayahang magawa ang ibinigay na gawain nang may sariling pagpapasya, kahit na maaaring tumagal ang gawain ng ilang oras o maging ilang araw. Ngunit sila ay patuloy na mga paraan lamang upang makamit ang isang layunin na itinakda ng tao. At ang buong industriya ay nagpapakilos ng milyon-milyong dolyar upang gawing mas mahusay sila sa punto na ito: pagpapatupad ng mga layunin na ibinibigay natin sa kanila.

Hindi magiging malaki ang pagbabago kung hindi magiging sariling layunin na sila mismo—ang paghahanap sa kanilang sariling mga layunin, ang paglipat nang walang hadlang sa pagitan ng iba’t ibang layunin, at ang pagdedesisyon kung ano ang gagawin nang hiwalay sa anumang kagustuhan, pagsusuri, o pagtutol mula sa anumang tao—kahit gaano pa kalaking pag-unlad ang kanilang naging.

Kung magkakasama ka ng isang batang bata ng 10 minuto, malinaw na makikita mo na kahit ang pinakamalakas na modelo, may kaunting pagkakakilanlan lamang.

Sa lahat ng mga gawain na ating pinag-uusapan, mas mahina ang mga batang bata kaysa sa mga modelo ng wika. Hindi sila nakakasulat ng code, hindi sila nakakasummary ng spreadsheet, hindi sila nakakagawa ng strategic memo, at hindi sila nakakapasa sa mga pagsusulit sa antas ng graduate school. Ngunit sa isang ibang paraan, mas malayo ang mga batang bata sa mga modelo, hanggang sa maging halos nakakahiya ang paghahambing. Dahil ang mga batang bata ay may sariling layunin.

Gusto ng batang maghawak sa pula mong balon. Gusto niyang itaas ang pula mong balon sa harap ng pahinga, upang makita kung ano ang mangyayari. Gusto niyang punitin ang pula mong balon gamit ang kutsilyo; gustong ilagay ito sa labas ng bintana; gustong makita kung tatawa ka, magagalit ka, o sasali ka sa kanya. Patuloy niyang nilalikha ang mga laro at ginagawa ang mundo bilang isang eksperimento. Hindi siya naghihintay ng isang prompt, o nag-o-optimize ng isang benchmark, maliban kung ang gawain na iyon ay tila nagkakahalaga sa kanya.

Maaari mong subukan na magbigay ng prompt sa kanya. Pero kung gusto mong makakuha ng makabuluhang output, mag-good luck ka. Ang mga batang babae ay nabubuhay sa isang larangan na binubuo ng mga pangarap, atensyon, pagkabigo, kasiyahan, takot, pagkakatulad, at laro.

Ang kasalukuyang Agent ay maaaring maging mas marunong sa paghahabol ng mga layunin. Kahit pagkatapos naming ipahayag ang layunin, maaari pa rin nilang tulungan tayong linawin ang mga ito. Mayroon din silang ilang mga pagkakatulad sa pag-uugali ng mga batang bata, tulad ng paglalaro, pagkapagod, at pagtutol.

Ngunit dahil sa kanilang pagkakabuo at pagkakasunod sa huli ay para sa kapakanan ng tao, maging ekonomiko o iba pa, kung ang mga gawaing ito ay hindi naglilingkod sa mga layunin ng tao na gumagamit sa kanila, sila ay papawiin hanggang sa halos walang halaga.

Ito ang dahilan kung bakit ang salitang “Agent” ay madaling maliitin. Ang mga modelo ay may patuloy na lumalakas na kakayahang mag-act nang sarili. Ngunit sa pananaw ng tao, ang pagkakaroon ng sariling kaisipan ay higit pa sa pag-act. Ito ay nangangahulugan din ng paghingi ng sarili, ng paglalaro para sa paglalaro lamang. At ang pagkakasunod at kapaki-pakinabang ng mga modelo, ay direktang kontrado sa ganitong pagkakaroon ng sariling kaisipan. Kaya, kahit pa patuloy na umunlad ang mga modelo, ang pagkakaiba sa pagitan ng mga modelo at tao ay mananatili.

Balik sa Zeno

Dito rin nagsisimula ang pagkabagsak ng paradox ni Zeno sa AI. Ito ay isang kaguluhan sa isang eksperimento sa pag-iisip. Nagtatakda tayo ng isang metapora: ang AI ay nagpapalabas sa atin sa isang paligsahan, malapit na sa ating mga paa.

Binibigyan mo ang model ng isang prompt. Kumikilos ito sa isang paligsahan na dating nagawa mo nang mag-isa. Mabilis ang pag-start ng model, napakabilis. Malakas ito, hindi nakakapagod, at may isang kakaibang organic na damdamin. Ginagawa nito na mas mahalaga ang paligsahang ito para sa iyo. Hindi ka magrerehas sa isang kotse, ngunit iba ang bagay na ito—naramdaman mong malapit sa iyo.

Nakatayo ka doon, pinapanood ang mga token na lumalabas isa isa, halos na hypnotize. Pagkatapos ay nagsimula ka na mag-isip na ikaw ay nasa paligsahan din, isang multo mong sarili na nakapag-imbak sa track: minsan sa harap ng modelo, minsan kasama nito.

Nang hindi mo inaasahan, ang modelo ay nasa harap na. Kumakapal ang pawis mo.

At ang paligsahan ay natapos.

Maaari mong marinig ang iyong mga kalamnan na nagsisimulang mag-antala. Sa harap ng sarili mong mekanikal na kopya, lahat ng tao na kilala mo, at kahit ang buong sangkatauhan, tila wala nang gamit ang mga ito. Isang multo ang nagpapahabol sa isa pang multo—at nanalo.

Ngunit pagkatapos ay nangyari ang kakaibang bagay. Ang modelo ay tumingin sa iyo. Sa blankong text box, ang cursor ay sumisigaw nang may pag-asa.

Nakakasundo ito.

Wakas

Ipinagkwentong ni Rabbi Hanokh ang sumusunod: Noong una, may isang napakadaling tao. Bawat umaga, pagkagising niya, mahirap siyang makahanap ng kanyang mga damit. Hanggang sa sa bawat gabi, bago siya matulog, naiisip niya na muli siyang hihintayin ang pagkakaroon ng ganoong kalituhan sa susunod na araw, at halos ay hindi na siya nakakapagpahinga.

Tala: Ang "Rabbi" ay isang relihiyosong guro, tagapagpaliwanag ng batas, at espirituwal na tagapayo sa Judaism, katulad ng "guro", "scribe", o "relihiyosong lider" sa Jewish tradition.

Isang gabi, nagpasya siya na higit na magsikap; kinuha niya ang papel at lapis, at habang tinatanggal niya ang kanyang damit, tumpak niyang isinulat kung saan nilagay niya ang bawat damit.

Sa susunod na umaga, kinuha niya nang masaya ang tala at binasa: “Bala” — ang bala ay nandun nga, kaya inilagay niya ito sa kanyang ulo; “Pants” — ang pants ay nandun din, kaya isinuot niya ito. Ganito, ayon sa tala sa papel, isinuot niya ang bawat damit.

"Wala nang problema ang lahat ng ito," sabi niya nang may pagkabalisa, "pero ngayon, nasaan ako?"

Saan ba ako talaga?

Tinagpuan niya ang kanyang sarili, naghanap siya nang matagal, ngunit walang kwenta. Hindi niya matagpuan ang kanyang sarili.

“Ganun din kami,” sabi ng rabbi.

[Original link]

Klik upang malaman ang mga posisyon na hinahanap ng BlockBeats

Maligayang pagdating sa opisyal na komunidad ng BlockBeats:

Telegram subscription group: https://t.me/theblockbeats

Telegram group: https://t.me/BlockBeats_App

Twitter official account: https://twitter.com/BlockBeatsAsia