Pagkatapos ay kainin ng AI ang lahat, ano ang hindi matuturuan?

Panimula: Habang patuloy na umuunlad ang kakayahan ng AI, mayroong bagong pesimistiko na pagtataya sa mundo ng pag-invest: kung mas lalong magiging malakas ang mga modelo, ang lahat ng mga kumpanya ng aplikasyon ay hahawak sa mga modelo at layer ng computing tulad ng Anthropic, OpenAI, at Nvidia, at sa huli ay tatawag lamang ang mga unang modelo, computing, at kaunting infrastruktura. Ngunit naniniwala si Sarah Guo na ang pagtataya na ito ay tama lamang sa kalahati. Ang mga “thin wrapper” (mga simpleng balot ng modelo) ay talagang tatanggapin, at ang lahat ng mga gawain na maaaring masukat sa benchmark, ituro gamit ang publikong data, at i-verify sa mababang gastos ay magiging komodidad din.

Totoo bang problema: Ano pa ang hindi maaaring matutunan pagkatapos ng pagkain ng AI sa lahat ng maaaring matutunan?

Ang sagot sa tanong na ito ay ang mga halaga na umiiral sa loob ng tunay na mga organisasyon at hindi madaling kopyahin mula sa labas: pribadong data ng kumpanya, kompleks na mga proseso ng trabaho, tiwala ng mga user, mga pagsasagawa ng sistema, pagpapasya sa industriya, responsibilidad sa pagpapatupad ng batas, at karanasan na nakalap sa mahabang panahon ng pagpapatakbo. Maaaring maging mas matalino ang mga modelo, ngunit hindi sila makakapasok nang awtomatiko sa produksyon na sistema ng bangko; maaari silang magbuo ng mga sagot sa medisina, ngunit hindi sila makakakuha nang direkta ng tiwala ng mga doktor at proseso ng pagpapasya sa ospital; maaari silang sumulat ng mga legal na dokumento, ngunit hindi sila makakatumbas ng responsibilidad ng mga karanasan na abogado, at hindi sila makakadefinir nang walang batayan kung ano ang sapat na legal na trabaho.

Kaya ang mga tunay na may malalim na "moat" sa hinaharap ay hindi lamang mas matalino kaysa sa mga pangkalahatang modelo, kundi kumikilos nang malalim sa loob ng isang industriya upang matapos ang mahirap ngunit mahalagang gawain ng "pagsasalin": pagpupulong ng mga pribadong realidad, kasangkapan, proseso, at pamantayan sa pagpapasya ng mga kliyente upang maging isang sistema na maaaring gawin ng modelo, at sa mahabang panahon ay paulit-ulit na isusulat ang depinisyon ng "ano ang mabuting resulta". Mas malakas ang AI, mas mababaw ang halaga ng mga gawain na maaaring sukatin at kopyahin; at mas lumalabas ang mga bagay na "hindi matututunan" na may kasaysayan, ugnayan, awtoridad, at propesyonal na pagpapasya. Ito ang tunay na halaga na maaaring manatili pagkatapos ng pagkain ng modelo.

Narito ang orihinal na teksto:

Sa gitna ng 2026, ang bersyon ng investor ng “AI insanity” ay isang pagkawala ng pag-asa na wala nang anumang值得 na i-invest: parang dapat nating ilagay lahat ng pera natin sa Anthropic at Nvidia, tapos umuwi na lang tayo para matulog. Pero hindi ako nagkaroon ng ganitong damdamin. Mula pa noong ilang maliit na bersyon na ang nakalipas, naniniwala ako na mas matalino na ang mga modelo kaysa sa akin; masaya akong bumili ng Anthropic at Nvidia sa market price; at ang aking mga pinakamatalinong kaibigan ay kumikinabang din na mabilis na magiging epektibo ang self-improvement ng mga modelo—ngunit hindi pa rin ako nagkaroon ng ganitong pagkawala ng pag-asa.

Hindi bulag ang pagkawala ng pag-asa na ito. Ang lohika nito ay ganito: kung patuloy na lumalakas ang modelo sa lahat ng bagay, ang lahat ng kompanya na nakabatay sa modelo ay naghihintay lamang na masakop ng modelo; ang tanging halaga na mananatili ay ang computing power at ang mga weight ng pinakamodernong modelo.

Halimbawa ng software, ito ang pinakamalaking kaso kung saan nakabatay ang ganitong damdamin ng pagkawala ng pag-asa. Noong ipinakilala ni Devin noong 2024, kaya lang niya lutasin ang 13% ng mga gawain sa mga standard software benchmark, kaya ito ay pinagbawalan ng merkado. Isang taon at kalahati pagkatapos, ang pinakamalakas na Agent ay nakakamit na ng higit sa 80% na marka at nagsisimula nang tratuhin ang totoong trabaho sa loob ng Goldman Sachs at US Army. Halos lahat ay nagsanay sa parehong maling konklusyon: ang modelong ito ay nagkain ng software engineering.

Ngunit pagkatapos ng modelong kumain ng pinakamadaling sukatin na bahagi ng software engineering, binabale-wala natin muli ang isang bagay na alam na ng maraming koponan: ang engineering ay palaging tumutol sa pagmamarka, at ang pinakamadaling sukatin na bahagi ay hindi naman talaga ang tanging mahalagang bahagi.

Si Mert Demirer ng MIT at kanyang mga kasamahan ay nakapag-quantify na ang bagay na ito: sa higit sa 100,000 na developer, ang pinakabagong henerasyon ng coding Agent ay nagdulot ng pagtaas ng halos 180% sa dami ng code na isinusulat, ngunit ang dami ng code na talagang ipinapadala at inilalathala ay tumataas lamang ng halos 30%. Mas mura na ang pagsusulat ng code, ngunit ang mga natitirang hakbang ay kailangan pa rin ng tao, at mahalaga ang mga hakbang na ito. Totoo naman na ang kabuuang net effect ay nakakatutok pa rin.

Ang benchmark ay isang bagay na maaari mong sukatin; at anumang maaaring sukatin, maaaring gamitin para sa pagtuturo. Kaya, ang mga coding agent ang unang naging matatag: ang compiler ay isang libreng validator, at ang test suite ay isang libreng validator din. Kapag ang sagot ay maaaring sariling i-check sa halos walang gastos, maaari mong patuloy na paunlarin ito batay sa signal ng pagsusuri hanggang sa masira ito.

Ngunit ang pagpasa sa pagsubok ay hindi nangangahulugan na ang pagbabagong ito ay tama para sa isang codebase na nagpapatakbo nang labing taon. Maaaring may tatlong dahilan na hindi isinulat sa dokumentasyon kung bakit umiiral ang module na iyon; maaaring ang deployment pipeline ay nakabatay sa isang cron job na walang gustong tanggapin bilang kanilang ginawa.

Hindi maaaring basahin ang katumpakan na ito mula sa leaderboard, o kahit saan pa sa totoo lang. Kailangan mong pagsikapan ang isang napakakomplikadong sistema sa totoong mundo nang sapat na tagal upang malaman kung ito ay talagang epektibo. At ang mas matalinong mga modelo ay hindi magpapabilis ng totoong mundo. Walang magbibigay ng ganap na tiwala sa isang sistema na ganoon kalaki tulad ng Google pagkatapos lang mag-run ng unit test at makita ang green check. Pinaniniwalaan mo ito dahil nakaranas na ito ng maraming taon ng totoong load.

Ang katumpakan na ito ay hindi lamang pribado, kundi isang mabagal na nabubuo na moog na hindi kayang ma-press ng kapital. Kahit ang mga optimista ay tinatanggap na ang orasan na ito ay hindi maaaring i-skip. Isinulat ni Noam Brown, ang tagapag-una ng OpenAI reasoning model, noong huling panahon: Ang tanging mapagkakatiwalaang paraan upang masukat ang pagganap ng isang Agent sa isang taong siklo ay ang pagsisimula nito sa totoong isang taon.

Tulad ng sinabi ni Gabe Pereyra, ang totoong automation ay hindi lamang ang pagiging mas malakas ng model. Ito ay ang pagbabago ng produkto, model, workflow, at organisasyon ng kumpanya nang sabay-sabay, at sa mga ito, tatlo ang umuunlad ayon sa bilis ng organisasyon.

Ang pagpapagalaw sa mga tao ay bahagi na hindi makakamit ng anumang benchmark: ang pagpapakumbinsi sa isang mapag-iiwanang kasosyo na baguhin ang kanyang paraan ng pagtrato sa mga bagay, at ang pagpapanatili ng pagkakaisa ng isang team sa panahon ng pagbabago. Ito ang dahilan kung bakit sa pagpili ng CEO, pinahahalagahan namin ang kanyang kakayahang tratuhin ang mga tao, hindi mas mababa kaysa sa kanyang kakayahang mag-analisa. Ang pagiging mas matalino ng mga modelo ay hindi magbabago sa timbang na ito.

Ang feedback dito ay ambiguo; ang panahon ay nasa yunit ng taon, samantalang ang tiwala ay may-ari ng isang partikular na tao. Ang bawat kumpanya na kilala ko ay nagbigay na ng mga pinakamodernong coding model sa bawat engineer, ngunit walang kumpanya ang nakapagbabago ng kanilang organisasyon sa engineering nang may bilis na katumbas ng pag-unlad ng model. Ang paggamit ng mga kasangkapan ay nanggagaling sa isang quarter lamang, at alinman ang kakaibang quarter na iyon ng paglago ng token! Ngunit ang tunay na pagpapabago ay nangangailangan ng ilang taon.

Ang mga trabaho na maaaring malinaw na makita ay umalis. Ang mga tunay na may halagang trabaho ay structurally hindi mababasa: anumang maaaring isama sa leaderboard ay maaaring gamitin para sa pagtuturo; kaya, anumang maaaring masukat, ay nasa proseso ng pagiging komodidad. Ang prosesong ito ay nangangailangan ng oras at hindi maiiwasang tapusin, ngunit ang direksyon ay hindi maiiwasang umuunlad.

Gamit ang mga salita ng aking kaibigan, si Matt MacInnis ng Rippling, ang pagsasalin nito sa wika ng pera ay: ang isang token na ginagamit lamang upang sagutin ang isang pangkalahatang tanong ay halos walang halaga, dahil ang anumang modelo ay makakasagot nito; ngunit ang isang token na nagpapasya batay sa iyong mga data ng kumpanya ay mas may halaga, dahil ito ang gumagawa ng mga bagay na talagang nais mo, hindi lamang ang pagbuo ng isang sagot na tila makatotohanan.

Ang readable na trabaho ay maaaring mawala sa dalawang direksyon.

Mula sa ilalim, ang mga gawain ay magiging saturated: kapag maaaring i-check ng mababa ang gawain, hindi na nagmamalaki ang buyer kung aling model ang nagawa ito, kundi nagsisimula na silang magtanong kung magkano ang presyo nito. Kaya, ang gawain ay magkakaroon sa pinakamura sa linggong open-source o distilled model. Habang ang margin ng kita ay maaaring magtrabaho, sa wakas ay magiging epekto nito.

Mula sa itaas, sinusubukan ng laboratorio na gawing kainin ng modelo ang sarili nitong scaffolding. Ang routing sa pagkuha, ang pagtawag na mura at mahal, ang paggamit ng mga kasangkapan, at kahit paano ang mga estratehiya sa pag-iisip—lahat ng mga aparato na dating nakapalibot sa labas ng modelo—ay tinatanggal at isinasama sa loob ng weights ng modelo, hanggang sa maging modelo mismo ang “balat” nito. Ito ang absorption boundary.

Ang presyur sa kita ay maaari ring magtrabaho mula sa ibang direksyon: kailangan ng isang pangkalahatang Agent na handa sa anumang bagay nang patuloy, kaya't mataas ang gastos; samantalang ang isang nakafokus na aplikasyon ay maaaring i-optimize ang isang workflow nang lubos, upang ito ay mag消耗 lamang ng kaunting bahagi ng token. At, sa halip na magbenta ng mga token na ito ng mga laboratorio, ang mga kumpanya ng aplikasyon ay maaaring panatilihin ang pagkakaiba sa gitna.

Kaya maaari nating itanong sa anumang uri ng trabaho ang dalawang tanong: Ang katotohanan nito ay pribado at mahal ba, at isang katotohanan ba ito na nasa loob lamang ng data ng isang kumpanya? Ayon sa isang sistema na hiwalay sa mga dayuhan? Kapag isasama natin ang mga tanong na ito sa antas ng saturasyon ng gawain, makakakuha tayo ng isang 2×2 matrix.

Ang mga trabaho na nasa saturation at ang sagot ay nakabukas ay ang domain ng commodity tokens, at ang open-source models ang magiging dominanteng puwersa dito. Ang mga nangungunang ngunit nakabukas na trabaho, tulad ng coding benchmarks, ay ang lugar kung saan mananalo ang mga laboratorio, dahil kapag ang pag-evaluate ay libre, ang pagmamay-ari nito ay hindi na may halaga.

Ang totoong parangal ay ang huling sulok, ang "hindi matuturuan" na sulok: mga nangungunang gawain, ngunit ang kanilang kawastuhan ay umiiral lamang sa pribadong kapaligiran. Makikita mo ito sa mga inference cloud na naglilingkod sa mga unang tagapagtaguyod ng AI: ang karamihan sa mga token ay nilikha ng mga custom na modelo, hindi ng mga pangkalahatang open-source na modelo.

Ang pader na nagtatapos sa huling sulok ay may iba’t ibang taas. Ang isang developer’s toy codebase ay migratable at standardizado, kaya madaling pumasok. Ngunit ang production system ng isang banko ay hindi migratable at hindi standardizado. Hindi mo makakakuha ng root access dahil mas matalino ka lang ng 2% sa SWE-Bench Verified.

Ang kakayahan ay maaaring kumain ng maraming bagay, ngunit ang mas magandang modelo ay hindi gagawing pampubliko ang pribadong totoong pamantayan. Hindi ito humahawak ng lisensya, hindi ito nagpapakasal sa responsibilidad, at hindi ito may-ari ng mga dokumento ng kumpanya; kapag mali ang sagot, hindi ito maaaring maging inaakusahan. Ang bottleneck dito ay hindi ang inteligensya, kundi ang pahintulot at ang responsibilidad. Maaari mong isipin ang isang modelo na mas matalino kaysa sa anumang tao, ngunit kailangan pa rin ito ng pahintulot para makapasok, at kailangan pa rin ng isang tao na mag-sign ng kanyang pangalan para sa mga gawa nito.

May isang lock at isang baril ang pinto.

Ang lock na iyon ay ang konteksto: Only after gaining trust within a system, undergoing security review, completing integration, and signing a contract with outcome accountability can you verify whether the AI actually did something useful.

Ang susi ay ang gumagamit. Ngayon, araw-araw ay binubuksan ng karamihan sa mga doktor sa Amerika ang OpenEvidence, at hindi ito maaaring bilhin ng anumang computing power. Maaaring mag-train ang isang laboratorio ng isang perpektong medical model bukas, ngunit wala pa rin itong paraan na pumasok sa mga gawi ng paggamit ng mga doktor o sa proseso ng pagdedesisyon ng UCSF. Dahil ang tiwala ay binubuo nang paulit-ulit, sa pamamagitan ng ugnayan at ng pahintulot ng gumagamit, hindi sa pamamagitan ng gradient descent na gagawing nawala ang mga ito.

Ito rin ang trabaho ng mga aplikasyon. Ang isang aplikasyon ay nakakakuha ng puwesto sa mga "hindi matututunan" na sulok dahil sa mga hindi napakaganda ng gawain: pagpapayaman ng pribadong realidad ng isang kumpanya upang makapag-act ang modelo; pagbibigay ng mga kasangkapan para sa pag-act sa modelo; at pagbabago ng tunay na paraan ng paggawa ng puwersa ng trabaho kasama ang mga kliyente.

Mahirap kopyahin ang isang kumpanya na kayang matapos ang ganitong uri ng 'pagsasalin', at ang pagsasalin na ito ay hindi magtatapos. Ang integrasyon at pagpapanatili ay magpapatuloy kasabay ng ugnayan sa kliyente. Ang mananalo dito ay ang mga koponan na isinasaayos ang mga inhinyero na may espesyalisasyon sa larangan at mga kasangkapan sa tabi ng kliyente.

Halimbawa, sa isang kilalang law firm, ang mga transaksyon sa mergers at acquisitions lamang ay umabot sa halos isang libo bawat taon. Hindi mo maaaring hayaan ang mga几百 na legal assistants na i-download ang mga dokumento ng kliyente sa kanilang desktop at ipasa sa isang pangkalahatang Agent para basahin. Dahil sa mga dahilan ng pagiging lihim, hindi ito pinapayagan, paano pa ang iba pang labing-isang problema. Kahit na maaari ito, ang matututuhan mo ay maliit na mga piraso: isang assistant ay korekta ang isang bagay nang isang beses, at walang makikita kung paano tumatakbo ang buong transaksyon.

Ang tunay na mahalagang signal ay nasa antas ng transaksyon. May sariling anyo ang bawat transaksyon: para sa merger at akusisyon, ito ay NDA, listahan ng mga terma, due diligence, pagbili ng kasunduan, kasamang dokumento, at lista ng pagpapasa; para sa paglilitis sa karapatan sa ari-arian, ito ay mga panukala, discovery ng ebidensya, umiiral na teknolohiya, at higit pang mga panukala. May sariling istruktura ang bawat larangan ng negosyo, at ang mga abugado at mga kasangkapan ay hindi maaaring palitan nang arbitrarily.

Ang tunay na problema na gustong lutasin ng law firm ay nasa mas mataas na antas: paano magpapatakbo ng bawat larangan ng negosyo nang sabay-sabay, tulad ng isang senior partner na nagmamaneho ng mga daan-daang gawain nang sabay-sabay, habang nagdadala ng mga bago at nagpapalaki ng mga assistant lawyer. Ang pagbabago sa isang kumpanyang ganito ay hindi isang iisang problema na maaaring isulat bilang isang task sa pagsusuri. Kailangan nito ng isang tagapag-ugnay na magpapatakbo nito tulad ng paglalaro ng "data baseball": ang mga intermediate goal ay napakalabo, ang feedback ay hindi kompletong, ang cycle ay napakahaba, at ang kapaligiran mismo ay hindi nakatigil.

Nakakalungkot, ang mga hindi mababasang halaga ay mahirap din ipagbili, dahil sa parehong dahilan kung bakit ito ay mahirap komersyalisahan: hindi kayang masukat ng isang kumpanya mula sa labas kung talagang makapagbabago ng mga operasyon nito ang AI gaya ng ipinapakita ng mga benchmark. Kaya, ang mga pinakamalakas na kumpanya ay tatigil sa pagsubok na patunayan ang kanilang sarili sa labas, at mas muna silang papasok sa loob ng mga kliyente, at pagkatapos ay magtatakda ng presyo batay sa resulta.

Sierra ay nagkakaroon ng bayad lamang kung ang kanyang Agent ay nalutas ang problema ng kliyente; kung ang problema ay ipinasa sa isang tao, hindi ito nagkakahalaga. Kaya, ang presyo mismo ay naging isang mekanismo ng pagtataya. At ito ay nagiging posible dahil ang Sierra ay may kapangyarihan na tukuyin ang "naresolba." Ginawa rin ng Cognition ang Devin sa larangan ng software, ipinakilala ang "pagkakatotoo sa performance." Tanging kapag pinagkatiwalaan mo ang pagsali sa loob ng isang sistema, ikaw lamang ang may karapatan na magbigay ng ganitong garantiya sa resulta.

Kahit sa antas ng pagbibigay ng token service—na tinatawag ng lahat bilang pure commodity—hindi ito gumagana tulad ng isang commodity. Ang mga pinakamahusay na AI-native na kumpanya ay magpapokus sa isang o dalawang supplier lamang, tulad ng Baseten o Fireworks. Dahil ang bawat token cost ay magiging commodity sa paglipas ng oras, ang reliability sa tunay na traffic at ang tiyak na pag-access sa limitadong computing power ay hindi magiging commodity. Kung saan ipapakita ang inference service, at kung anong mga model ang gagamitin, ay dalawang magkakaibang desisyon. Ang tanging bahagi ng inference na talagang katulad ng commodity ay ang presyo.

Isang karaniwang pagtutol ay: ang laboratoryo ay ang iyong supplier, bakit hindi ito gagamit ng sarili nitong first-party product na ibinibenta sa ilalim ng gastos upang patayin ka? O kaya ay direktang itigil ang iyong API access at kunin ang merkado nito? Ito ang totoong bersyon ng pagkawala ng pag-asa. Pero ito ay tama lamang kung ang model layer ay isang single-player game.

Malinaw na, hindi ganito ang totoo. Ang model layer ay mas tulad ng isang patayong kompetisyon ng tatlo at kalahating manlalaro, kasama ang isang grupo ng mga internasyonal na manlalaro na naiiwan ng humigit-kumulang anim na buwan sa pagtratrabaho, at isang development league na limang beses ang laki kaysa sa nakaraan. Gusto ng mga kliyente na magkaroon ng kompetisyon sa pagitan ng kanilang mga supplier, habang nais ng mga laboratorio ang market share kaysa sa pagpatay sa anumang partikular na aplikasyon.

Maaari mong makita ito sa mga market kung де-факто kompetisyon sa laboratoryo. Sa mga consumer chat scenario, ang pinakamahusay na model ay hindi nagwagi nang buong market. Patuloy na nangunguna ang ChatGPT sa matagal nang totoong kompetisyon; ang bahagi nito na nawala ngayon ay tumungo sa Gemini, at dahil sa distribution capability ng Android at search, hindi dahil mas mahusay ang model. Ang Anthropic ay kasalukuyang itinuturing na may pinakamahusay na model sa prediction market at internet atmosphere, ngunit halos hindi ito pangunahing player sa consumer chat, kundi itinatag ang sarili nitong negosyo sa mga enterprise at coding scenario.

Kung hindi kayang kunin ng isang mas mahusay na modelo ang mga gumagamit ng kalaban sa pinakamahalagang aplikasyon, hindi rin ito madaling kakapit sa sistema ng mga rekord ng ospital o sa sistema ng pananagutan ng isang bangko. Ngayon, ang mga desisyon ng publiko sa pagpili ng produkto ay hindi lamang batay sa kakayahan sa coding. Kung ang layer ng mga modelo sa harap ay patuloy na puno, mas may halaga ang layer ng aplikasyon sa itaas nito.

Kung isang gawain ay hindi maaaring iskor sa labas, kailangan mayroong tao sa loob na magdesisyon kung ano ang mabuting sagot. At ang desisyong ito, ay ang buong laro. Kapag sapat na maraming desisyong tulad nito ang isulat, magiging benchmark ito. Ipinakilala ni Harvey ang benchmark sa larangan ng batas, at ipinakilala ni Sierra ang benchmark sa larangan ng voice agent. May karapatan ka pang tukuyin kung ano ang “mabuti” sa isang larangan dahil ginagamit na ka ng larangang iyon. At ang mga kumpanyang ito, ay nakamit ang karapatan na ito sa pamamagitan ng mahirap na pakikibaka sa proseso ng tunay na paggamit.

Ang pagtataya na talagang nagdedesisyon kung saan pupunta ang pera, ay pribado at binubuo sa bawat kumpanya: ano ang tatanggapin ng kumpanyang ito bilang magandang trabaho sa ganitong uri ng isyu. At ang proseso na ito ay malayo pa sa pagkakatapos, dahil ang lawak ng batas ay mas malalim kaysa sa anumang pampublikong pagsubok. Ang OpenEvidence ay nagpapalalim kung ano ang tamang klinikal na sagot.

Lahat ng ito ay hindi talaga isang 'pagsukat' sa tunay na kahulugan, kundi tungkol sa paggawa ng mga pagpapasya kung ano ang totoo at ano ang mabuti. Ang mga pagpapasyang ito ay isinulat, hanggang sa maging pamantayan na dapat tanggapin ng lahat ng iba. Anuman ang kalalabasan ng mga pagsusuri sa mga pagsusuri sa pundamental, hindi ito makakasulat ng mga pamantayang ito mula sa wala, dahil ang ganitong katayuan ay umiiral lamang sa loob ng larangan.

Ang ganitong awtoridad ay karaniwang nasa lugar kung saan ito ay umiiral nang una. Ang mga karanasan na abogado ang sumulat ng mga batayang batas. Ang mga doktor ang nagtatadhana kung ano ang ligtas na klinikal na sagot. Ang kahulugan ng “naresolba” ay tinukoy ng kompanya na mayroon nang ugnayan sa kliyente.

Ang mga hangganan ng pagserap ay magpapatuloy na umuusbong dahil patuloy tayong natututunan kung paano sukatin ang higit pang mga gawain, at ang mga bagay na makakasukat ay titigil. Ang hindi matuturuan na lupa ay lalaki sa ilalim ng mga taong nakaupo dito, kaya hindi mo maaaring tumigil sa isang posisyon na maaaring ipagtanggol. Dapat mong patuloy na lumakad patungo sa mga lugar na hindi pa maaaring iskor, at patuloy na mag-reunderwrite at mag-reassess ng panganib.

Sa isang maliit na gawain, gamit ang iyong pribadong data at sariling sistema ng pagtataya, maaari mong itrain ang iyong modelo hanggang sa antas ng pinakamataas at labanan ang mga pangkalahatang modelo sa mga kritikalong sitwasyon; ang espesyalisadong modelo ay magiging bahagi ng moat. Sa kabilang banda, kung ikaw ay nagsisikap na makipagkumpetensya sa kakayahan ng mga pangkalahatang modelo, iyon ay isang digmaan ng kapital, at mawawala ka sa mga may pinakamaraming computing power. Ito rin ang pinakamadaling trap na kinakaharap ng mga kompanya na may limitadong pag-access at mataas na readable na gawain.

Kapag isang kumpanya ay nagpasya na turuan ang isang modelo na hihigit sa mga pinakamoderno sa isang malaking saklaw ng pangkalahatang gawain para sa pagpapalaganap, ang resulta ay karaniwang natukoy na ng laki ng data center. Ang huling kinalabasan ay karaniwang hindi ang pagkakaroon ng isang mandirigma na nag-iisa, kundi ang pagbebenta sa isang player na may sapat na computing power.

Ang lahat ng nabanggit ay pagtatanggol. Mas mahirap ang pag-atake: una, pumili kung ano ang dapat itayo. Ito ang hinahanap ko sa buong taon, at baka lang tatlo ang natagpuan ko. Hindi makakatulong ang modelo dito. Kung ituturo mo ito sa isang lugar, gagawin nito iyon; ngunit hindi ito makakasabi kung ano ang dapat ituro. Hindi mo maaaring gumawa ng benchmark para dito, kaya hindi mo ito maaaring itrain.

Ito rin ang dahilan kung bakit hindi tatanggalin ng mga malalaking kompanya ang lahat: mananatili sila sa kanilang mga umiiral na teritoryo, at ang susunod na bagay ay mula sa isang tao na nakakita ng paggamit nito bago ang iba. Maaaring ang intensyon ay isang mas kakaunting input kaysa sa computing power.

Kalahati lamang ng pagkakaroon ng desesperasyong ito ang tama. Tunay na inaabsorb ang thin shell, at marami sa mga bagay na tila kumpanya ngayon ay talagang thin shell lamang. Ngunit mali ang kaniyang pagtataya kung ano ang matitira pagkatapos ng pag-aabsorb. Malinaw ang mekanismo, ngunit hindi ang katapusan.

Ang direksyon na ako'y handang magtaya ay: ang inteligensya ay magpapatuloy na maging mas mura, habang ang halaga ay magpapatuloy na lumilipat patungo sa mga lugar na hindi makakamit ng ilang modelo. Ang hindi matuturuan ay may halaga na may kasaysayan.

Kaya, pumasok sa isa sa mga larangan na ito, gawin ang mga hindi nakakangiti na gawain sa pagsasalin, at magsimula na mag-isulat kung ano ang kahulugan ng «mabuti» doon. Dahil mayroon palang tao na gagawa nito. Ang pinakamadalas na citado na benchmark score sa taong ito, sa katotohanan ay isang mapa ng mga karapatan na darating sa pagkawala ng halaga, at isang paalala: isang paalala na ang ilan sa kanila ay darating sa pagkawala ng karapatan na tukuyin kung ano ang «mabuti».

[Link sa orihinal]

BlockBeats