Selepas AI Memakan Semuanya, Apa yang Masih Tidak Boleh Dilatih?

Pengantar: Semasa keupayaan AI terus meningkat, dunia pelaburan sedang melihat munculnya penilaian pesimis baru: jika model menjadi semakin kuat, semua syarikat aplikasi akhirnya akan ditelan oleh lapisan model dan komputasi seperti Anthropic, OpenAI, dan Nvidia, sehingga pasaran akhirnya hanya meninggalkan model terkini, komputasi, dan sedikit infrastruktur. Namun, Sarah Guo berpendapat bahawa penilaian ini hanya separuh betul. Aplikasi 「thin wrapper」 (pembungkusan nipis, iaitu aplikasi yang hanya membungkus model) memang akan diserap, dan semua tugas yang boleh diukur dengan benchmark, dilatih dengan data awam, dan diverifikasi dengan kos rendah juga akan menjadi komoditi secara beransur-ansur.

Masalah sebenarnya ialah: Selepas AI menelan segala yang boleh dilatih, apa yang masih tidak boleh dilatih?

Jawapan kepada soalan ini ialah nilai-nilai yang wujud di dalam organisasi sebenar dan tidak boleh disalin dengan mudah dari luar: data perniagaan peribadi, aliran kerja yang kompleks, kepercayaan pengguna, kebenaran sistem, penilaian industri, tanggungjawab pematuhan, serta pengalaman yang terkumpul melalui operasi jangka panjang. Model boleh menjadi lebih bijak, tetapi tidak boleh masuk secara automatik ke dalam sistem pengeluaran bank; boleh menghasilkan jawapan perubatan, tetapi tidak boleh secara langsung mendapat kepercayaan doktor dan proses pengambilan keputusan hospital; boleh menulis teks undang-undang, tetapi tidak boleh menggantikan tanggungjawab peguam berpengalaman, juga tidak boleh mentakrifkan apa itu kerja undang-undang yang layak secara sembarangan.

Oleh itu, syarikat AI yang benar-benar mempunyai parit perlindungan di masa depan bukanlah yang hanya lebih pintar daripada model umum, tetapi yang mendalam ke dalam industri tertentu untuk menyelesaikan kerja “terjemahan” yang sukar tetapi penting: mengumpulkan realiti, alat, proses, dan standard penilaian peribadi pelanggan menjadi sistem yang boleh ditindakkan oleh model, serta secara beransur-ansur menulis definisi “apa yang dianggap sebagai hasil yang baik” semasa perkhidmatan jangka panjang. Semakin kuat AI, semakin banyak tugas yang boleh diukur dan disalin menjadi kurang bernilai; dan semakin menonjolkan perkara-perkara “yang tidak boleh dilatih” yang membawa sejarah, hubungan, kekuasaan, dan penilaian profesional. Inilah nilai sejati yang masih mungkin kekal selepas model menelan segalanya.

Berikut ialah teks asal:

Pada pertengahan 2026, versi pelabur bagi "Kegilaan AI" ialah perasaan putus asa bahawa tiada lagi apa-apa yang layak dilaburkan: kita seolah-olah sepatutnya menanamkan semua wang kita ke dalam Anthropic dan Nvidia, kemudian pulang dan tidur. Tetapi saya tidak pernah merasai perasaan ini. Sejak beberapa versi kecil sebelum ini, saya selalu yakin bahawa model sudah lebih bijak daripada saya; saya juga akan bersedia untuk membeli Anthropic dan Nvidia mengikut harga pasaran; rakan-rakan paling bijak di sekeliling saya juga sangat yakin bahawa peningkatan diri model akan segera berjalan dengan betul—namun saya masih tidak merasai perasaan putus asa ini.

Keputusasaan ini bukanlah kebodohan. Logikanya adalah seperti ini: jika model terus menjadi lebih kuat dalam segala hal, maka semua syarikat yang dibina berdasarkan model tersebut hanyalah lapisan nipis yang menunggu untuk diserap oleh model; nilai yang akhirnya boleh kekal hanyalah kuasa pengiraan dan berat model terkini.

Sebagai contoh perisian, ini adalah kes yang paling bergantung pada perasaan putus asa ini. Ketika Devin dilancarkan pada 2024, ia hanya mampu menyelesaikan 13% tugas dalam ujian perisian standard, sehingga secara keseluruhan diabaikan oleh pasaran. Satu setengah tahun kemudian, agen terkuat telah mencapai skor lebih daripada 80% dan mulai menangani pekerjaan sebenar di dalam Goldman Sachs dan Tentera Amerika. Hampir semua orang telah sampai kepada kesimpulan yang salah yang sama: model telah memakan kejuruteraan perisian.

Namun, apabila model menelan bahagian paling mudah diukur dalam kejuruteraan perisian, kita juga sedang memahami semula satu perkara yang telah lama diketahui oleh banyak pasukan: kejuruteraan sebenarnya sentiasa menolak pengukuran, dan bahagian yang paling mudah diukur belum tentu merupakan satu-satunya bahagian yang penting.

Mert Demirer dari MIT dan rakan kongsinya akhirnya mengkuantifikasikan perkara ini: di kalangan lebih daripada 100,000 pembangun, agen pengkodan generasi terbaru meningkatkan jumlah kod yang ditulis sebanyak kira-kira 180%, tetapi jumlah kod yang benar-benar dilancarkan hanya meningkat sebanyak kira-kira 30%. Menulis kod menjadi lebih murah, tetapi bahagian yang tinggal masih memerlukan campur tangan manusia, dan bahagian-bahagian ini sangat penting. Tentu saja, kesan bersih keseluruhan masih luar biasa.

Ujian piawai adalah sesuatu yang boleh diukur; dan apa sahaja yang boleh diukur, boleh dilatih. Oleh itu, agen pengkodean menjadi matang terlebih dahulu: kompiler adalah validator percuma, dan set ujian juga adalah validator percuma. Apabila jawapan hampir boleh disemak sendiri tanpa kos, anda boleh terus memperbaiki berdasarkan isyarat semakan ini sehingga mencapai titik maksimum.

Namun, melalui pengujian tidak bermakna perubahan itu betul untuk kodbase yang telah berjalan selama sepuluh tahun. Modul itu wujud mungkin kerana tiga sebab yang tidak pernah ditulis dalam dokumentasi; saluran penghantaran mungkin hanya bertahan dengan cron job yang tiada siapa berani mengaku sebagai hasil karyanya.

Ketepatan ini tidak boleh dibaca daripada senarai peringkat, bahkan tidak boleh dibaca secara langsung daripada apa-apa pun. Anda hanya boleh mengetahui sama ada ia benar-benar berkesan dengan membiarkan sistem yang sangat kompleks ini beroperasi dalam dunia nyata selama cukup lama. Model yang lebih bijak tidak akan membuat dunia nyata beroperasi lebih cepat. Tidak ada siapa pun yang akan sepenuhnya percaya pada sistem sebesar Google hanya kerana ia telah menjalani ujian unit dan melihat tanda centang hijau. Anda mempercayainya kerana ia telah tahan terhadap beban nyata selama bertahun-tahun.

Ketepatan ini bukan sahaja bersifat peribadi, tetapi juga merupakan parit perlindungan yang terbentuk perlahan-lahan, sebuah parit yang modal tidak boleh secara langsung mempercepatkan masa. Bahkan para optimis mengakui bahawa jam ini tidak boleh dilompati. Noam Brown, perintis model penalaran OpenAI, baru-baru ini menulis: Satu-satunya cara yang boleh dipercayai untuk menilai prestasi seorang Agen dalam satu siklus tahunan mungkin ialah membiarkannya beroperasi secara nyata selama satu tahun.

Seperti yang dikatakan Gabe Pereyra, automasi sejati bukan hanya tentang model menjadi lebih kuat. Ia melibatkan perubahan bersama dalam produk, model, alur kerja, dan struktur organisasi, dan di antara keempat-empatnya, tiga bergerak mengikut kelajuan organisasi.

Menggerakkan manusia adalah aspek yang tidak dapat dicapai oleh sebarang ujian piawai: meyakinkan rakan usaha yang meragui untuk mengubah cara mereka menangani perkara, serta menjaga kekohesian pasukan semasa proses pembinaan semula. Inilah sebabnya kami memberi penekanan yang sama besar terhadap kemampuan seseorang dalam mengurus manusia, setidaknya seimbang dengan kemampuan analitik mereka, apabila merekrut CEO. Model yang menjadi lebih pintar tidak akan mengubah timbangan ini.

Umpan balik di sini kabur, jangka masa adalah dalam tahun, sedangkan kepercayaan milik seseorang yang spesifik. Setiap syarikat yang saya kenali telah membenarkan setiap jurutera menggunakan model pengkodean terkini, tetapi tiada satu pun organisasi kejuruteraan syarikat tersebut berubah dengan kelajuan yang hampir sepadan dengan kemajuan model. Penggunaan alat hanya mengambil satu kuartal, dan betapa hebatnya kuartal itu dalam pertumbuhan token! Tetapi pembinaan semula yang sebenar memerlukan bertahun-tahun.

Pekerjaan yang boleh dilihat sedang meninggalkan kita. Pekerjaan yang benar-benar bernilai secara struktur adalah tidak dapat dibaca: apa sahaja yang boleh dimasukkan ke dalam senarai peringkat, boleh digunakan untuk dilatih; oleh itu, apa sahaja yang boleh diukur, sudah dalam perjalanan menuju komoditisasi. Proses ini memerlukan masa, dan tidak akan pernah selesai sepenuhnya, tetapi arahnya tidak pernah berbalik.

Dengan kata-kata rakan saya, Matt MacInnis dari Rippling, ia boleh diterjemahkan ke dalam bahasa wang: satu token yang hanya digunakan untuk menjawab soalan umum hampir tidak bernilai, kerana model mana-mana orang pun boleh menjawabnya; tetapi satu token yang melakukan penalaran berdasarkan data syarikat anda jauh lebih bernilai, kerana ia melakukan perkara yang benar-benar anda inginkan, bukan sekadar menghasilkan jawapan yang kelihatan munasabah.

Pekerjaan yang boleh dibaca akan ditelan dari dua arah.

Dari sudut pandang bawah, tugas akan menjadi jenuh: sekali suatu pekerjaan boleh diperiksa dengan kos rendah, pembeli tidak lagi peduli model mana yang menyelesaikannya, tetapi mulai bertanya berapa harganya. Oleh itu, pekerjaan itu akan jatuh ke tangan model open-source atau model distilasi paling murah pada minggu tersebut. Selagi margin keuntungan berfungsi, akhirnya ia pasti akan berfungsi.

Dari atas, makmal sedang mencuba memaksa model menelan kerangka sendiri. Pemilihan antara pencarian, panggilan murah dan panggilan mahal, penggunaan alat, bahkan strategi penalaran—semua peranti yang dahulu melingkungi model sedang ditarik masuk ke dalam berat model, sehingga 'kulit luar' itu sendiri menjadi model. Inilah sempadan penyerapan.

Tekanan keuntungan juga akan berfungsi dari arah lain: sebuah Agent generik mesti sentiasa bersedia menangani apa sahaja, oleh itu kosnya tinggi; manakala aplikasi yang fokus boleh mengoptimumkan satu alur kerja hingga ke tahap paling sempurna, sehingga hanya menghabiskan sebahagian kecil token. Selain itu, berbeza dengan makmal yang menjual token tersebut, syarikat aplikasi boleh mengekalkan perbezaan tengah.

Oleh itu, kita boleh mengajukan dua soalan kepada sebarang jenis pekerjaan: Adakah kebenarannya bersifat peribadi dan mahal, dan adakah ia merupakan kebenaran yang hanya wujud di dalam data syarikat tertentu? Adakah ia terpisah dalam sistem yang tidak boleh diakses oleh orang luar? Apabila digabungkan dengan tahap kejenuhan tugas, ia akan menghasilkan satu matriks 2×2.

Kawasan yang sudah jenuh dan jawapannya terbuka adalah wilayah token yang dikomersialkan, di mana model sumber terbuka akan menguasainya. Kawasan yang maju tetapi jawapannya terbuka, seperti ujian pengkodean, adalah tempat di mana laboratorium akan menang, kerana apabila penilaian adalah percuma, memiliki ia sendiri tidak lagi bernilai.

Hadiah sebenar ialah sudut terakhir, iaitu sudut “tidak boleh dilatih”: kerja terkini, tetapi kebenarannya hanya wujud dalam persekitaran peribadi. Anda boleh melihat ini di awan inferens yang melayani pelopor berasaskan AI: sebahagian besar token dihasilkan oleh model tersuai, bukan oleh model sumber terbuka am.

Dinding yang menuju ke sudut terakhir ini ada yang tinggi dan ada yang rendah. Repositori kod mainan seorang pembangun adalah boleh dipindahkan dan distandardkan, jadi memanjat masuk tidak sukar. Tetapi sistem pengeluaran sebuah bank tidak boleh dipindahkan dan tidak distandardkan. Anda tidak akan mendapat akses root hanya kerana pandai 2% lebih dalam SWE-Bench Verified.

Kemampuan boleh menelan banyak perkara, tetapi model yang lebih baik tidak akan menjadikan piawaian sebenar yang bersifat peribadi sebagai piawaian awam. Ia tidak memegang lesen, tidak menandatangani tanggungjawab, dan tidak memiliki dokumen syarikat; apabila jawapannya salah, ia tidak boleh menjadi pihak yang dituntut.瓶颈 di sini bukan kecerdasan, tetapi kuasa dan tanggungjawab. Anda boleh membayangkan satu model yang jauh lebih bijak daripada sesiapa pun, tetapi ia masih perlu dibenarkan masuk, dan masih perlu ada seseorang yang menandatangani nama mereka sendiri atas tindakan yang dilakukan oleh model tersebut.

Pintu itu mempunyai kunci dan batang penguncian.

Kunci itu adalah konteks: hanya setelah memperoleh kepercayaan di dalam sistem, melalui tinjauan keselamatan, integrasi selesai, dan menandatangani kontrak dengan tanggung jawab hasil, anda dapat mengesahkan sama ada AI benar-benar melakukan perkara yang berguna.

Kunci itu adalah pengguna. Hari ini, kebanyakan doktor Amerika membuka OpenEvidence setiap hari, dan ini bukan sesuatu yang boleh dibeli dengan kekuatan pengiraan apa pun. Sebuah makmal boleh melatih model perubatan yang sempurna esok, tetapi ia masih tidak mampu memasuki kebiasaan penggunaan doktor atau proses pengambilan keputusan UCSF. Kerana kepercayaan dibina perlahan-lahan, melalui hubungan dan persetujuan pengguna, bukan dengan meniadakannya melalui penurunan gradien.

Ini juga merupakan tugas syarikat aplikasi. Sebuah aplikasi mampu menempati ruang di sudut yang “tidak boleh dilatih” melalui kerja-kerja yang tidak menarik: mengatur realiti peribadi syarikat agar model boleh bertindak berdasarkannya; memberikan alat tindakan kepada model; dan bekerja bersama pelanggan untuk mengubah cara operasi tenaga kerja mereka secara sebenar.

Sesebuah syarikat yang mampu menyelesaikan “terjemahan” semacam ini sukar untuk ditiru, dan terjemahan ini tidak akan pernah berakhir. Integrasi dan penyelenggaraan akan berterusan seiring dengan hubungan pelanggan. Pemenangnya ialah pasukan yang meletakkan jurutera pakar bidang dan alat tepat di sisi pelanggan.

Sebagai contoh, di sebuah firma undang-undang terkemuka yang sudah lama beroperasi, urusan penggabungan dan akuisisi sahaja mencapai hampir seribu transaksi setiap tahun. Anda tidak boleh membiarkan ratusan juruamal men-download fail pelanggan ke desktop masing-masing, kemudian memberikannya kepada satu Agent am untuk dibaca keseluruhan. Alasan kerahsiaan sudah cukup untuk melarang tindakan ini, apalagi masih ada lebih daripada selusin masalah lain. Walaupun ia mungkin dilakukan, yang anda pelajari hanyalah sebahagian kecil: seorang juruamal memperbaiki sedikit pada satu masa, dan tiada siapa yang dapat melihat bagaimana keseluruhan transaksi mengalir.

Isyarat yang benar-benar penting terdapat pada aras transaksi. Sebuah transaksi mempunyai bentuknya sendiri: untuk penggabungan dan akuisisi, ia adalah NDA, senarai syarat, penyelidikan teliti, perjanjian pembelian, dokumen tambahan, senarai penyerahan; untuk kes pelanggaran kekayaan intelektual, ia adalah gerakan, pendedahan bukti, teknologi sedia ada, lebih banyak gerakan. Setiap bidang perniagaan mempunyai strukturnya sendiri, dan peguam serta alat tidak boleh dipertukarkan secara sewenang-wenangnya.

Masalah sebenar yang ingin diselesaikan oleh firma undang-undang ini berada pada tahap yang lebih tinggi: bagaimana menjalankan setiap bidang perniagaan secara serentak, seperti rakan kongsi utama yang menguruskan ratusan perkara secara serentak, sambil membawa masuk kes baharu dan membimbing peguam latihan. Merombak sebuah syarikat seperti ini bukanlah satu masalah tunggal yang boleh ditulis sebagai tugas penilaian. Ia memerlukan seorang pengendali yang menangani ia seperti bermain “data baseball”: sasaran sela sangat kabur, maklum balas tidak lengkap, tempoh sangat panjang, dan persekitaran itu sendiri tidak akan berhenti.

Sayangnya, nilai yang tidak dapat dibaca juga sukar dijual, kerana sebab yang sama dengan kesukaran mengkomersialkannya: sebuah syarikat tidak dapat menilai dari luar sama ada AI benar-benar mampu mengubah operasinya sebagaimana ditunjukkan oleh ujian piawai. Oleh itu, syarikat-syarikat terkuat akan berhenti cuba membuktikan diri di luar, tetapi sebaliknya masuk lebih dalam ke dalam pelanggan, kemudian menetapkan harga berdasarkan hasilnya.

Sierra hanya mengenakan bayaran apabila Agen-nya menyelesaikan masalah pelanggan; jika masalah tersebut dialihkan kepada manusia, ia tidak mengenakan bayaran. Oleh itu, harga itu sendiri menjadi mekanisme penilaian. Dan ini berfungsi kerana Sierra mempunyai kuasa menentukan definisi "telah diselesaikan". Devin dari Cognition melakukan perkara yang sama dalam bidang perisian, melancarkan "jaminan prestasi". Hanya apabila anda dipercayai untuk memasuki sistem dari dalam, anda layak memberikan jaminan terhadap hasil tersebut.

Walaupun pada tahap perkhidmatan token—yang semua orang panggil sebagai barangan tulen—performanya tidak seperti barangan. Syarikat-syarikat asli AI terbaik akan memusatkan perkhidmatan mereka pada satu atau dua pembekal sahaja, seperti Baseten atau Fireworks. Kerana kos setiap token akan bergerak menuju komoditisasi seiring masa, tetapi kebolehpercayaan di bawah trafik sebenar, serta akses stabil kepada kuasa pengiraan yang jarang, tidak akan menjadi komoditi. Di mana perkhidmatan inferens dijalankan, dan model mana yang digunakan, adalah dua pilihan yang berbeza. Satu-satunya bahagian dalam inferens yang benar-benar seperti komoditi ialah harga.

Sanggahan biasa ialah: laboratorium adalah pemasok anda, mengapa ia tidak akan menjual produk pihak pertamanya sendiri di bawah kos untuk menghancurkan anda? Atau secara langsung mencabut akses API anda dan mengambil pasaran ini sendiri? Ini adalah versi sebenar rasa putus asa itu. Tetapi ia hanya berlaku apabila lapisan model adalah permainan seorang diri.

Jelas sekali, fakta tidak begitu. Lapisan model lebih seperti pertandingan kematian antara tiga setengah pemain, dengan sekelompok pemain antarabangsa yang tertinggal sekitar enam bulan dalam latihan, serta sebuah liga pembangunan yang ukurannya lima kali ganda daripada tahun lalu. Pelanggan menginginkan persaingan di antara pemasok mereka, sementara laboratorium menginginkan pangsa pasaran, lebih daripada ingin membunuh aplikasi tertentu mana pun.

Anda boleh melihat ini di pasaran yang kompetitif di luar laboratorium. Dalam skenario perbualan pengguna, model terbaik tidak pernah menang sepenuhnya. ChatGPT terus mempertahankan kepimpinannya dalam persaingan sebenar selama bertahun-tahun; bahagian pasarnya yang kini hilang berpindah ke Gemini, bukan kerana modelnya lebih baik, tetapi kerana keupayaan pengagihan Android dan carian. Anthropic kini dianggap memiliki model terbaik dalam pasaran ramalan dan suasana internet, tetapi ia hampir tidak menjadi pemain utama dalam perbualan pengguna, sebaliknya membina bisnesnya dalam konteks perniagaan dan pengkodean.

Jika model yang lebih baik pun tidak mampu merebut pengguna pesaing di aplikasi paling inti, ia juga tidak akan dengan mudah menguasai sistem rekod perubatan sebuah hospital atau sistem tanggungjawab sebuah bank. Hari ini, apa yang menjadi pertimbangan awam dalam memilih produk bukan hanya kemampuan pengkodan. Jika lapisan model terkini masih sesak, maka lapisan aplikasi di atasnya akan memiliki nilai.

Jika suatu tugas tidak boleh dinilai dari luar, maka secara dalaman perlu ada seseorang yang menentukan apa yang dianggap sebagai jawapan yang baik. Dan keputusan ini, adalah seluruh permainan itu sendiri. Apabila cukup banyak keputusan seperti ini ditulis, ia akan menjadi ujian piawai. Harvey menerbitkan ujian piawai untuk bidang undang-undang, Sierra menerbitkan ujian piawai untuk Agen suara. Anda berhak menentukan apa maksud ‘baik’ dalam bidang ini kerana bidang tersebut sudah menggunakan anda. Dan syarikat-syarikat ini memperoleh hak ini melalui pergumulan susah dalam proses pengambilan sebenar.

Penilaian yang benar-benar menentukan arus dana adalah bersifat privat dan dibentuk per syarikat: syarikat ini, dalam perkara seperti ini, akan menerima apa sebagai pekerjaan yang baik. Dan perkara ini jauh daripada selesai, kerana kedalaman undang-undang jauh melebihi sebarang ujian awam. OpenEvidence sedang merumuskan apa yang menjadi jawapan klinikal yang selamat.

Semuanya sebenarnya bukanlah “pengukuran” dalam erti kata sebenar, tetapi tentang penilaian apa yang benar dan apa yang baik. Penilaian-penilaian ini ditulis down, sehingga menjadi piawai yang semua orang lain mesti terima untuk diukur. Tidak peduli seberapa bijak makmal model asas menjadi, ia tidak boleh menulis piawai-piawai ini dari tiada, kerana status semacam ini hanya wujud di dalam bidang tersebut.

Kewenangan semacam ini biasanya jatuh ke tempat ia sudah ada sebelumnya. Pengacara berpengalaman menulis tolok ukur hukum. Dokter yang menentukan jawaban klinis yang aman. Perusahaan yang sudah memiliki hubungan dengan pelangganlah yang menentukan apa arti “telah diselesaikan”.

Batas penyerapan akan terus meningkat kerana kita akan terus belajar mengukur lebih banyak kerja, dan apa yang boleh diukur akan diserap. Tanah yang tidak boleh dilatih akan terus menyusut di bawah kaki orang yang berdiri di atasnya, jadi anda tidak boleh berhenti apabila menemui posisi yang boleh dipertahankan. Anda mesti terus bergerak ke arah tempat-tempat yang masih tidak boleh dinilai, dan terus mengesemulaikan serta menilai semula risiko.

Dalam tugas yang sempit, dengan data persendirian dan sistem penilaian anda sendiri, anda boleh melatih model hingga ke tahap terkini dan mengalahkan model umum dalam skenario kritikal; model khusus ini akan menjadi sebahagian daripada parit pertahanan. Di sisi lain, jika anda bersaing dalam kemampuan model umum, ia akan menjadi peperangan modal, dan anda akan kalah kepada pihak yang memiliki kekuatan pengiraan paling banyak. Ini juga merupakan perangkap yang paling mudah ditangkap oleh syarikat-syarikat yang hanya mempunyai akses cetek dan tugas yang sangat boleh dibaca.

Apabila sebuah syarikat memutuskan untuk melatih model yang melebihi kecanggihan terkini dalam tugas umum yang luas demi kelangsungan hidupnya, hasilnya biasanya sudah ditentukan oleh skala pusat data. Kesudahannya sering bukan munculnya juara independen, tetapi dijual kepada pemain yang memiliki kekuatan pengiraan yang mencukupi.

Semua ini adalah pertahanan. Yang lebih sukar ialah serangan: menentukan apa yang sebenarnya perlu dibina. Ini adalah apa yang saya cari sepanjang tahun ini, dan saya hanya menemukannya kira-kira tiga kali. Model tidak dapat membantu dalam perkara ini. Anda arahkan ia ke mana sahaja, ia akan melakukan apa yang anda arahkan; tetapi ia tidak boleh memberitahu anda apa yang patut diarahkan. Anda tidak boleh membina ujian rujukan untuk ini, oleh itu tidak boleh melatihnya.

Inilah sebabnya raksasa yang sudah ada tidak akan mengambil semuanya: mereka akan mempertahankan wilayah yang sudah mereka kuasai, sementara sesuatu berikutnya akan datang dari seseorang yang menemukan kegunaannya lebih awal daripada orang lain. Mungkin, niat adalah input yang lebih langka daripada kekuatan pengiraan.

Perasaan putus asa ini separuh betul. Lapisan cangkang nipis memang sedang diserap, dan banyak yang kelihatan seperti syarikat hari ini memang hanya cangkang nipis. Tetapi penilaian terhadap “apa yang tinggal selepas penyerapan” adalah salah. Mekanisme itu jelas, tetapi titik akhirnya tidak.

Arahan yang saya bersedia bertaruh ialah: kecerdasan akan terus menjadi lebih murah, sementara nilai akan terus bergeser ke tempat-tempat yang tidak dapat dicapai oleh beberapa model sahaja. Yang tidak boleh dilatih, adalah sesuatu yang membawa nilai sejarah.

Jadi, masuk ke salah satu bidang ini, lakukan kerja terjemahan yang tidak menarik, dan mulailah menulis definisi apa itu「baik」di sana. Kerana pasti ada orang yang akan melakukannya. Skor ujian rujukan yang paling sering dikutip tahun ini sebenarnya adalah peta gaji yang akan menjadi tidak bernilai, dan satu pemberitahuan: memberitahu sesetengah orang bahawa mereka akan kehilangan hak untuk mentakrifkan apa itu「baik».

[Link asal]

Rhythmic BlockBeats