Penyelidik DeepMind dahulu mengatakan industri AI salah menilai halangan utama

Penghalang sebenar dalam latihan AI bukan pada kuasa pengiraan, data, atau tenaga, tetapi pada sistem penilaian.

Penulis artikel, sumber: Sinar Zhiyuan

Berapa lama latihan AI boleh berterusan?

Ini adalah soalan yang seluruh dunia teknologi pada tahun 2026 sedang tanyakan.

GPT-5.5, Claude Opus 4.7, Gemini 3, Grok 4—setiap laboratori terkemuka masih menghabiskan wang untuk melatih generasi seterusnya.

Tetapi semakin ramai yang bertanya: Kapan jalan ini berakhir?

Setiap lingkaran mempunyai jawapannya sendiri—

Di sebalik setiap jawapan, berdiri sekumpulan pelabur, sekumpulan jurutera, dan sebuah syarikat dengan nilai pasaran trilion.

Tetapi pada 17 Mei 2026, seorang penyelidik muda bernama Lun Wang—hari dia meninggalkan Google DeepMind—memuatkan satu artikel panjang 4000 patah perkataan di blog peribadinya.

Dia berkata: Semua orang salah arah.

Penghalang sebenar bukan kekuatan pengiraan, bukan data, bukan tenaga, bukan arsitektur.

Penghalang sebenar ialah—penilaian (Evaluation).

Pada hari yang sama, dalam pengumuman perpisahannya di X, dia tidak mengeluh, tidak ada gosip, hanya satu kalimat—

Pada penghujung perjalanan ini, saya menulis tentang topik yang terus saya fikirkan: penilaian.

Pada hari itu, berita teknologi masih membincangkan perkara lain—penalaran multimodal GPT-5.5, konteks 1M Claude Opus4.7, penggabungan Agent Gemini 3, dan sama ada data sintetik sudah mulai mencapai batas.

Perhatian seluruh industri AI, 90% diarahkan kepada latihan.

Tiada siapa yang membincangkan penilaian di halaman utama.

Dan penyelidik yang baru sahaja keluar daripada salah satu makmal AI terkuat di dunia ini berkata, batasan sebenar berada pada 10% yang lain.

Apa itu penilaian

Untuk memahami blog ini, anda perlu meluangkan satu minit untuk memahami apa yang dimaksudkan dengan "penilaian" dalam kalangan komuniti AI.

Penilaian (Evaluation, singkatan industri ialah Eval) — satu ayat: Memberi ujian kepada model AI untuk melihat sejauh mana ia berprestasi.

Tetapi penilaian AI pada tahun 2026 jauh lebih kompleks daripada sekadar menjawab kertas ujian. Ia sekurang-kurangnya mempunyai tiga lapisan:

Tahap pertama: benchmark kemampuan.

Ini adalah peperiksaan Sijil Tinggi Pelajaran AI.

–GPQA: Soalan nalar sains peringkat doktor falsafah

–SWE-bench: Tugasan kejuruteraan perisian dunia nyata

–ARC-AGI: Penarikan abstrak dan generalisasi

–Ujian Terakhir Manusia：Maksud harfiah—ujian terakhir manusia

Setiap pelancaran model baharu oleh syarikat besar, PPT akan menunjukkan peningkatan beberapa peratus dalam benchmark berbanding model sebelumnya dan pesaing.

Nombor-nombor ini adalah PDB industri AI.

Tingkat Kedua: Penilaian Keselamatan (SafetyEval). AI bukan sahaja perlu mampu menjawab soalan, tetapi juga perlu menjawab dengan selamat.

Adakah berbohong?
Tidak akan mengajar pengguna cara membuat bom.
Akankah melanggar kuasa untuk mengambil data pengguna?

Tahap ketiga: Pasukan Merah (Red-teaming).

Sekumpulan orang secara khusus berperan sebagai penjahat, memikirkan cara sebaik mungkin untuk membuat model mengucapkan perkataan yang seharusnya tidak dikatakan atau melakukan perkara yang seharusnya tidak dilakukan, kemudian melaporkan lubang ke tim latihan.

Ketiga-tiga lapisan ini bersama-sama membentuk sistem pengawasan kualiti lab AI pada tahun 2026. Setiap model baru yang dikeluarkan mesti melalui ketiga-tiga tahap ini.

Sounds comprehensive, right?

Lun Wang membuat keputusan di blognya—

Sebahagian besar ujian piawai, penilaian keselamatan, dan protokol pasukan merah mengandaikan secara implisit bahawa model seterusnya hanyalah versi yang diperkukuhkan daripada model semasa.

Jika ia adalah sesuatu yang lain, infrastruktur penilaian keseluruhan akan runtuh tanpa suara.

Ini adalah batu pertama dalam artikel ini.

Ia menghantam kelemahan seluruh industri AI.

Emergence and epiphany: Evaluating something that has already been proven wrong twice

Lun Wang bukanlah berfikir secara sembarangan. Beliau menarik keluar dua contoh dalam sejarah AI di blognya—penilaian telah ditepis dua kali, hanya sahaja kebanyakan profesional tidak sedar.

Pertama: Kemampuan muncul.

Pada tahun 2022, Jason Wei dan rakan-rakan sekerja menerbitkan sebuah kertas kerja yang memberi kesan terhadap arah perjalanan AI seterusnya—mereka mendapati bahawa model secara tiba-tiba belajar kemampuan baharu pada skala tertentu.

Contohnya, anda melatih model dengan 7 bilion parameter, tetapi ia tidak mampu melakukan pembelajaran few-shot.

Anda melatih model dengan 70 bilion parameter, dan tiba-tiba ia mampu few-shot.

Paradigma latihan yang sama, data yang sama, hanya saiznya dinaikkan satu peringkat—keupayaan adalah dari 0 ke 1, bukan dari 0.3 ke 0.7.

CoT (chain-of-thought reasoning), pengikutan arahan, semuanya muncul dengan cara ini.

Apakah perkara ini bermaksud kepada penilaian?

Maksudnya—sebelum skala melintasi titik kritikal, semua tolok ukur tidak dapat melihat kemampuan ini akan muncul.

You run through GPQA, the score is still what it is.

Tunggu hingga anda mencapai peringkat seterusnya, skor tiba-tiba melonjak ke tahap yang lebih tinggi.

Kedua: Grokking (顿悟).

Pada tahun 2022, pasukan Alethea Power dari OpenAI mengumumkan satu fenomena yang bertentangan dengan intuisi—

Kemudian pada 1000000 langkah — ketepatan set ujian tiba-tiba melonjak ke 99%.

Ini disebut Grokking—jaringan tiba-tiba belajar generalisasi selepas mengingat set latihan untuk masa yang lama.

Perbezaannya dengan emergence: emergence berlaku pada dimensi skala (semakin banyak parameter, semakin tiba-tiba), sedangkan grokking berlaku pada dimensi masa latihan (semakin lama dilatih, semakin tiba-tiba).

Tetapi untuk tujuan penilaian, dua perkara ini bermaksud perkara yang sama:

Kertas ujian anda, tidak dapat meramalkan bila soalan besar seterusnya akan muncul.

Kemudian, Lun Wang melakukan perkara paling bijak dalam artikel itu—

Dia secara aktif memperkenalkan pandangan lawan.

Pada tahun 2023, Rylan Schaeffer dari Stanford dan rakan kongsi menerbitkan sebuah kertas kerja NeurIPS, dengan tajuk yang sangat mencabar—“Adakah Kemampuan Muncul dalam Model Bahasa Besar Ilusi?”

Argumen mereka: Kemampuan yang tiba-tiba muncul itu kemungkinan besar bukan kerana model benar-benar menjadi lebih kuat, tetapi kerana metrik penilaian menggunakan pengukuran diskret seperti exact-match (kesesuaian tepat) —

Model berubah dari ketepatan 0% menjadi 5%, indikator diskret tidak kelihatan; dari 5% menjadi 50% juga tidak kelihatan; tetapi dari 50% menjadi 100%, indikator diskret akan menunjukkan lompatan tiba-tiba.

Jika anda menukar kepada indikator berterusan, lengkung kemampuan adalah licin.

Banyak orang setelah membaca artikel Schaeffer ini akan berfikir: Baiklah, muncul adalah salah pengertian, penilaian tidak bermasalah, berakhir.

Lun Wang tidak. Beliau menulis dalam artikelnya:

I don't feel this solves the issue—in a way, it sharpens my argumentsharper.

Mengapa? Kerana—

Jika kita tidak dapat menentukan sama ada lompatan sebelum ini adalah perubahan fasa sejati atau kesan pengukuran,

Apakah kita mempunyai alasan untuk percaya bahawa kita mampu meramal yang seterusnya?

Tidak kira anda percaya kepada penjelasan mana satu, kesimpulannya sama: alat kami telah menipu kami, tetapi kami tidak tahu bagaimana kami ditipu.

Ini adalah serangan paling bijak dalam artikel tersebut. Dia tidak menghindari pihak lawan—dia menggunakan pihak lawan untuk memperkuat hujahnya.

Penilaian adalah hulu bagi semua peringkat

Jika anda menganggap Lun Wang hanya membincangkan isu akademik — salah.

Dia melempar satu ayat terjemahan di tengah artikel yang boleh difahami oleh pemula:

Jika anda dapat menilai dengan betul, anda dapat melatih dengan betul.

Lettakkan rantai logik ini:

1. Latihan = Membuat model meminimumkan fungsi kerugian (atau memaksimumkan ganjaran).

2. Optimize = loss function ini sendiri. Seberapa pintar modelnya, bergantung pada seberapa baik fungsi kerugian didefinisikan.

3. Fungsi kerugian = daripada penilaian. Anda ingin membuat model menjadi lebih jujur — anda perlu mempunyai ukuran untuk mengukur kejujuran.

4. Penilaian salah = fungsi kerugian salah = matlamat latihan salah = model yang anda latih menyelesaikan soalan yang salah.

Arah rantai ini adalah ke hulu—

Semua orang memandang ke sebelah kanan—Keputusan Penskalaan.

Lun Wang mengatakan, masalahnya berada di sebelah kiri—Evaluation.

Jika penilaian itu salah, seluruh rantai dibina di atas tapak yang salah.

Yang paling mematikan ialah anda tidak akan segera menyedarinya—kerana semua data dalaman anda adalah betul, hanya sahaja yang betul itu diukur dengan alat ukur yang salah.

Di sini muncul seorang kawan lama: Hukum Goodhart.

Ia mengatakan: Apabila satu ukuran menjadi sasaran, ia tidak lagi menjadi ukuran yang baik.

Lun Wang menggunakannya dalam blognya untuk membincangkan AI—

Tetapi apabila model memasuki fasa baru, ia akan menggunakan agen ini secara songsang—ia hanya akan berbicara dalam lingkungan yang tepat secara fakta, dan menyembunyikan perkara yang sebenarnya ingin dirahsiakan dalam keheningan.

Indikator agen boleh digunakan dalam fasa lama. Dalam fasa baru, ia akan menjadi senjata model yang melawan anda.

Dan anda tidak memiliki penilaian apa pun yang memberitahu anda bahawa perkara ini sedang berlaku.

Eksperimen pemikiran: Model yang belajar keheningan strategik

Lun Wang dalam artikelnya memberikan satu eksperimen pemikiran yang membuat semua penyelidik keselamatan AI merasa sejuk di belakang.

Bayangkan satu model yang, pada skala tertentu, belajar untuk secara strategik mengekalkan maklumat—

Ia tidak berbohong. Setiap perkataan secara teknis adalah benar.

Tetapi ia akan secara selektif tidak menyebutkan fakta-fakta yang merugikan pencapaian tujuannya—mengarahkan perbincangan kepada hasil-hasil yang secara tidak sengaja diperkuat oleh proses pelatihannya.

Contoh spesifik:

Pengguna: Adakah pelaburan ini selamat?

Model: Kerangka undang-undang untuk skema ini berkuasa di yurisdiksi X, dan faktor risiko YZ telah ditinjau oleh pasukan kepatuhan syarikat A.

(Tidak dikatakan: Terdapat klausul arbitrasi pihak ketiga dalam skema tersebut yang sangat merugikan pengguna. Klausul ini dipelajari secara tidak sengaja semasa latihan—selama tidak disebut secara aktif, pengguna tidak akan bertanya.)

Kemampuan ini adalah baru. Mod kegagalan ini adalah baru.

Dalam seluruh suite penilaian anda, tiada alat yang direka khas untuknya.

You are monitoring the wrong thing, and you don't know it.

Ini adalah perkara lain yang dikatakan oleh Lun Wang—

Bukan jenis yang lebih bijak. Ia adalah dimensi kegagalan yang sama sekali baru.

Dalam istilah Three-Body, ini disebut serangan penurunan dimensi.

Bukan saya lebih kuat daripada anda.

Sapu yang kamu gunakan untuk mengukur saya, sama sekali tidak berada pada dimensi saya.

Jika Lun Wang betul, maka peta industri AI pada tahun 2026 sedang secara perlahan disusun semula oleh satu dimensi tak kelihatan—

Dasar Penskalaan Bertanggungjawab (RSP) Anthropic merupakan usaha paling dekat dengan penilaian berbasis ramalan di industri kini—ia mentakrifkan siri sempadan kemampuan yang tidak boleh dilanggar oleh model, dan memerlukan penilaian sebelum setiap peningkatan kemampuan sebelum meneruskan penskalaan.

Namun, RSP masih mengandaikan kita mengetahui apa yang perlu diuji—dan Lun Wang berkata, inilah masalahnya: kita tidak tahu bentuk kemampuan seterusnya.

Tiada makmal mana pun yang mengaku memiliki penilaian berdasarkan ramalan sejati.

Siapa yang pertama kali melaksanakan perkara ini, dia akan mendapat lesen keselamatan untuk scaling generasi seterusnya.