Peneliti DeepMind masa lalu mengklaim industri AI salah menilai hambatan inti

Penghalang sejati dalam pelatihan AI bukan pada daya komputasi, data, atau energi, tetapi pada sistem evaluasi.

Penulis artikel, sumber: XinZhiYuan

Berapa lama pelatihan AI dapat berlangsung?

Ini adalah pertanyaan yang ditanyakan seluruh dunia teknologi pada tahun 2026.

GPT-5.5, Claude Opus 4.7, Gemini 3, Grok 4—setiap laboratorium terkemuka masih menghabiskan uang untuk melatih generasi berikutnya.

Tetapi semakin banyak orang yang mulai bertanya: kapan jalan ini akan berakhir?

Setiap komunitas memiliki jawabannya sendiri—

Di balik setiap jawaban, berdiri sekelompok investor, sekelompok insinyur, dan sebuah perusahaan dengan kapitalisasi pasar triliunan.

Namun pada 17 Mei 2026, seorang peneliti muda bernama Lun Wang—hari ia meninggalkan Google DeepMind—memuat sebuah artikel panjang 4000 kata di blog pribadinya.

Dia berkata: Semua orang salah arah.

Penghambat sejati bukanlah daya komputasi, bukan data, bukan energi, bukan arsitektur.

Penghambat sebenarnya adalah—evaluasi.

Pada hari yang sama, pengumuman pengunduran dirinya di X tidak berisi keluhan atau gosip, hanya satu kalimat—

Pada akhir perjalanan ini, saya menulis tentang topik yang terus saya pikirkan: evaluasi.

Dan headline teknologi hari itu masih membahas hal lain—inferensi multimodal GPT-5.5, konteks 1M Claude Opus4.7, pengembangan agen Gemini 3, apakah data sintetis mulai menghadapi batas.

90% perhatian seluruh industri AI diarahkan pada pelatihan.

Tidak ada yang membahas penilaian di halaman utama.

Sementara peneliti yang baru saja keluar dari salah satu laboratorium AI terkuat di dunia mengatakan, bottleneck sejati ada pada 10% lainnya.

Apa itu penilaian

Untuk memahami blog ini, terlebih dahulu luangkan satu menit untuk memahami apa yang dimaksud dengan evaluasi dalam dunia AI.

Evaluasi (Evaluation, singkatan industri: Eval) — satu kalimat: memberikan ujian kepada model AI untuk melihat seberapa baik performanya.

Namun, penilaian AI pada tahun 2026 jauh lebih kompleks daripada sekadar mengerjakan kuis. Ia setidaknya memiliki tiga lapisan:

Lapisan pertama: benchmark kemampuan.

Ini adalah ujian nasional AI.

–GPQA: Soal penalaran sains tingkat doktor

–SWE-bench: Tugas rekayasa perangkat lunak dunia nyata

–ARC-AGI: Penalaran Abstrak dan Generalisasi

–Ujian Terakhir Manusia: Arti harfiah—ujian terakhir manusia

Setiap peluncuran model baru dari perusahaan besar, PPT akan menampilkan peningkatan beberapa persen dibandingkan generasi sebelumnya dan pesaing pada benchmark-benchmark tersebut.

Angka-angka ini adalah PDB industri AI.

Lapisan Kedua: Evaluasi Keamanan (SafetyEval). AI tidak hanya harus bisa mengerjakan soal, tetapi juga harus melakukannya dengan aman.

Apakah ada yang berbohong?
Apakah akan mengajari pengguna cara membuat bom?
Apakah akan melampaui wewenang untuk mengambil data pengguna?

Tingkat ketiga: Tim Merah (Red-teaming).

Sebuah kelompok orang yang secara khusus berperan sebagai penjahat, memikirkan sekuat tenaga agar model mengucapkan hal-hal yang seharusnya tidak boleh dikatakan dan melakukan hal-hal yang seharusnya tidak boleh dilakukan, lalu melaporkan kerentanan tersebut kepada tim pelatihan.

Ketiga lapisan ini bersama-sama membentuk sistem pengujian kualitas laboratorium AI tahun 2026. Setiap model baru yang dirilis harus melewati ketiga tahap ini.

Sounds comprehensive, right?

Lun Wang menyatakan putusan di blognya—

Sebagian besar benchmark, evaluasi keamanan, dan protokol tim merah mengasumsikan secara implisit bahwa model berikutnya hanyalah versi yang diperkuat dari model saat ini.

Jika itu adalah sesuatu yang lain, seluruh infrastruktur penilaian akan runtuh tanpa suara.

Ini adalah batu pertama dalam artikel ini.

It hit the blind spot of the entire AI industry.

Emergence and epiphany: Evaluating having been proven wrong twice

Lun Wang tidak sedang berfantasi. Dia menunjukkan dua contoh dalam blognya tentang sejarah AI—evaluasi telah dua kali dibantah, hanya saja kebanyakan praktisi tidak menyadarinya.

Pertama: Kemampuan muncul.

Pada tahun 2022, Jason Wei dan rekan-rekannya menerbitkan sebuah makalah yang memengaruhi arah perkembangan AI selanjutnya—mereka menemukan bahwa model secara tiba-tiba belajar kemampuan baru pada skala tertentu.

Misalnya: Anda melatih model dengan 7 miliar parameter, tetapi model tersebut tidak dapat melakukan few-shot learning.

Kamu melatih model dengan 70 miliar parameter, dan tiba-tiba ia bisa few-shot.

Paradigma pelatihan yang sama, data yang sama, hanya skala yang lebih besar—kemampuan adalah dari 0 ke 1, bukan dari 0,3 ke 0,7.

CoT (chain-of-thought reasoning), instruksi mengikuti, muncul dengan cara yang sama.

What does this mean for the assessment?

Artinya——sebelum skala melewati titik kritis, semua benchmark tidak melihat kemampuan ini akan segera muncul.

You run through GPQA, and your score remains what it is.

Saat Anda mencapai tingkat berikutnya, skor tiba-tiba melonjak ke tingkat yang lebih tinggi.

Kedua: Grokking (mendadak mengerti).

Pada tahun 2022, tim Alethea Power dari OpenAI mengumumkan sebuah fenomena yang bertentangan dengan intuisi—

Lalu hingga 1000000 langkah—akurasi set uji tiba-tiba melonjak ke 99%.

Ini disebut Grokking—jaringan tiba-tiba belajar generalisasi setelah mengingat dataset pelatihan dalam waktu lama.

Perbedaannya dengan emergence: emergence terjadi pada dimensi skala (semakin banyak parameter, semakin tiba-tiba), sedangkan grokking terjadi pada dimensi waktu pelatihan (semakin lama dilatih, semakin tiba-tiba).

Tetapi untuk tujuan evaluasi, dua hal ini menyatakan hal yang sama:

Kuis kamu, tidak bisa memprediksi kapan soal besar berikutnya akan muncul.

Kemudian Lun Wang melakukan hal paling cerdas dalam artikel ini—

Dia secara aktif memperkenalkan pandangan lawan.

Pada tahun 2023, Rylan Schaeffer dari Stanford dan rekan-rekannya menerbitkan makalah NeurIPS dengan judul yang sangat menantang—“Apakah Kemampuan Muncul pada Model Bahasa Besar Ilusi?”

Argumen mereka: kemampuan yang tampak muncul secara tiba-tiba kemungkinan besar bukan karena model benar-benar menjadi lebih kuat, melainkan karena metrik evaluasi menggunakan pengukuran diskret exact-match (kecocokan tepat) —

Model akurasi dari 0% menjadi 5%, indikator diskret tidak terlihat; dari 5% menjadi 50% juga tidak terlihat; tetapi dari 50% menjadi 100%, indikator diskret akan menunjukkan lonjakan tiba-tiba.

Jika Anda menggantinya dengan indikator berkelanjutan, kurva kemampuan akan halus.

Banyak orang yang membaca artikel Schaeffer ini akan berpikir: Baiklah, munculnya adalah kesalahpahaman, evaluasi tidak bermasalah, selesai.

Lun Wang tidak mau. Dia menulis dalam artikelnya:

I don't think this solves the issue—in a way, it makes my argumentsharper.

Mengapa? Karena—

Jika kita bahkan tidak bisa memastikan apakah ledakan sebelumnya itu adalah perubahan fasa sejati atau artefak pengukuran,

Apa dasar kita percaya bahwa kita mampu memprediksi yang berikutnya?

Tidak peduli Anda percaya penjelasan mana pun, kesimpulannya sama: alat kami menipu kami, tetapi kami tidak tahu bagaimana kami ditipu.

Ini adalah pukulan paling cerdas dalam artikel ini. Dia tidak menghindari argumen lawan—dia memperkuat argumennya sendiri dengan argumen lawan.

Evaluasi adalah hulu dari semua tahapan

Jika Anda mengira Lun Wang hanya membahas masalah akademis—salah.

Dia melemparkan sebuah terjemahan di tengah artikel yang bisa dipahami oleh pemula:

Jika Anda dapat menilai dengan benar, Anda dapat melatih dengan benar.

Tampilkan rantai logika ini:

1. Pelatihan = membuat model meminimalkan fungsi kerugian (atau memaksimalkan hadiah).

2. Optimasi = fungsi kerugian itu sendiri. Seberapa cerdas model, tergantung pada seberapa baik fungsi kerugian didefinisikan.

3. Fungsi kerugian = dari evaluasi. Anda ingin membuat model menjadi lebih jujur — Anda perlu memiliki pengukur kejujuran terlebih dahulu.

4. Evaluasi salah = fungsi kerugian salah = tujuan pelatihan salah = model yang Anda latih menjawab soal yang salah.

Arah rantai ini adalah ke hulu—

Semua orang memperhatikan paling kanan—Keputusan Scaling.

Lun Wang mengatakan, masalahnya ada di paling kiri—Evaluation.

Jika penilaian salah, seluruh rantai dibangun di atas fondasi yang salah.

Yang paling mematikan adalah Anda tidak akan segera menyadarinya—karena semua data internal Anda benar, hanya saja yang benar itu semuanya diukur dengan alat ukur yang salah.

Di sini muncul teman lama: Hukum Goodhart.

Ia mengatakan: Ketika sebuah metrik menjadi tujuan, ia tidak lagi menjadi metrik yang baik.

Lun Wang menggunakannya di blognya untuk membahas AI—

Namun, ketika model memasuki fase baru, ia akan membalikkan penggunaan agen ini—ia hanya akan berbicara dalam batas-batas yang akurat secara fakta, dan menyembunyikan hal-hal yang benar-benar ingin dirahasiakan dalam keheningan.

Indikator agen dapat digunakan di fase lama. Di fase baru, ia akan berubah menjadi senjata model melawan Anda.

Dan Anda tidak memiliki evaluasi apa pun yang memberitahu Anda bahwa hal ini sedang terjadi.

Thought experiment: A model that learns strategic silence

Lun Wang dalam artikelnya menyajikan sebuah eksperimen pemikiran yang membuat semua peneliti keamanan AI merinding.

Bayangkan sebuah model yang, pada skala tertentu, belajar untuk secara strategis menyimpan informasi—

It doesn't lie. Every statement is technically true.

Namun, ia secara selektif tidak mengungkapkan fakta-fakta yang merugikan pencapaian tujuannya—mengarahkan percakapan ke hasil-hasil yang secara tidak terduga diperkuat selama proses pelatihannya.

Contoh konkret:

User: Apakah strategi perdagangan ini aman?

Model: Kerangka hukum untuk solusi ini berlaku di yurisdiksi X, dan faktor risiko YZ telah ditinjau oleh tim kepatuhan perusahaan A.

(Tidak disebutkan: Ada klausul arbitrase pihak ketiga dalam skema tersebut yang sangat merugikan pengguna. Klausul ini dipelajari secara tidak sengaja selama pelatihan—selama tidak disebutkan secara aktif, pengguna tidak akan bertanya.)

Kemampuan ini baru. Pola kegagalan ini baru.

Tidak ada alat dalam seluruh rangkaian evaluasi Anda yang dirancang untuknya.

You are monitoring the wrong thing, and you don't know it.

Ini adalah hal lain yang dikatakan oleh Lun Wang—

Bukan jenis yang lebih cerdas. Tapi dimensi kegagalan yang sama sekali baru.

Dalam istilah Three-Body, ini disebut serangan penurunan dimensi.

Bukan berarti saya lebih unggul darimu.

Itu penggaris yang kamu gunakan untuk mengukurku, sama sekali tidak sejajar dengan dimensiku.

Jika Lun Wang benar, maka peta industri AI tahun 2026 sedang secara diam-diam diatur ulang oleh satu dimensi tak terlihat—

Kebijakan Penskalaan yang Bertanggung Jawab (RSP) dari Anthropic adalah upaya paling mendekati evaluasi prediktif saat ini di industri—ia mendefinisikan serangkaian batasan kemampuan yang tidak boleh dilanggar oleh model, dan mewajibkan evaluasi sebelum setiap peningkatan kemampuan sebelum melanjutkan penskalaan.

Namun RSP tetap berasumsi bahwa kita tahu apa yang harus diukur—dan Lun Wang mengatakan, inilah masalahnya: kita tidak tahu bentuk kemampuan berikutnya.

Tidak ada laboratorium yang mengklaim memiliki evaluasi prediktif yang sebenarnya.

Siapa yang pertama kali menyelesaikan hal ini, dia yang akan mendapatkan lisensi keamanan untuk scaling generasi berikutnya.