Recursive Superintelligence Meluncurkan Sistem Riset AI Otomatis Pertama

Beberapa hari lalu, Anthropic merilis artikel berjudul "When AI Builds Itself" yang langsung memicu diskusi luas. Artikel tersebut mengungkapkan sejumlah data internal yang mengejutkan: hingga Mei 2026, lebih dari 80% kode di repositori Anthropic telah ditulis oleh Claude, dan jumlah kode yang digabungkan insinyur setiap hari adalah 8 kali lipat dibandingkan tahun 2024; dalam satu tes internal, Claude meningkatkan kecepatan eksekusi kode pelatihan sekitar 52 kali lipat dari baseline, sementara seorang peneliti manusia berpengalaman biasanya membutuhkan waktu 4 hingga 8 jam untuk mencapai percepatan 4 kali lipat.

Anthropic mengarahkan jalur ini menuju tujuan yang lebih dalam: "peningkatan diri rekursif"—sistem AI yang secara mandiri merancang, membangun, dan melatih versi penerusnya sendiri, tanpa manusia yang menggerakkan setiap langkahnya. Yang patut diperhatikan, perusahaan ini juga menyerukan koordinasi industri untuk memiliki opsi menunda atau bahkan menghentikan sementara pengembangan AI mutakhir saat saat peningkatan diri rekursif tiba. Dan Anthropic sudah melakukannya: membatasi penggunaan Claude Fable 5 terbaru untuk penelitian dan pengembangan AI mutakhir.

Sekarang, Recursive Superintelligence mengumumkan langkah pertama menuju penelitian AI otomatis.

Perusahaan baru yang didirikan bersama oleh Tian Yuan Dong baru saja keluar dari masa隐身 selama satu bulan, dan kini telah merilis hasil teknis publik pertamanya. Mereka menciptakan sistem penemuan otomatis pengetahuan terbuka dan mencapai hasil SOTA pada tiga pengujian patokan. Dengan kata sederhana, mereka berhasil membuat AI menjalankan eksperimen untuk Anda.

https://x.com/tydsh/status/2065062838255649082

Hasil langkah pertama: Biarkan AI menjalankan eksperimen untuk Anda

Recursive Teknologi publik pertama ini bernama 「First Steps Toward Automated AI Research」 (Langkah Pertama Menuju Riset AI Otomatis).

Tweet: https://x.com/Recursive_SI/status/2064980090702962699
Alamat repositori: https://github.com/recursive-org/first-steps-toward-automated-ai-research
Alamat blog: https://www.recursive.com/articles/first-steps-toward-automated-ai-research

Jika diringkas dalam satu kalimat, inti pekerjaan ini adalah: membangun sistem yang dapat secara otomatis mendorong siklus penelitian AI dan memecahkan rekor terbaik pada tiga pengujian benchmark.

Sebelum membongkar hasil resminya, penting untuk memahami logika desain sistem ini.

Proses penelitian AI tradisional adalah siklus tertutup yang sangat bergantung pada manusia: "menghasilkan ide—menulis kode—menjalankan eksperimen—menganalisis hasil—menghasilkan ide lagi".瓶颈 efisiensinya bukan pada daya komputasi, tetapi pada manusia. Hanya sejumlah kecil peneliti di seluruh dunia yang mampu merancang proses pelatihan mutakhir, dan setiap iterasi eksperimen memerlukan keterlibatan intensif dari mereka.

Sistem Recursive mencoba mengotomatisasi loop tertutup ini.

Cara kerjanya adalah: untuk tujuan optimasi yang jelas, sistem secara otomatis mengusulkan ide eksperimen, mengimplementasikan kode, menjalankan validasi, belajar dari hasilnya, lalu memutuskan langkah selanjutnya dalam pencarian. Beberapa jalur penelitian dapat diproses secara paralel, temuan yang efektif dapat digunakan ulang di berbagai tugas, dan mekanisme deteksi reward hacking juga tertanam dalam seluruh siklus untuk mencegah sistem "mengambil jalan pintas" dengan memanipulasi metrik evaluasi tanpa benar-benar meningkatkan apa pun.

Ini bukan alat khusus yang disesuaikan untuk memecahkan satu masalah tertentu, melainkan kerangka kerja otomatisasi penelitian lintas bidang. Recursive membuktikan hal ini dengan tiga skenario pengujian yang sangat berbeda.

Tiga medan pertempuran, tiga rekor baru

Skenario satu: Pelatihan model kecil dengan anggaran tetap (NanoChat Autoresearch)

Aturan benchmark ini berasal dari proyek autoresearch yang diprakarsai oleh Andrej Karpathy (penulis GPT-2, co-founder mantan OpenAI): pada satu GPU, dengan anggaran pelatihan tetap lima menit, latih model bahasa kecil seoptimal mungkin untuk mencapai kerugian validasi terendah (diukur dengan BPB, semakin rendah semakin baik).

Skenario ini secara alami cocok untuk penelitian otomatis: siklus eksperimen singkat, varians indikator rendah, dan perilaku kecurangan relatif mudah dideteksi. Karena itu, proyek komunitas bernama 'autoresearch@home' telah berjalan lama di benchmark ini—puluhan peneliti manusia ditambah ratusan agen AI bekerja sama untuk terus menurunkan indikator.

Sistem Recursive, dengan kode awal yang sama, berhasil meningkatkan validasi BPB dari 0,9372 menjadi 0,9109, memperbaiki sebesar 0,0263 BPB. Dalam istilah lain: dengan kualitas pelatihan yang sama, solusi Recursive hanya memerlukan 1,3 kali lebih sedikit waktu pelatihan dibandingkan pesaing.

Peningkatan yang ditemukan sistem bukanlah solusi ajaib. Ini menggabungkan berbagai perubahan, termasuk penyesuaian arsitektur, loss tambahan, modifikasi mekanisme perhatian, perilaku optimizer, penjadwalan weight decay, dan pengaturan compiler. Temuan paling krusial adalah mekanisme memori konteks pendek yang lebih kaya: pada jalur value perhatian, informasi bigram (pasangan kata berturutan) dan trigram (triplet) dimasukkan secara bersamaan melalui tabel hash, lalu digabungkan dengan bobot campuran yang dapat dipelajari. Setiap lapisan Transformer menggunakan fungsi hash yang berbeda untuk mengurangi kemungkinan tabrakan berulang di antara lapisan.

Teknik ini secara konseptual terkait dengan pekerjaan seperti DeepSeek Engram, tetapi sistem menerapkannya dalam bentuk varian spesifik yang belum pernah terlihat dalam literatur publik dalam skenario anggaran tetap.

Skenario dua: Perlombaan Kecepatan Pelatihan (NanoGPT Speedrun)

Jika skenario sebelumnya adalah "melangkah lebih jauh" berdasarkan pencapaian komunitas yang aktif, skenario ini jauh lebih sulit.

NanoGPT Speedrun adalah benchmark lain yang diprakarsai oleh Karpathy dan terus dioptimalkan oleh komunitas selama lebih dari dua tahun: waktu terpendek yang dibutuhkan untuk melatih model GPT hingga validasi loss 3.28 menggunakan 8 GPU H100. Sejak pertengahan 2024, komunitas telah memangkas waktu dari sekitar 45 menit menjadi 79,7 detik melalui 83 kontribusi terdokumentasi. Setiap solusi baru memerlukan penghematan waktu tambahan di atas kode yang sudah sangat dioptimalkan, sehingga tingkat kesulitannya dapat dibayangkan.

Sistem Recursive memulai dari solusi optimal yang ada dan kembali memperpendek waktu pelatihan menjadi 77,5 detik, menghemat 2,2 detik. Ini sebanding atau bahkan lebih baik daripada peningkatan yang dapat dicapai oleh kontributor manusia baru-baru ini.

Teknik inti yang ditemukan sistem kali ini meliputi:

Perhitungan perhatian dengan presisi FP8. Solusi komunitas hanya menggunakan perhitungan FP8 (floating-point 8-bit) pada lapisan terakhir model (kepala bahasa), sementara sistem memperluas FP8 ke operasi matriks pada lapisan perhatian, dengan propagasi maju menggunakan FP8 untuk mendapatkan throughput Tensor Core dua kali lipat, dan propagasi mundur tetap menggunakan BF16 untuk menjaga stabilitas.

Noise annealing in the optimizer. The system injects zero-mean Gaussian noise into the update steps of the NorMuon optimizer, with the noise amplitude linearly annealed to zero as training progresses. This imparts a behavior pattern to the optimizer of “explore boldly at first, then converge stably,” helping the final solution settle into a flatter loss basin.

Kernel MLP yang lebih ringkas. Sistem telah menulis ulang kernel Triton GPU untuk menyimpan hanya nilai aktivasi setelah dikuadratkan ReLU selama forward propagation, dan menghitung ulang hasil tengah yang belum dikuadratkan di dalam kernel selama backward propagation, menghilangkan satu putaran penuh pembacaan dan penulisan tensor aktivasi di memori berpita lebar—menghasilkan percepatan langsung pada tingkat perangkat keras.

Tiga perbaikan, masing-masing dari tiga bidang profesional yang berbeda: strategi presisi, desain optimizer, dan pemrograman kernel GPU. Fakta bahwa sistem masih menemukan ruang untuk peningkatan setelah dua tahun optimasi komunitas sudah membuktikan masalahnya.

Skenario tiga: Optimasi kernel GPU (SOL-ExecBench)

Dua skenario pertama bekerja pada tingkat pelatihan model, sedangkan skenario ketiga masuk lebih dalam ke tingkat yang lebih rendah: optimasi kernel komputasi GPU.

SOL-ExecBench adalah benchmark yang diperkenalkan oleh NVIDIA, yang mencakup 235 tugas penulisan kernel, mencakup berbagai beban kerja nyata seperti perkalian matriks, reduksi, lapisan normalisasi, komponen perhatian, rutin kuantisasi, dan blok fusi. Skor diukur berdasarkan SOL Score: 0.5 sesuai dengan implementasi PyTorch dasar, 1.0 sesuai dengan batas teoretis perangkat keras. Hasil publik terbaik sebelumnya adalah 0.699.

Sistem Recursive berjalan secara keseluruhan pada 235 inti, memungkinkan pemanfaatan ulang pola optimasi yang ditemukan di antara tugas-tugas (misalnya strategi pemindahan memori, cara pemblokan, teknik reduksi), sehingga skor akhir meningkat menjadi 0,754 dan mengurangi jarak terhadap batas perangkat keras sebesar 18%.

Adegan ini memiliki makna khusus karena teknik inti adalah bidang yang sangat spesialisasi—insinyur yang mampu menulis kernel Triton/CUDA yang efisien sangat jarang ada di seluruh dunia. Tim Recursive mengakui dalam blog mereka bahwa mereka sendiri bukanlah ahli di bidang kernel, "ide-ide ini berasal dari sistem itu sendiri, bukan dari latar belakang profesional kami."

Recursive: Gunakan AI untuk meneliti rekursif guna meningkatkan AI

Perusahaan yang merilis hasil ini, Recursive Superintelligence, didirikan pada akhir 2025 hingga awal 2026, dan baru saja mengakhiri masa隐身nya bulan lalu; anggota pendiri selain Tian Yandong, mantan Direktur Ilmuwan Riset FAIR Meta, meliputi:

Richard Socher, CEO Recursive, mantan ilmuwan utama Salesforce

Alexey Dosovitskiy, ilmuwan peneliti mantan Google DeepMind dan penulis pertama Vision Transformer, dengan lebih dari 160.000 kutipan di Google Scholar

Tim Rocktäschel, mantan Ilmuwan Utama DeepMind dan profesor kecerdasan buatan UCL

Peter Norvig, mantan Direktur Riset Google, bekerja sama dengan Stuart Russell menulis buku teks terkenal di bidang AI, "Artificial Intelligence: A Modern Approach".

Caiming Xiong, mantan Wakil Presiden AI Salesforce

Tim Shi, mantan peneliti OpenAI, co-founder dan CTO perusahaan AI perusahaan Cresta

Josh Tobin, CTO Recursive, mantan pemimpin penelitian OpenAI dan Uber ATG

Jeff Clune, mantan Wakil Presiden Riset Google DeepMind, profesor ilmu komputer di Universitas British Columbia, Kanada

Dan perusahaan rintisan ini, sejak peluncurannya bahkan sebelum memiliki produk publik, telah mengumpulkan pendanaan sebesar $650 juta dengan valuasi mencapai $4,65 miliar, dipimpin oleh GV (ventura Google) dan Greycroft, dengan partisipasi dari NVIDIA dan AMD Ventures.

Pernyataan inti perusahaan secara langsung terkait dengan namanya: membangun sistem AI yang mampu secara rekursif meningkatkan kemampuan penelitiannya sendiri, memungkinkan AI untuk terlibat dan mempercepat proses pengembangan AI itu sendiri, sehingga membentuk siklus peningkatan diri yang berkelanjutan.

Untuk informasi lebih lanjut, lihat laporan "Setelah Meninggalkan Meta, Tian Yuan Dong Baru Saja Mengumumkan Pendirian Startup".

Tentu, di tingkat lintasan, Recursive tidak sendirian. AMI Labs milik Yann LeCun menyelesaikan pendanaan senilai 1 miliar dolar AS pada Maret tahun ini, sementara Ineffable Intelligence milik David Silver meraih putaran seed senilai 1,1 miliar dolar AS pada April, keduanya menunjukkan arah yang serupa: memungkinkan sistem AI menghasilkan pengetahuan secara mandiri, mengurangi intervensi manusia dalam proses penelitian. Namun dalam kecepatan pengumuman hasil publik, "langkah pertama" Recursive ini merupakan salah satu demonstrasi teknis paling konkret dan paling dapat direplikasi di antara perusahaan sejenis saat ini.

Fajar paradigma rekursif

Hasil yang dirilis oleh Recursive, dalam konteks industri yang lebih luas, mewakili penerapan awal dari paradigma penelitian AI baru: menjadikan sistem AI sendiri sebagai subjek utama penelitian.

Logika inti dari "AI rekursif" ini tidak rumit: AI meningkatkan kemampuan penelitian AI, AI yang telah diperbaiki kemudian dapat meningkatkan dirinya sendiri secara lebih efektif, berulang-ulang. Ia tidak bergantung pada satu terobosan tunggal, tetapi pada sistem yang terus-menerus menghasilkan terobosan.

Pendekatan ini memiliki signifikansi ekonomi penting bagi penelitian AI itu sendiri. Proses pelatihan model mutakhir masih sangat bergantung pada sejumlah kecil peneliti dengan keterampilan khusus, dan jumlah orang di seluruh dunia yang mampu melakukan pekerjaan ini tidak lebih dari beberapa ribu. Jika sistem penelitian otomatis dapat mengambil alih bahkan sebagian kecil dari pekerjaan ini, kecepatan dan kurva biaya kemajuan AI akan berubah.

Penilaian ini juga sejalan dengan suara-suara lain yang baru-baru ini muncul di industri. Misalnya, artikel “When AI Builds Itself” dari Anthropic yang disebutkan di awal artikel ini, nada nya tidak ringan—artikel tersebut menyerukan koordinasi industri, agar memiliki opsi untuk menunda atau sementara menghentikan pengembangan AI mutakhir saat saat perbaikan diri rekursif tiba, guna memberi waktu bagi struktur sosial dan penelitian alignment untuk mengejar ketertinggalan. Untuk informasi lebih lanjut, lihat “AI Berevolusi Terlalu Cepat, Anthropic Menyerukan Penghentian Global dalam Pengembangan”.

https://www.anthropic.com/institute/recursive-self-improvement

Dua hal terjadi secara bersamaan, menarik untuk diperhatikan. Di satu sisi, Anthropic mencatat dan memperingatkan arah tren ini, di sisi lain, tim seperti Recursive secara perlahan menjadikan tren ini menjadi kenyataan.

Tentu, Recursive sendiri mengakui bahwa ini masih merupakan "langkah pertama": sistem saat ini paling efektif dalam skenario dengan indikator yang jelas, umpan balik cepat, dan kecurangan yang dapat terdeteksi, masih jauh dari kemampuan untuk secara mandiri mendorong masalah ilmiah terbuka. Pencegahan kecurangan dalam reward akan menjadi tantangan utama yang terus dihadapi dalam perjalanan skalabilitas.

Tetapi sebuah siklus tertutup telah mulai berputar. Pertanyaan selanjutnya hanyalah seberapa cepat ia akan berputar.

Artikel ini berasal dari akun WeChat "Machine Heart" (ID: almosthuman2014), penulis: Machine Heart dalam evolusi rekursif, editor: Panda