Superinteligensi Berulang Melancarkan Sistem Penyelidikan AI Automatik Pertama

Beberapa hari yang lalu, Anthropic menerbitkan artikel berjudul "When AI Builds Itself" yang segera menarik perhatian luas. Artikel tersebut mengungkapkan data dalaman yang mengejutkan: hingga Mei 2026, lebih dari 80% kod dalam repositori Anthropic telah ditulis oleh Claude, dan jumlah kod yang digabungkan oleh jurutera setiap hari adalah 8 kali ganda berbanding tahun 2024; dalam satu ujian dalaman, Claude meningkatkan kelajuan pelaksanaan kod latihan sebanyak kira-kira 52 kali ganda berbanding asas, manakala seorang penyelidik manusia yang berpengalaman biasanya memerlukan 4 hingga 8 jam untuk mencapai peningkatan 4 kali ganda.

Anthropic membawa jejak ini ke tujuan yang lebih dalam: "peningkatan diri rekursif" — sistem AI yang secara autonom merancang, membina, dan melatih versi penerusnya sendiri, tanpa manusia yang mengendalikan setiap langkah. Yang perlu diperhatikan ialah, syarikat ini juga menyeru koordinasi industri untuk memiliki pilihan menangguhkan atau menghentikan sementara pembangunan AI terkini apabila masa peningkatan diri rekursif tiba. Dan Anthropic sudah melakukannya: membatasi penggunaan Claude Fable 5 terkini untuk pembangunan AI terkini.

Sekarang, Recursive Superintelligence mengumumkan langkah pertama menuju penyelidikan AI automatik.

Syarikat baharu yang didirikan bersama oleh Tian Yuan Dong baru sahaja mengakhiri masa tersembunyi selama sebulan, dan kini telah mengumumkan pencapaian teknologi awam pertama mereka. Mereka mencipta sistem penemuan pengetahuan automatik yang terbuka, dan mencapai keputusan SOTA dalam tiga ujian piawai. Dengan kata mudah, mereka berjaya membuat AI menjalankan eksperimen untuk anda.

https://x.com/tydsh/status/2065062838255649082

Hasil langkah pertama: Biarkan AI menjalankan eksperimen untuk anda

Recursive, hasil teknologi awam pertama ini dinamakan 「First Steps Toward Automated AI Research」.

Tweet: https://x.com/Recursive_SI/status/2064980090702962699
Alamat repositori: https://github.com/recursive-org/first-steps-toward-automated-ai-research
Alamat blog: https://www.recursive.com/articles/first-steps-toward-automated-ai-research

Secara ringkas, inti kerja ini adalah: membina sistem yang mampu mendorong kitaran penyelidikan AI secara autonomi dan memperbaharui pencapaian terbaik pada tiga ujian piawai.

Sebelum membongkar hasil rasmi, penting untuk memahami logik rekaan sistem ini.

Proses penyelidikan AI tradisional adalah lingkaran tertutup yang sangat bergantung kepada manusia: "menghasilkan idea—menulis kod—menjalankan eksperimen—menganalisis keputusan—menghasilkan idea semula".瓶颈 kecekapan ia bukan pada kuasa pengiraan, tetapi pada manusia. Hanya sedikit penyelidik di seluruh dunia yang mampu merekabentuk proses latihan terkini, dan setiap kitaran eksperimen memerlukan penyertaan rapat mereka.

Sistem Recursive cuba mengautomatiskan gelung tertutup ini.

Cara ia berfungsi adalah: berdasarkan satu matlamat pengoptimuman yang jelas, sistem secara automatik mencadangkan idea eksperimen, melaksanakan kod, menjalankan pengesahan, belajar daripadanya, kemudian menentukan langkah seterusnya untuk mencari. Beberapa garis penyelidikan boleh diproses secara serentak, penemuan yang berkesan boleh digunakan semula di antara tugas-tugas, dan mekanisme pengesanan penipuan ganjaran (reward hacking) telah disisipkan ke dalam keseluruhan kitaran untuk mencegah sistem "mengambil jalan pintas" dengan memanipulasi metrik penilaian tanpa benar-benar meningkatkan apa-apa perkara.

Ini bukan alat khusus yang disesuaikan untuk menyelesaikan satu masalah tertentu, tetapi satu kerangka kerja automatik penyelidikan am yang merangkumi pelbagai bidang. Recursive membuktikan hal ini dengan tiga skenario ujian yang sangat berbeza.

Tiga medan pertempuran, tiga rekod baru

Skenario satu: Latihan model kecil di bawah bajet pengiraan tetap (NanoChat Autoresearch)

Peraturan ujian piawai ini berasal daripada projek autoresearch yang diinisiatifkan oleh Andrej Karpathy (penulis GPT-2 dan salah seorang penubuh awal OpenAI): pada satu GPU, dengan bajet latihan tetap selama lima minit, latih model bahasa kecil seboleh-bolehnya untuk mencapai kerugian pengesahan terendah (diukur dalam BPB, semakin rendah semakin baik).

Skenario ini secara semula sesuai untuk penyelidikan automatik: tempoh eksperimen singkat, varians indikator rendah, dan tingkah laku curang relatif mudah dikesan. Oleh sebab itu, satu projek komuniti bernama 'autoresearch@home' telah berjalan lama di atas piawai ini—puluhan penyelidik manusia bersama ratusan agen AI bekerjasama untuk terus menurunkan indikator.

Sistem Recursive, bermula dengan kod awal yang sama, berjaya meningkatkan BPB pengesahan dari 0.9372 yang terbaik dalam komuniti kepada 0.9109, meningkat sebanyak 0.0263 BPB. Dalam istilah lain: dengan kualiti latihan yang sama, penyelesaian Recursive hanya memerlukan 1.3 kali kurang masa latihan berbanding pesaing.

Peningkatan yang ditemukan sistem bukanlah solusi ajaib. Ia menggabungkan berbagai perubahan, termasuk penyesuaian arsitektur, kerugian bantuan, modifikasi mekanisme perhatian, perilaku pengoptimal, penjadwalan penurunan bobot, dan pengaturan kompiler. Temuan paling krusial adalah mekanisme memori konteks pendek yang lebih kaya: dalam laluan nilai perhatian, informasi bigram (pasangan kata berturutan) dan trigram (triplet) dimasukkan secara serentak melalui tabel hash, kemudian digabungkan dengan bobot yang dapat dipelajari. Setiap lapisan Transformer menggunakan fungsi hash yang berbeza, sehingga mengurangkan kemungkinan tabrakan berulang antar lapisan.

Teknik ini berkaitan secara konseptual dengan karya-karya seperti DeepSeek Engram, tetapi sistem ini melaksanakannya dalam bentuk varian tertentu yang belum pernah dilihat dalam literatur awam dalam konteks anggaran tetap.

Skenario Dua: Lumba Pecutan Latihan (NanoGPT Speedrun)

Jika skenario sebelumnya adalah "melangkah lebih jauh" berdasarkan pencapaian komuniti yang aktif, skenario ini jauh lebih sukar.

NanoGPT Speedrun ialah satu lagi piawaian yang diinisiasi oleh Karpathy dan terus dioptimasi oleh komuniti selama lebih daripada dua tahun: masa paling singkat yang diperlukan untuk melatih model GPT hingga kerugian pengesahan 3.28 menggunakan 8 unit GPU H100. Sejak pertengahan 2024, komuniti telah mengurangkan masa daripada sekitar 45 minit kepada 79.7 saat melalui 83 sumbangan yang direkodkan. Setiap penyelesaian baharu memerlukan pengurangan masa tambahan berdasarkan kod yang sudah sangat dioptimasi, dan kesukarannya boleh difahami.

Sistem Recursive bermula daripada penyelesaian terbaik yang sedia ada dan sekali lagi mengurangkan masa latihan kepada 77.5 saat, menghemat 2.2 saat. Ini sepadan atau lebih baik berbanding peningkatan yang boleh dicapai oleh penyumbang manusia baru-baru ini.

Teknik utama yang ditemukan oleh sistem kali ini termasuk:

Kiraan perhatian dengan ketepatan FP8. Penyelesaian komuniti hanya menggunakan kiraan FP8 (titik terapung 8-bit) pada lapisan terakhir model (kepala model bahasa), manakala sistem mengembangkan FP8 ke dalam operasi matriks lapisan perhatian, dengan penghantaran maju menggunakan FP8 untuk mendapatkan dua kali ganda throughput Tensor Core, sementara penghantaran balik mengekalkan BF16 untuk mengekalkan kestabilan.

Kebisingan eksplorasi angsuran dalam pengoptimum. Sistem menyuntikkan kebisingan Gaussian bermean sifar ke dalam langkah pengemaskinian pengoptimum NorMuon, dengan amplitud kebisingan yang menurun secara linear kepada sifar seiring kemajuan latihan. Ini agak seperti memberikan pola tingkah laku “terlebih dahulu eksplorasi secara berani, kemudian menumpu dengan stabil” kepada pengoptimum, membantu penyelesaian akhir jatuh ke dalam lembah kerugian yang lebih rata.

Integrasi kernel MLP yang lebih ringkas. Sistem menulis semula kernel Triton GPU untuk menyimpan hanya nilai aktivasi setelah kuasa dua ReLU semasa penyebaran maju, dan mengira semula hasil sederhana yang belum dikuasakan di dalam kernel semasa penyebaran songsang, mengelakkan satu pusingan baca-tulis penuh tensor aktivasi dalam memori berpemandu tinggi—menghasilkan peningkatan pantas secara peranti keras.

Tiga peningkatan, masing-masing dalam bidang profesional strategi ketepatan, rekabentuk pengoptimum, dan pengaturcaraan teras GPU. Fakta bahawa sistem masih menemui ruang untuk peningkatan selepas dua tahun pengoptimuman komuniti sendiri menunjukkan masalahnya.

Skenario tiga: Pengoptimuman teras GPU (SOL-ExecBench)

Dua skenario pertama berfungsi pada tahap pelatihan model, manakala skenario ketiga meresap lebih dalam ke pengoptimuman teras pengiraan GPU.

SOL-ExecBench ialah ujian piawai yang dikeluarkan oleh NVIDIA, yang merangkumi 235 tugas penulisan kernel, mencakupi pelbagai beban kerja sebenar seperti pendaraban matriks, pengurangan, lapisan normalisasi, komponen perhatian, prosedur kuantisasi, dan blok tergabung. Penilaian berdasarkan skor SOL: 0.5 mewakili implementasi PyTorch piawai, 1.0 mewakili had teori peranti. Skor terbaik yang pernah diumumkan sebelum ini ialah 0.699.

Sistem Recursive berjalan keseluruhan pada 235 teras, membenarkan penggunaan semula corak pengoptimuman yang ditemui antara tugas (contohnya, strategi pemindahan memori, cara pembahagian blok, teknik pengurangan), meningkatkan skor akhir kepada 0.754 dan mengurangkan jurang kepada had peranti sebanyak 18%.

Skenario ini bermakna istimewa kerana kejuruteraan inti adalah bidang yang sangat terpakar—jurutera yang mampu menulis inti Triton/CUDA yang cekap adalah sangat jarang di seluruh dunia. Pasukan Recursive mengakui dalam blog mereka bahawa mereka sendiri bukan pakar dalam bidang inti, “gagasan-gagasan ini datang dari sistem itu sendiri, bukan dari latar belakang profesional kami.”

Recursive: Menggunakan AI untuk menyelidiki rekursif untuk memperbaiki AI

Syarikat yang mengumumkan pencapaian ini, Recursive Superintelligence, ditubuhkan pada akhir 2025 hingga awal 2026, dan baru sahaja mengakhiri keadaan rahsianya bulan lepas; ahli pengasasnya termasuk Tian Yandong, mantan Ketua Saintis Penyelidikan Meta FAIR, serta:

Richard Socher, CEO Recursive, saintis utama sebelum ini di Salesforce

Alexey Dosovitskiy, penyelidik saintis sebelumnya di Google DeepMind dan penulis pertama Vision Transformer, dengan rujukan di Google Scholar melebihi 160,000

Tim Rocktäschel, ahli sains prinsipal DeepMind sebelum ini dan profesor kecerdasan buatan UCL

Peter Norvig, mantan ketua penyelidikan Google, bekerjasama dengan Stuart Russell menulis buku teks terkenal dalam bidang AI, "Artificial Intelligence: A Modern Approach"

Caiming Xiong, bekas Presiden AI Salesforce

Tim Shi, penyelidik sebelumnya di OpenAI, pengetua bersama dan CTO syarikat AI perniagaan Cresta

Josh Tobin, CTO Recursive, bekas pemimpin penyelidikan OpenAI dan Uber ATG

Jeff Clune, bekas Tim Penyelidikan Vice President Google DeepMind, profesor sains komputer Universiti British Columbia, Kanada

Dan segera setelah perusahaan rintisan ini muncul, walaupun belum mempunyai produk awam, ia telah memperoleh pendanaan sebanyak $6.5 bilion dengan nilai penilaian mencapai $46.5 bilion, dipimpin oleh GV (Venture Capital Google) dan Greycroft, dengan sokongan dari NVIDIA dan AMD Ventures.

Pernyataan inti syarikat secara langsung sejajar dengan namanya: membina sistem AI yang mampu meningkatkan kemampuan penyelidikannya sendiri secara rekursif, membolehkan AI terlibat dan mempercepat proses pembangunan AI itu sendiri, akhirnya membentuk gelung peningkatan diri yang berterusan.

Untuk butiran lanjut, rujuk laporan “Selepas Meninggalkan Meta, Tian Yuan Dong Baru Sahaja Mengumumkan Penciptaan Usaha Baru”.

Tentu saja, di aras litar, Recursive tidak sendirian. AMI Labs milik Yann LeCun menyelesaikan pendanaan sebanyak US$1 bilion pada Mac tahun ini, sementara Ineffable Intelligence milik David Silver memperoleh putaran benih sebanyak US$1.1 bilion pada April, kedua-duanya menunjukkan arah yang serupa: membolehkan sistem AI menghasilkan pengetahuan secara bebas, mengurangkan penyertaan manusia dalam proses penyelidikan. Namun, dari segi tempoh pencapaian awam, "langkah pertama" Recursive ini merupakan salah satu demonstrasi teknikal yang paling spesifik dan boleh diulang di kalangan syarikat sejenis hingga kini.

Fajar paradigma rekursif

Hasil yang dikeluarkan oleh Recursive, dalam konteks industri yang lebih luas, mewakili pelaksanaan awal satu paradigma pengembangan AI baharu: menjadikan sistem AI sendiri sebagai subjek utama dalam penyelidikan.

Logik asas kepada "AI berulang" ini tidak rumit: AI meningkatkan kemampuan penyelidikan AI, dan AI yang telah diperbaiki boleh meningkatkan dirinya sendiri dengan lebih berkesan, berulang-ulang. Ia tidak bergantung pada satu terobosan tunggal, tetapi bergantung pada sistem yang terus menghasilkan terobosan.

Pendekatan ini mempunyai kepentingan besar terhadap ekonomi penyelidikan AI sendiri. Proses latihan model terkini masih sangat bergantung kepada sedikit penyelidik yang memiliki kemahiran khusus, dan hanya ada beberapa ribu orang di seluruh dunia yang mampu melakukan pekerjaan ini. Jika sistem penyelidikan automatik boleh mengambil alih sebahagian daripada pekerjaan ini, kelajuan dan lengkung kos kemajuan AI akan berubah.

Penilaian ini juga selari dengan suara-suara lain yang baru-baru ini dikeluarkan oleh industri. Sebagai contoh, artikel “When AI Builds Itself” oleh Anthropic yang disebutkan di awal artikel ini, nada nya tidak ringan—ia menyerukan koordinasi industri untuk memiliki pilihan menangguhkan atau menghentikan sementara pembangunan AI mutakhir ketika masa peningkatan diri rekursif tiba, supaya struktur sosial dan penyelidikan keselarasan dapat mengejar ketertinggalan. Untuk maklumat lanjut, rujuk “AI Berkembang Terlalu Cepat, Anthropic Menyeru Penangguhan Global dalam Pembangunan”.

https://www.anthropic.com/institute/recursive-self-improvement

Dua perkara berlaku serentak, menarik perhatian. Di satu sisi, Anthropic merekod dan memperingatkan arah perjalanan ini, sementara di sisi lain, pasukan seperti Recursive sedang secara perlahan-lahan menjadikan perjalanan ini sebagai kenyataan.

Tentu, Recursive sendiri mengakui bahawa ini masih merupakan "langkah pertama": sistem semasa paling berkesan dalam skenario di mana indikator jelas, maklum balas pantas, dan kecurangan boleh dikesan, dan masih jauh daripada mampu mendorong masalah sains terbuka secara bebas. Pencegahan ganjaran terhadap kecurangan akan menjadi cabaran utama yang terus dihadapi sepanjang perjalanan penskalaan.

Tetapi satu lingkaran tertutup telah bermula berputar. Masalah seterusnya hanyalah seberapa pantas ia akan berputar.

Artikel ini berasal daripada akaun微信公众号 "Machine Heart" (ID: almosthuman2014), penulis: Machine Heart dalam evolusi rekursif, penyunting: Panda