Demis Hassabis mengenai Garis Masa AGI, Terobosan Saintifik, dan Masa Depan DeepMind

Disusun & Dikompilasi: Shenchao TechFlow

Pembicara: Demis Hassabis (Pendiri DeepMind, penerima Hadiah Nobel Kimia 2024, ketua Google DeepMind)

Pengacara: Gary Tan

Sumber podcast: Y Combinator

Demis Hassabis: Agen, AGI & Terobosan Ilmiah Besar Berikutnya

Waktu siaran: 29 April 2026

Sunting pengenalan

CEO Google DeepMind dan penerima Hadiah Nobel Kimia, Demis Hassabis, menghadiri Y Combinator untuk membincangkan perkembangan utama yang masih diperlukan untuk mencapai AGI, nasihat kepada usahawan tentang cara mempertahankan keunggulan, serta di mana terobosan saintifik besar seterusnya mungkin berlaku. Penilaian paling praktikal untuk usahawan teknologi mendalam ialah, jika anda memulakan projek teknologi mendalam sepuluh tahun hari ini, anda mesti memasukkan kehadiran AGI ke dalam perancangan anda. Selain itu, beliau juga mengungkapkan bahawa Isomorphic Labs (syarikat AI farmaseutikal yang dipisahkan daripada DeepMind) akan mengumumkan berita besar segera.

Kutipan terpilih

Jalur dan garis masa AGI

Komponen teknologi yang ada ini hampir pasti akan menjadi sebahagian daripada arkaitektur akhir AGI.
Masalah-masalah seperti pembelajaran berterusan, penalaran jangka panjang, dan beberapa aspek memori belum diselesaikan; AGI perlu menyelesaikan semuanya.
"Jika garis masa AGI anda sama seperti saya, sekitar tahun 2030, dan anda baru saja memulakan projek teknologi mendalam hari ini, maka anda mesti mempertimbangkan bahawa AGI akan muncul di tengah jalan."

Memori dan tetingkap konteks

Tingkap konteks kira-kira setara dengan ingatan kerja. Ingatan kerja manusia purata hanya mampu menyimpan tujuh nombor, tetapi kami mempunyai tingkap konteks berjuta-juta hingga berpuluh-puluh juta token. Tetapi masalahnya ialah kita memuatkan segala perkara ke dalamnya, termasuk maklumat yang tidak penting dan salah, dan kaedah ini sekarang agak kasar.
"Jika anda perlu mengendalikan aliran video secara langsung dan menyimpan semua token, satu juta token sebenarnya hanya mencukupi untuk sekitar 20 minit."

Kekurangan penalaran

Saya suka bermain catur dengan Gemini. Kadang-kadang ia sedar bahawa langkah itu adalah langkah yang buruk, tetapi tidak dapat menemui langkah yang lebih baik, sehingga selepas berputar-putar, ia tetap membuat langkah buruk itu. Tetapi sistem penalaran yang tepat seharusnya tidak mengalami keadaan seperti ini.
Ia mampu menyelesaikan soal setaraf emas IMO, tetapi apabila soal ditanyakan dengan cara yang berbeza, ia akan membuat kesilapan matematik sekolah rendah. Dalam refleksi proses pemikirannya sendiri, sepertinya masih kurang sesuatu.

Agen dan kreativiti

Untuk mencapai AGI, anda perlu mempunyai sistem yang boleh secara aktif menyelesaikan masalah untuk anda. Agent adalah jalan itu, dan saya rasa kita baru sahaja bermula.
Saya belum pernah melihat seseorang menggunakan vibe coding untuk menciptakan permainan 3A yang menduduki tangga atas kategori aplikasi. Mengikut usaha yang dikeluarkan sekarang, ini seharusnya mungkin, tetapi belum berlaku. Ini menunjukkan bahawa terdapat kekurangan dalam alat atau proses.

Distilasi dan model kecil

Kami mengandaikan bahawa enam hingga dua belas bulan selepas pelancaran model Pro yang canggih, kemampuannya boleh diringkaskan ke dalam model yang sangat kecil dan boleh dijalankan pada peranti tepi. Sehingga kini, kami belum mencapai had ketumpatan maklumat secara teori.

Penemuan ilmiah dan 'Ujian Einstein'

Saya kadang-kadang menyebutnya sebagai "ujian Einstein", iaitu sama ada pengetahuan tahun 1901 boleh digunakan untuk melatih sistem, kemudian membiarkannya menyimpulkan secara bebas pencapaian Einstein pada tahun 1905, termasuk teori relativiti khas. Sekali berjaya, sistem-sistem ini akan berada tidak jauh lagi daripada mencipta sesuatu yang benar-benar baharu.
Menyelesaikan satu masalah Hadiah Milenium sudah cukup luar biasa. Tetapi yang lebih sukar ialah, mampukah anda mencadangkan satu set masalah Hadiah Milenium baru yang dianggap sama mendalam dan patut diteliti seumur hidup oleh ahli matematik terkemuka?

Cadangan perniagaan teknologi mendalam

Menghadapi soalan sukar dan soalan mudah sebenarnya hampir sama, hanya cara kesukarannya berbeza. Hidup sangat singkat, lebih baik curahkan tenaga anda kepada perkara yang jika anda tidak lakukan, benar-benar tiada orang lain yang akan melakukannya.

Jalur pencapaian AGI

Gary Tan: Anda telah memikirkan AGI lebih lama daripada kebanyakan orang. Melihat paradigma semasa, menurut anda, berapa banyak struktur akhir AGI yang sudah kita miliki? Apa yang secara mendasar masih hilang sekarang?

Demis Hassabis: Pelatihan pra-besar, RLHF, rantai pemikiran, dan sebagainya, saya sangat yakin ini akan menjadi sebahagian daripada arsitektur akhir AGI. Teknologi-teknologi ini telah membuktikan banyak hal hingga hari ini. Saya sukar membayangkan bahawa dalam dua tahun ke depan kita akan mendapati ini adalah jalan buntu—ini tidak masuk akal bagi saya. Namun, di atas apa yang sudah ada, mungkin masih kurang satu atau dua perkara. Pembelajaran berterusan (continual learning), penalaran jangka panjang (long-term reasoning), beberapa aspek memori, dan beberapa masalah masih belum terpecahkan. AGI memerlukan semua ini untuk diselesaikan. Mungkin teknologi semasa ditambah dengan inovasi progresif boleh diperluaskan hingga ke tahap itu, tetapi mungkin masih ada satu atau dua titik kunci besar yang perlu ditembusi. Saya tidak rasa ia akan melebihi satu atau dua. Secara peribadi, saya menilai kemungkinan adanya titik kunci yang belum terpecahkan ini adalah 50-50. Oleh itu, di Google DeepMind, kami mendorong kedua-dua garis pendekatan ini.

Gary Tan: Saya berurusan dengan banyak sistem agen, dan yang paling mengejutkan saya ialah, di lapisan bawah, semuanya hanya berputar-putar pada satu set bobot yang sama. Oleh itu, konsep pembelajaran berterusan sangat menarik, kerana sekarang kita pada dasarnya hanya menggunakan pita pelekat sementara, seperti perkara-perkara seperti "siklus mimpi malam".

Demis Hassabis: Ya, siklus mimpi itu cukup menarik. Kami sebelumnya telah memikirkan masalah ini dalam konteks integrasi ingatan kontekstual. Penelitian doktoral saya berfokus pada bagaimana hipokampus mengintegrasikan pengetahuan baru secara elegan ke dalam sistem pengetahuan yang sudah ada. Otak melakukan hal ini dengan sangat baik. Ia menyelesaikan proses ini selama tidur, terutama selama tidur REM (rapid eye movement), dengan memutar ulang pengalaman penting agar dapat belajar darinya. Program Atari pertama kami, DQN (Deep Q-Network yang diterbitkan DeepMind pada 2013, pertama kali mencapai tingkat manusia dalam permainan Atari menggunakan pembelajaran penguatan mendalam), mampu menguasai permainan Atari, dan salah satu metode kuncinya adalah experience replay. Ini diambil dari ilmu saraf, di mana jalur yang sukses diputar ulang berulang-ulang. Itu terjadi pada tahun 2013, yang dianggap zaman purba dalam bidang AI, tetapi pada masa itu sangat krusial.

Saya setuju dengan anda, sekarang kita memang menggunakan pita pelekat untuk memasukkan segala sesuatu ke dalam jendela konteks. Rasanya tidak tepat. Walaupun kita membuat mesin, bukan otak biologi, secara teori ia boleh mempunyai jendela konteks berjuta-juta atau berbilion, dan ingatan boleh sempurna, tetapi kos pencarian dan pemulihan masih wujud. Pada masa kini, ketika keputusan spesifik diperlukan, mencari maklumat yang benar-benar relevan bukanlah perkara mudah, walaupun anda mampu menyimpan segalanya. Oleh itu, saya rasa bidang ingatan masih mempunyai ruang yang besar untuk inovasi.

Gary Tan: Sejujurnya, jendela konteks sejuta token sudah jauh lebih besar daripada yang saya jangkakan, dan mampu melakukan banyak perkara.

Demis Hassabis: Ia cukup besar untuk kebanyakan skenario penggunaannya. Tetapi fikirkan ini, tingkap konteks kira-kira setara dengan ingatan kerja. Ingatan kerja manusia purata hanya mampu menahan tujuh nombor, manakala kita mempunyai tingkap konteks dalam jutaan atau bahkan puluhan juta. Masalahnya ialah kita memasukkan segala-galanya ke dalamnya, termasuk maklumat yang tidak penting dan salah, dan kaedah ini sekarang agak kasar. Selain itu, jika anda ingin memproses aliran video secara nyata dan merekodkan semua token secara naif, satu juta token sebenarnya hanya mencukupi untuk kira-kira 20 minit. Tetapi jika anda ingin sistem memahami kehidupan anda selama satu atau dua bulan, ia masih jauh dari mencukupi.

Gary Tan: DeepMind selalu sangat berkomitmen terhadap pembelajaran penguatan dan pencarian; filosofi ini telah tertanam seberapa dalam dalam proses pembangunan Gemini sekarang? Apakah pembelajaran penguatan masih diremehkan?

Demis Hassabis: Mungkin memang diremehkan. Perhatian terhadap bidang ini berfluktuasi. Kami telah melakukan sistem Agen sejak hari pertama DeepMind berdiri. Semua kerja yang dilakukan pada Atari dan AlphaGo pada dasarnya adalah sistem Agen pembelajaran penguatan, yang mampu mencapai tujuan secara mandiri, membuat keputusan, dan merancang perencanaan. Tentu saja, pada masa itu kami memilih bidang permainan kerana kompleksiti yang boleh dikawal, kemudian secara bertahap beralih kepada permainan yang lebih kompleks, seperti selepas AlphaGo kami membuat AlphaStar, hampir semua permainan yang boleh kami lakukan telah kami selesaikan.

Masalah seterusnya ialah, adakah kita boleh menggeneralisasikan model-model ini sebagai model dunia atau model bahasa, bukan sekadar model permainan. Selama beberapa tahun terakhir, kami telah melakukan perkara ini. Pola pemikiran dan penalaran rantai pemikiran pada semua model terkini hari ini pada dasarnya adalah kembalinya apa yang diperkenalkan oleh AlphaGo pada masanya. Saya rasa banyak kerja yang kami lakukan pada masa itu sangat berkaitan dengan hari ini; kami sedang meninjau semula idea-idea lama itu dengan skala yang lebih besar dan cara yang lebih universal, termasuk pelbagai kaedah pembelajaran penguatan seperti carian pokok Monte Carlo. Gagasan-gagasan dari AlphaGo dan AlphaZero sangat berkait rapat dengan model asas hari ini, dan saya percaya bahawa sebahagian besar kemajuan dalam beberapa tahun ke depan akan datang dari sini.

Distilasi dan model kecil

Gary Tan: Untuk menjadi lebih pintar sekarang, diperlukan model yang lebih besar, tetapi teknik distilasi juga berkembang, sehingga model kecil boleh menjadi sangat pantas. Model Flash anda sangat kuat, hampir mencapai 95% prestasi model terkini, tetapi harganya hanya sepuluh peratus. Betul ke?

Demis Hassabis: Saya rasa ini salah satu keunggulan utama kami. Anda perlu membangun model terbesar terlebih dahulu untuk mendapatkan kemampuan terkini. Salah satu keunggulan utama kami ialah kemampuan kami untuk dengan cepat mendistilasi dan mengompres kemampuan tersebut ke dalam model yang semakin kecil. Metode distilasi ini sebenarnya diciptakan oleh kami, dan kini kami masih tetap menjadi yang terkemuka di dunia. Selain itu, kami memiliki dorongan bisnis yang kuat untuk melakukannya. Kami kemungkinan besar merupakan platform aplikasi AI terbesar di dunia. Dengan memiliki AI Overviews dan AI Mode, serta Gemini, setiap produk Google—termasuk Peta dan YouTube—kini mengintegrasikan Gemini atau teknologi terkait. Ini melibatkan miliaran pengguna, serta belasan produk dengan pengguna miliaran. Produk-produk ini harus sangat cepat, sangat efisien, berbiaya sangat rendah, dan memiliki latensi sangat rendah. Hal ini memberi kami dorongan besar untuk membuat model Flash dan Flash-Lite yang lebih kecil menjadi seefisien mungkin, dan saya berharap pada akhirnya ini juga dapat melayani berbagai kebutuhan kerja pengguna.

Gary Tan: Saya penasaran seberapa pintar model kecil ini benar-benar boleh menjadi. Adakah batasan dalam distilasi? Bolehkah model 50B atau 400B secerdas model terkini yang paling canggih?

Demis Hassabis: Saya tidak rasa kita telah mencapai had teori maklumat, sekurang-kurangnya sehingga kini tiada siapa yang tahu sama ada had itu telah dicapai. Mungkin suatu hari nanti kita akan menghadapi batas ketumpatan maklumat tertentu, tetapi sekarang anggapan kita ialah, selepas model Pro terkini dilancarkan, kemampuannya boleh dikompreskan ke dalam model yang sangat kecil, hampir boleh dijalankan pada peranti tepi, dalam tempoh enam bulan hingga satu tahun. Anda juga boleh melihat ini pada model Gemma; model Gemma 4 kami menunjukkan prestasi yang sangat kuat pada saiz yang sama. Ini semua menggunakan teknik distilasi yang meluas dan pengoptimuman kecekapan model kecil. Oleh itu, saya benar-benar tidak melihat sebarang had teori, dan saya rasa kita masih jauh daripada mencapai had itu.

Gary Tan: Sekarang ada fenomena yang sangat aneh, iaitu jumlah kerja yang boleh dilakukan oleh jurutera adalah sekitar 500 hingga 1000 kali ganda berbanding enam bulan yang lalu. Ada beberapa orang di ruangan ini yang mungkin melakukan jumlah kerja yang setara dengan 1000 kali ganda kerja seorang jurutera Google pada tahun 2000-an. Steve Yegge pernah bercakap tentang ini.

Demis Hassabis: Saya sangat bersemangat. Model kecil mempunyai banyak kegunaan. Satu kelebihannya ialah kos yang rendah dan kelajuan yang tinggi, yang juga membawa faedah. Dalam menulis kod atau tugas lain, anda boleh beriterasi lebih pantas, terutamanya apabila bekerjasama dengan sistem. Sistem yang pantas, walaupun bukan yang paling mutakhir, misalnya hanya 90% hingga 95% daripada yang paling mutakhir, tetapi ia sudah cukup memadai, dan keuntungan yang anda peroleh daripada kelajuan iterasi jauh melebihi 10% tersebut.

Arah besar lain ialah menjalankan model-model ini di peranti tepi, bukan hanya untuk kecekapan, tetapi juga untuk privasi dan keselamatan. Bayangkan pelbagai peranti yang memproses maklumat sangat peribadi, serta robot—bagi robot di rumah anda, anda pasti ingin menjalankan model yang cekap dan kuat secara tempatan, hanya menghantar tugas tertentu ke model besar di awan. Aliran audio dan video diproses secara tempatan, data kekal di tempat. Saya boleh membayangkan ini sebagai keadaan akhir yang sangat baik.

Ingatan dan penalaran

Gary Tan: Kembali kepada konteks dan memori. Model semasa adalah tanpa keadaan; jika ia mempunyai kemampuan pembelajaran berterusan, pengalaman pembangun akan seperti apa? Bagaimana anda membimbing model seperti itu?

Demis Hassabis: Soalan ini sangat menarik. Kurangnya pembelajaran berterusan merupakan halangan utama yang menyebabkan Agent semasa tidak mampu menyelesaikan tugas secara lengkap. Agent semasa berguna untuk bahagian-bahagian tempatan tugas, dan anda boleh menyusunnya bersama untuk membuat perkara-perkara menarik, tetapi mereka tidak mampu menyesuaikan diri dengan persekitaran spesifik anda. Inilah sebabnya mereka masih tidak boleh benar-benar “dilepaskan dan dilupakan”—mereka perlu mampu mempelajari konteks spesifik anda. Untuk mencapai kecerdasan am yang sepenuhnya, masalah ini mesti diselesaikan.

Gary Tan: Kemajuan dalam penalaran sejauh mana? Chain of thought model sekarang sangat kuat, tetapi masih gagal pada kesalahan yang tidak akan dilakukan oleh pelajar sarjana muda yang bijak. Apa yang perlu diubah secara spesifik? Apa kemajuan yang anda jangkakan dalam penalaran?

Demis Hassabis: Masih terdapat banyak ruang untuk inovasi dalam paradigma pemikiran. Apa yang kita lakukan masih agak kasar dan agak brutal. Terdapat banyak arah peningkatan, seperti memantau proses rantai pemikiran dan melakukan intervensi di tengah-tengah pemikiran. Saya sering merasa, sama ada sistem kita atau sistem pesaing, mereka pada tahap tertentu terlalu banyak berfikir dan terperangkap dalam lingkaran.

Saya kadang-kadang suka memantau permainan catur di Gemini. Menariknya, semua model dasar terkemuka sebenarnya cukup lemah dalam permainan catur. Melihat jejak pemikiran mereka sangat berharga, kerana catur adalah bidang yang dipahami dengan baik, dan saya boleh dengan cepat menilai sama ada langkah mereka menyimpang atau penalaran mereka berkesan. Apa yang kami lihat ialah, kadang-kadang ia mempertimbangkan satu langkah, menyedari ia adalah langkah yang buruk, tetapi tidak dapat menemui langkah yang lebih baik, akhirnya berputar-putar dan tetap membuat langkah yang buruk itu. Sistem penalaran yang tepat seharusnya tidak mengalami keadaan seperti ini.

Perbezaan besar ini masih ada, tetapi memperbaikinya mungkin hanya memerlukan satu atau dua penyesuaian. Inilah sebabnya mengapa anda melihat apa yang disebut "kecerdasan bergigi" (jagged intelligence), yang di satu sisi mampu menyelesaikan soal setaraf emas IMO, tetapi di sisi lain, apabila soal diajukan dengan cara berbeza, ia akan membuat kesilapan matematik sekolah rendah. Dalam refleksi terhadap proses pemikirannya sendiri, sepertinya masih kekurangan sesuatu.

Kemampuan sebenar agen

Gary Tan: Agent adalah topik besar. Ada yang mengatakan ia hanyalah hype. Secara peribadi, saya rasa ia baru saja bermula. Apakah penilaian sebenar daripada penyelidikan dalaman DeepMind terhadap kemampuan Agent, dan seberapa besar perbezaannya dengan promosi di luar?

Demis Hassabis: Saya setuju dengan anda, kita baru saja memulakan. Untuk mencapai AGI, anda perlu mempunyai sistem yang secara aktif menyelesaikan masalah untuk anda. Ini telah jelas bagi kami sepanjang masa. Agent adalah jalan itu, dan saya rasa kita baru saja memulakan. Semua orang sedang mencuba cara untuk membuat Agent berfungsi lebih baik bersama, dan kami telah melakukan banyak eksperimen peribadi, dan banyak daripada anda di sini juga. Bagaimana cara mengintegrasikan Agent ke dalam alur kerja, supaya ia bukan sekadar tambahan, tetapi benar-benar melakukan perkara-perkara asas. Saat ini kita masih dalam peringkat eksperimen. Mungkin baru dalam dua atau tiga bulan terakhir kita mulai menemui skenario yang sangat berharga. Teknologi kini baru mencapai tahap itu—bukan lagi demonstrasi main-main, tetapi benar-benar memberi nilai kepada masa dan kecekapan anda.

Saya sering melihat orang memulakan puluhan Agent untuk menjalankannya selama puluhan jam, tetapi saya masih tidak pasti sama ada hasilnya sepadan dengan pengeluaran ini.

Kami belum pernah melihat seseorang menciptakan permainan 3A yang menduduki tangga atas stor aplikasi menggunakan vibe coding. Saya sendiri pernah menulisnya, dan banyak di antara anda juga pernah membuat demo kecil yang bagus. Sekarang saya boleh membuat prototaip《Theme Park》dalam masa setengah jam, sedangkan pada usia 17 tahun saya memerlukan enam bulan. Saya merasa bahawa jika anda meluangkan sepanjang musim panas untuk melakukannya, anda boleh mencipta sesuatu yang benar-benar luar biasa. Tetapi ia masih memerlukan kecekapan dan jiwa serta selera manusia; anda mesti memastikan membawa semua elemen ini ke dalam sebarang produk yang anda bina. Sebenarnya, sehingga kini tiada kanak-kanak pun yang mencipta permainan popular yang menjual sepuluh juta salinan, padahal dengan alat semasa ini, seharusnya ia mungkin dilakukan. Jadi, masih ada sesuatu yang kurang—mungkin berkaitan dengan proses, atau mungkin berkaitan dengan alat. Saya menganggarkan bahawa dalam tempoh 6 hingga 12 bulan ke depan, kita akan melihat hasil seperti itu.

Gary Tan: Sejauh mana ia akan sepenuhnya automatik? Saya rasa ia tidak akan sepenuhnya automatik dari awal. Jalur yang lebih mungkin ialah orang-orang di sini terlebih dahulu mencapai kecekapan 1000 kali ganda, kemudian ada yang menggunakan alat-alat ini untuk mencipta aplikasi dan permainan yang laris, baru selepas itu lebih banyak proses akan diotomatikkan.

Demis Hassabis: Ya, inilah yang sepatutnya anda lihat terlebih dahulu.

Gary Tan: Juga sebahagian daripada sebabnya ialah, ada beberapa orang yang benar-benar melakukannya, tetapi mereka tidak bersedia mengakui sejauh mana Agent membantu.

Demis Hassabis: Mungkin. Tetapi saya ingin membincangkan isu kreativiti. Saya sering menggunakan contoh AlphaGo, semua orang tahu langkah ke-37 pada permainan kedua. Bagi saya, saya terus menunggu momen seperti itu muncul, dan baru setelah ia berlaku, saya memulakan projek sains seperti AlphaFold. Kami bermula dengan AlphaFold pada hari berikutnya selepas kembali dari Seoul, itu sepuluh tahun yang lalu. Saya pergi ke Korea kali ini untuk memperingati ulang tahun ke-10 AlphaGo.

Tetapi hanya keluar dari Move 37 tidak cukup. Ia keren dan berguna. Tetapi sistem ini mampukah menciptakan permainan go itu sendiri? Jika anda memberikan deskripsi tingkat tinggi, seperti "permainan yang boleh dipelajari aturannya dalam lima minit, tetapi sukar dikuasai seumur hidup, secara estetik elegan, dan boleh dimainkan dalam sehari", kemudian sistem mengembalikan hasilnya sebagai permainan go. Sistem hari ini tidak mampu melakukan ini. Masalahnya ialah mengapa?

Gary Tan: Mungkin ada seseorang di sini yang mampu melakukannya.

Demis Hassabis: Jika seseorang telah berjaya, maka bukan sistemnya yang kurang, tetapi cara kita menggunakan sistem tersebut yang bermasalah. Mungkin inilah jawapan yang betul. Mungkin sistem hari ini sudah mempunyai kemampuan ini, hanya perlu seorang pencipta yang cukup cemerlang untuk menggerakkannya, memberikan jiwa kepada projek tersebut, sambil berintegrasi rapat dengan alat tersebut, hampir menyatu sepenuhnya dengannya. Jika anda menghabiskan masa siang dan malam dengan alat-alat ini dan mempunyai kreativiti mendalam, mungkin anda boleh mencipta sesuatu yang melampaui bayangan.

Open source dan model multimodal

Gary Tan: Mari kita bincangkan topik lain mengenai sumber terbuka. Pembebasan Gemma baru-baru ini membolehkan model yang sangat kuat dijalankan secara tempatan. Apa pendapat anda? Akankah AI menjadi sesuatu yang dikuasai oleh pengguna sendiri, bukan sekadar berada di awan? Adakah ini akan mengubah siapa yang boleh menggunakan model-model ini untuk membina produk?

Demis Hassabis: Kami adalah penyokong teguh kepada sumber terbuka dan sains terbuka. AlphaFold yang anda sebutkan, kami telah membukanya secara percuma sepenuhnya. Karya ilmiah kami masih diterbitkan dalam jurnal-jurnal terkemuka hingga kini. Mengenai Gemma, kami ingin mencipta model terkemuka di dunia dengan ukuran yang setara. Saat ini, jumlah muat turun Gemma telah mencapai sekitar 40 juta kali, dan ia baru sahaja dilancarkan selama dua setengah minggu.

Saya juga percaya pentingnya kehadiran teknologi barat dalam bidang sumber terbuka. Model sumber terbuka Cina sangat cemerlang dan kini memimpin dalam bidang sumber terbuka, tetapi kami percaya Gemma sangat kompetitif pada ukuran yang sama.

Kami juga menghadapi masalah sumber daya, tiada siapa yang mempunyai kekuatan pengiraan berlebihan untuk menjalankan dua model canggih berskala penuh. Oleh itu, keputusan kami semasa ini ialah: gunakan model tepi untuk Android, cermin mata, robot, dan sebagainya, dan lebih baik menjadikannya model terbuka, kerana sekali dideploy ke peranti, model-model ini sudah terdedah—jadi lebih baik dibuka sepenuhnya. Kami telah menyatukan strategi terbuka pada peringkat nano, yang juga bermakna secara strategik.

Gary Tan: Sebelum naik ke pentas, saya telah menunjukkan sistem operasi AI yang saya buat; saya boleh berinteraksi secara langsung dengan Gemini melalui suara. Saya agak gugup ketika menunjukkan kepada anda, tetapi ia berjalan dengan lancar. Gemini telah dibina sebagai model multimodal sejak awal. Saya telah menggunakan banyak model, tetapi hingga kini, tiada model lain yang mampu menyamai kemampuan interaksi suara langsung ke model, penggunaan alat, dan pemahaman konteks mendalam yang dimiliki oleh Gemini.

Demis Hassabis: Ya. Salah satu kelebihan Gemini yang belum sepenuhnya diakui ialah kami membina ia dari awal sebagai model multimodal. Ini membuat permulaannya lebih sukar berbanding hanya berfokus pada teks, tetapi kami percaya bahawa kami akan mendapat manfaat jangka panjang, dan sekarang keuntungan itu telah bermula terwujud. Sebagai contoh, dalam bidang model dunia, kami membina Genie (model persekitaran generatif interaktif yang dibangunkan oleh DeepMind) di atas Gemini. Dalam bidang robotik pula, Gemini Robotics akan dibina di atas model asas multimodal, dan keunggulan kami dalam multimodal akan menjadi kelebihan kompetitif. Kami juga semakin banyak menggunakan Gemini di Waymo (syarikat auto-pemandu di bawah Alphabet).

Bayangkan seorang pembantu digital yang mengikuti anda ke dunia nyata, mungkin di telefon atau cermin mata anda, yang perlu memahami dunia fizikal dan persekitaran sekeliling anda. Sistem kami sangat kuat dalam hal ini. Kami akan terus berinvestasi dalam arah ini, dan saya percaya keunggulan kami dalam masalah semacam ini adalah sangat besar.

Gary Tan: Kos penghujahan sedang menurun dengan cepat. Apa yang menjadi mungkin apabila penghujahan hampir percuma? Adakah arah pengoptimuman pasukan anda berubah akibat ini?

Demis Hassabis: Saya tidak pasti bahawa penalaran akan benar-benar percuma, kerana paradoks Jevons ada di sana. Saya rasa semua orang akhirnya akan menggunakan semua daya komputasi yang boleh mereka dapatkan. Bayangkan ratusan ribu agen bekerja sama, atau sekumpulan kecil agen berfikir secara serentak dalam pelbagai arah sebelum mengintegrasikan hasilnya. Kami semua sedang menguji arah-arah ini, dan semua ini akan menghabiskan sumber penalaran yang tersedia.

Dari segi tenaga, jika kita menyelesaikan beberapa masalah seperti fusi nuklear terkawal, superkonduktiviti suhu bilik, dan bateri optimum—saya percaya kita akan mencapainya melalui sains bahan—maka kos tenaga boleh mendekati sifar. Namun, tahap pembuatan fizikal cip dan sebagainya masih menghadapi halangan, sekurang-kurangnya dalam beberapa dekad ke depan. Oleh itu, bahagian inferens masih akan mempunyai had kuota dan memerlukan penggunaan yang cekap.

Terobosan saintifik seterusnya

Gary Tan: Alhamdulillah, model kecil semakin pintar. Terdapat banyak pendiri di bidang biologi dan bioteknologi di sini. AlphaFold 3 telah melampaui protein dan meluas ke molekul biologi yang lebih luas. Seberapa jauh kita dari pemodelan sistem sel lengkap? Adakah ini masalah dengan tahap kesukaran yang sama sekali berbeza?

Demis Hassabis: Kemajuan Isomorphic Labs sangat baik. AlphaFold hanyalah satu langkah dalam proses penemuan ubat; kami sedang menjalankan penyelidikan biokimia yang bersebelahan, seperti merekabentuk sebatian dengan sifat yang betul, dan akan ada pengumuman besar segera.

Matlamat akhir kami ialah mencipta sel maya yang lengkap, sebuah simulator sel berfungsi penuh yang boleh dikenakan gangguan, dengan output yang cukup rapat dengan keputusan eksperimen dan mempunyai kegunaan praktikal. Anda boleh melangkau banyak langkah pencarian, menghasilkan banyak data sintetik untuk melatih model lain agar meramalkan tingkah laku sel sebenar.

Saya menganggarkan bahawa masih ada sekitar sepuluh tahun lagi sebelum mencapai sel maya yang lengkap. Di sisi sains DeepMind, kami bermula dengan nukleus sel maya, kerana nukleus relatif bersifat mandiri. Kunci kepada masalah ini ialah sama ada kita boleh memotong satu bahagian dengan kekompleksan yang sesuai, yang cukup tertutup sendiri, di mana anda boleh menghampiri input dan outputnya secara munasabah, kemudian memfokuskan diri pada sub-sistem ini. Dari sudut pandangan ini, nukleus sel sangat sesuai.

Masalah lain ialah data tidak mencukupi. Saya telah berbincang dengan para saintis terkemuka yang bekerja dalam mikroskop elektron dan teknik pengimejan lain. Jika kita boleh mengimej sel hidup tanpa membunuhnya, ia akan menjadi revolusioner. Kerana itu akan menjadikannya sebagai masalah visual, dan kita tahu cara menyelesaikan masalah visual. Tetapi menurut pemahaman saya, sekarang ini tiada teknologi yang mampu mengimej sel dinamik yang hidup pada resolusi nanometer tanpa merosakkannya. Anda boleh mengambil gambar statik pada resolusi itu, dan ia sudah sangat halus—ini sangat menarik—tetapi tidak cukup untuk secara langsung menjadikannya sebagai masalah visual.

Jadi, terdapat dua jalan: satu ialah pendekatan yang didorong oleh peranti keras dan data; yang lain ialah membina simulator yang boleh belajar lebih baik untuk mensimulasikan sistem dinamik ini.

Gary Tan: Anda tidak hanya melihat biologi. Ilmu bahan, penemuan ubat, pemodelan iklim, matematik—jika mesti diurutkan, bidang ilmiah mana yang akan diubah paling radikal dalam lima tahun ke depan?

Demis Hassabis: Setiap bidang sangat menarik, dan itulah sebabnya ini selalu menjadi semangat terbesar saya, serta alasan saya berkecimpung dalam AI selama lebih dari 30 tahun. Saya selalu percaya bahawa AI akan menjadi alat akhir dalam sains untuk memajukan pemahaman sains, penemuan sains, perubatan, dan pemahaman kita terhadap alam semesta.

Cara kami awalnya menyatakan misi kami adalah dalam dua langkah. Langkah pertama, menyelesaikan kecerdasan, iaitu membina AGI; langkah kedua, menggunakannya untuk menyelesaikan semua masalah lain. Kemudian, kami terpaksa menyesuaikan rumusan kerana ada yang bertanya, "Apakah anda benar-benar bermaksud menyelesaikan semua masalah?" Ya, itulah yang kami maksudkan. Sekarang, orang mulai memahami apa yang dimaksudkan dengan itu. Secara khusus, saya merujuk kepada bidang sains yang saya sebut sebagai "masalah nod akar"—bidang-bidang yang, apabila ditembusi, akan membuka cabang-cabang penemuan baru. AlphaFold adalah prototaip bagi apa yang ingin kami capai. Lebih daripada tiga juta penyelidik di seluruh dunia, hampir setiap penyelidik biologi kini menggunakan AlphaFold. Saya mendengar daripada beberapa rakan eksekutif syarikat farmaseutikal bahawa hampir semua ubat yang ditemui di masa depan akan menggunakan AlphaFold di suatu peringkat dalam proses penemuan ubat. Kami bangga dengan ini, dan inilah jenis kesan yang kami harapkan daripada AI. Tetapi saya rasa ini hanyalah permulaan.

Saya tidak dapat memikirkan bidang sains atau kejuruteraan mana pun yang AI tidak dapat membantu. Bidang-bidang yang anda sebutkan, menurut saya, berada pada tahap 'AlphaFold 1', di mana hasilnya sudah sangat menjanjikan, tetapi belum benar-benar menyelesaikan cabaran utama bidang tersebut. Dalam dua tahun ke depan, kita akan banyak membincangkan kemajuan di semua bidang ini, dari sains bahan hingga matematik.

Gary Tan: Rasanya seperti Prometheus, memberikan manusia kemampuan baru yang sepenuhnya baru.

Demis Hassabis: Betul. Seperti makna cerita Prometheus, kita juga perlu berhati-hati terhadap bagaimana keupayaan ini digunakan, di mana ia digunakan, dan risiko penyalahgunaan alat yang sama.

Pengalaman berjaya

Gary Tan: Banyak di antara anda yang sedang mencuba memulakan syarikat yang mengaplikasikan AI dalam sains. Menurut anda, apakah perbezaan antara syarikat mulaan yang benar-benar mendorong hadapan dan syarikat mulaan yang hanya meletakkan API ke atas model asas, kemudian mengklaim diri mereka sebagai 'AI for Science'?

Demis Hassabis: Saya berfikir, jika hari ini saya duduk di tempat anda, menilai projek di Y Combinator, apa yang akan saya lakukan. Satu perkara adalah anda perlu meramal arah perkembangan teknologi AI, yang itu sendiri sukar. Tetapi saya benar-benar percaya bahawa menggabungkan arah perkembangan AI dengan bidang teknologi mendalam lain mempunyai peluang besar. Titik persilangan ini, sama ada bahan, perubatan, atau bidang sains sukar lain yang melibatkan dunia atom, tidak akan ada jalan pintas dalam jangka masa yang dapat diramalkan. Bidang-bidang ini tidak akan dilenyapkan oleh kemas kini model asas seterusnya. Tetapi jika anda mencari arah yang tahan terhadap ancaman, ini adalah yang saya cadangkan.

Saya sendiri selalu tertarik kepada teknologi mendalam. Sesuatu yang benar-benar berterusan dan bernilai tidak pernah mudah. Saya selalu tertarik kepada teknologi mendalam. Pada tahun 2010, ketika kami bermula, AI sudah merupakan teknologi mendalam—pelabur berkata kepada saya, “Kami sudah tahu perkara ini tidak berkesan,” dan akademik juga menganggapnya sebagai arah yang sempit dan gagal pada tahun 90-an. Tetapi jika anda percaya pada idea anda—mengapa kali ini berbeza, apa gabungan unik latar belakang anda—secara idealnya, anda sendiri adalah pakar dalam pembelajaran mesin dan aplikasi, atau anda boleh membentuk pasukan pengasas seperti itu—di sana terdapat potensi besar untuk mencipta kesan dan nilai.

Gary Tan: Maklumat ini sangat penting. Selepas sesuatu berjaya, ia kelihatan seperti perkara yang biasa, tetapi sebelum ia berjaya, semua orang menentang anda.

Demis Hassabis: Tentu, jadi anda perlu melakukan perkara yang benar-benar anda gemari. Bagi saya, apa pun yang berlaku, saya akan terus melakukan AI. Saya telah memutuskan sejak kecil bahawa ini adalah perkara paling berkesan yang boleh saya fikirkan. Fakta membuktikan hal ini, tetapi mungkin juga tidak, mungkin kita terlalu awal sebanyak 50 tahun. Ia juga merupakan perkara paling menarik yang boleh saya fikirkan. Walaupun hari ini kita masih berada di dalam sebuah garaj kecil dan AI belum dicipta, saya masih akan mencari cara untuk terus melakukannya. Mungkin saya akan kembali ke dunia akademik, tetapi saya akan menemui cara tertentu untuk meneruskan.

Gary Tan: AlphaFold adalah contoh di mana anda mengejar satu arah dan berjaya menebak dengan betul. Apa yang membuat satu bidang ilmiah sesuai untuk menghasilkan terobosan sejenis AlphaFold? Adakah terdapat pola, seperti fungsi objektif tertentu?

Demis Hassabis: Saya memang patut mencari masa untuk menulis ini. Pengalaman yang saya pelajari daripada semua projek Alpha seperti AlphaGo dan AlphaFold ialah teknologi kami yang sedia ada berfungsi paling baik apabila: Pertama, masalah tersebut mempunyai ruang carian kombinatorial yang besar, semakin besar semakin baik, sehingga tiada kaedah brute-force atau algoritma khas yang mampu menyelesaikannya. Ruang langkah permainan go dan ruang konfigurasi protein jauh melebihi jumlah atom di alam semesta. Kedua, anda boleh mentakrifkan fungsi objektif dengan jelas, seperti meminimumkan tenaga bebas protein, atau menang dalam permainan go, supaya sistem boleh melakukan peningkatan gradien. Ketiga, terdapat data yang mencukupi, atau sebuah simulator yang mampu menghasilkan sejumlah besar data sintetik yang tersebar dalam taburan tersebut.

Jika ketiga syarat ini dipenuhi, maka dengan kaedah hari ini, kita boleh pergi jauh untuk mencari "jarum di tumpukan jerami" yang anda perlukan. Penemuan ubat juga mengikuti logik yang sama: terdapat sejenis sebatian yang boleh merawat penyakit ini tanpa kesan sampingan, dan selagi hukum fizik membenarkannya wujud, satu-satunya masalah ialah bagaimana untuk mencarinya dengan cekap dan boleh dilaksanakan. Saya percaya AlphaFold membuktikan buat pertama kalinya bahawa sistem sebegini mampu mencari jarum ini di dalam ruang pencarian yang sangat besar.

Gary Tan: Saya ingin naik ke tahap yang lebih tinggi. Kita sedang membahas bagaimana manusia menggunakan kaedah-kaedah ini untuk mencipta AlphaFold, tetapi terdapat satu dimensi meta lagi, iaitu manusia menggunakan AI untuk meneroka ruang hipotesis yang mungkin. Sejauh manakah kita dari sistem AI yang mampu melakukan penalaran saintifik sejati (bukan sekadar pencocokan pola data)?

Demis Hassabis: Saya rasa kita sudah sangat dekat. Kami sedang membangun sistem generik semacam ini. Kami mempunyai sistem bernama AI co-scientist, serta algoritma seperti AlphaEvolve, yang mampu melakukan perkara yang lebih lanjut daripada Gemini asas. Semua makmal terkini sedang menyelidiki arah ini.

Namun, sejauh ini, saya sendiri belum melihat satu pun penemuan ilmiah yang benar-benar besar dan signifikan yang dihasilkan oleh sistem-sistem ini. Saya rasa ia akan segera datang. Ia mungkin berkaitan dengan kreativiti yang kita perbincangkan sebelum ini—tembus batas yang sudah diketahui. Pada tahap itu, ia bukan lagi pemadanan pola, kerana tiada pola yang boleh dipadankan. Ia juga bukan semata-mata ekstrapolasi, tetapi semacam penalaran analogi (analogical reasoning), yang menurut saya sistem-sistem ini belum memiliki, atau kita belum menggunakannya dengan cara yang betul.

Salah satu piawaian yang selalu saya katakan dalam bidang sains ialah, adakah ia mampu mengemukakan satu hipotesis yang benar-benar menarik, bukan sekadar mengesahkan satu hipotesis. Kerana mengesahkan satu hipotesis pun boleh menjadi perkara besar, seperti membuktikan konjektur Riemann atau menyelesaikan salah satu masalah Hadiah Milenium, tetapi mungkin kita hanya tinggal beberapa tahun lagi untuk sampai ke tahap itu.

Yang lebih sukar lagi ialah, mampukah kita mencadangkan satu set masalah Hadiah Milenium yang baru, yang dianggap sama mendalam dan patut diteliti seumur hidup oleh ahli matematik terkemuka? Saya rasa ini lebih sukar lagi satu peringkat, dan kita masih belum tahu bagaimana untuk melakukannya. Tetapi saya tidak percaya ini adalah sihir; saya percaya sistem-sistem ini akhirnya akan mampu melakukannya, mungkin hanya kurang satu atau dua perkara lagi.

Cara yang boleh kita gunakan untuk menguji ini ialah, saya kadang-kadang menyebutnya sebagai "ujian Einstein", iaitu adakah anda boleh melatih sistem dengan pengetahuan tahun 1901, kemudian membiarkannya menyimpulkan secara bebas pencapaian Einstein pada tahun 1905, termasuk teori relativiti khas dan kertas-kertas lainnya pada tahun itu. Saya rasa kita sepatutnya benar-benar menjalankan ujian ini, mencuba berulang-ulang, dan melihat bila ia boleh dilakukan. Sekali ia berjaya, sistem-sistem ini akan berada sangat dekat dengan penciptaan perkara baru yang sebenar.

Cadangan perniagaan

Gary Tan: Soalan terakhir. Terdapat banyak orang di sini dengan latar belakang teknikal mendalam yang ingin membuat perkara seukuran anda, salah satu organisasi penyelidikan AI terbesar di dunia. Anda telah melalui garis depan penyelidikan AGI—apakah satu perkara yang anda ketahui sekarang tetapi berharap anda tahu ketika berumur 25 tahun?

Demis Hassabis: Kami sebenarnya sudah membahas sebahagian daripadanya. Anda akan mendapati bahawa mencari soalan sukar dan mencari soalan mudah sebenarnya mempunyai tahap kesukaran yang hampir sama, hanya cara kesukarannya berbeza. Perkara yang berbeza mempunyai cabaran yang berbeza. Tetapi hidup ini singkat, dan tenaga anda terhad; lebih baik anda curahkan kehidupan anda kepada perkara yang jika anda tidak lakukan, benar-benar tiada orang lain yang akan melakukannya. Gunakan ukuran ini untuk memilih.

Selain itu, saya rasa dalam beberapa tahun ke depan, gabungan antar bidang akan menjadi lebih biasa, dan AI akan menjadikan antar bidang lebih mudah.

Titik terakhir bergantung pada garis masa AGI anda. Saya berada pada sekitar tahun 2030. Jika anda memulakan projek teknologi mendalam hari ini, biasanya bermakna satu perjalanan sepuluh tahun. Oleh itu, anda perlu mempertimbangkan kemungkinan AGI muncul di tengah jalan. Apa maksudnya? Ia tidak semestinya buruk, tetapi anda perlu mempertimbangkannya. Projek anda boleh memanfaatkan AGI? Sistem AGI akan berinteraksi dengan projek anda bagaimana?

Semula berkenaan hubungan antara AlphaFold dan sistem AI am, satu situasi yang saya ramalkan ialah sistem am seperti Gemini, Claude, atau yang serupa akan menggunakan sistem khusus seperti AlphaFold sebagai alat. Saya tidak percaya kita akan memasukkan semua perkara ke dalam satu “otak” besar yang tunggal; jika semua data protein dimasukkan ke dalam Gemini, ia tidak bermakna, kerana Gemini tidak perlu melipat protein. Kembali kepada apa yang anda katakan mengenai kecekapan maklumat, data protein pasti akan mengganggu kemampuan bahasanya. Cara yang lebih baik ialah mempunyai model penggunaan alat am yang sangat kuat, yang boleh memanggil atau bahkan melatih alat-alat khusus tersebut, tetapi alat-alat khusus itu adalah sistem yang berasingan.

Gagasan ini patut dipikirkan mendalam, ia memberi kesan terhadap apa yang anda bangun hari ini, termasuk jenis pabrik dan sistem kewangan yang ingin anda dirikan. Anda perlu mengambil serius jadual AGI, membayangkan bagaimana dunia akan kelihatan, kemudian membina sesuatu yang masih berguna apabila dunia itu tiba.