Demis Hassabis tentang Jadwal AGI, Terobosan Ilmiah, dan Masa Depan DeepMind

Dikumpulkan & disusun: Deep潮 TechFlow

Tamu: Demis Hassabis (pendiri DeepMind, penerima Hadiah Nobel Kimia 2024, pemimpin Google DeepMind)

Host: Gary Tan

Sumber podcast: Y Combinator

Judul asli: Demis Hassabis: Agen, AGI & Terobosan Ilmiah Besar Berikutnya

Waktu siaran: 29 April 2026

Edit caption

CEO Google DeepMind dan penerima Hadiah Nobel Kimia, Demis Hassabis, mengunjungi Y Combinator untuk membahas kemajuan kunci apa lagi yang diperlukan menuju AGI, saran bagi para pengusaha tentang cara mempertahankan keunggulan, serta di mana terobosan ilmiah besar berikutnya kemungkinan akan muncul. Penilaian paling praktis bagi pengusaha teknologi dalam untuk mempertimbangkan bahwa jika Anda memulai proyek teknologi dalam berjangka sepuluh tahun hari ini, Anda harus memasukkan kemunculan AGI ke dalam perencanaan Anda. Selain itu, ia juga mengungkapkan bahwa Isomorphic Labs (perusahaan farmasi AI yang dipisahkan dari DeepMind) akan segera mengumumkan kabar besar.

Kutipan Terpilih

AGI Roadmap and Timeline

Komponen teknis yang ada ini hampir pasti akan menjadi bagian dari arsitektur akhir AGI.
Masalah-masalah terkait pembelajaran berkelanjutan, penalaran jangka panjang, dan beberapa aspek memori belum terpecahkan; AGI perlu menyelesaikan semuanya.
Jika garis waktu AGI Anda sama seperti saya, sekitar tahun 2030, dan Anda baru memulai proyek teknologi dalam hari ini, maka Anda harus mempertimbangkan bahwa AGI akan muncul di tengah jalan.

Memori dan jendela konteks

Jendela konteks kira-kira setara dengan memori kerja. Memori kerja manusia rata-rata hanya mampu menampung tujuh angka, sedangkan kami memiliki jendela konteks jutaan bahkan puluhan juta token. Namun masalahnya, kami memasukkan segala sesuatu ke dalamnya, termasuk informasi yang tidak penting dan salah, dan saat ini pendekatan ini cukup kasar.
Jika Anda perlu memproses aliran video real-time dan menyimpan semua token, satu juta token sebenarnya hanya cukup untuk sekitar 20 menit.

Kekurangan dalam penalaran

Saya suka bermain catur dengan Gemini. Kadang-kadang ia menyadari itu adalah langkah buruk, tetapi tidak bisa menemukan langkah yang lebih baik, sehingga setelah berputar-putar, ia tetap membuat langkah buruk itu. Namun, sistem penalaran yang akurat seharusnya tidak mengalami situasi seperti ini.
Ia di satu sisi mampu menyelesaikan soal setara medali emas IMO, tetapi di sisi lain, jika diajukan dengan cara berbeda, ia akan membuat kesalahan matematika tingkat sekolah dasar. Dalam refleksi terhadap proses berpikirnya sendiri, sepertinya masih kurang sesuatu.

Agen dan Kreativitas

Untuk mencapai AGI, Anda memerlukan sistem yang secara aktif menyelesaikan masalah untuk Anda. Agent adalah jalurnya, dan menurut saya kita baru saja memulai.
Saya belum melihat ada yang membuat game 3A yang menduduki puncak tangga aplikasi dengan vibe coding. Berdasarkan upaya yang saat ini diinvestasikan, seharusnya ini mungkin, tapi belum terjadi. Ini menunjukkan bahwa ada sesuatu yang masih kurang dalam alat atau prosesnya.

Distilasi dan model kecil

Asumsi kami adalah bahwa, enam bulan hingga satu tahun setelah peluncuran model Pro canggih, kemampuannya dapat dikompresi menjadi model yang sangat kecil dan dapat dijalankan di perangkat edge. Saat ini, kami belum menemukan batas densitas informasi secara teoritis.

Scientific discoveries and the "Einstein Test"

Saya terkadang menyebutnya sebagai "uji Einstein", yaitu apakah mungkin melatih sistem dengan pengetahuan tahun 1901, lalu membiarkannya secara mandiri menyimpulkan pencapaian Einstein tahun 1905, termasuk teori relativitas khusus. Setelah bisa melakukannya, sistem-sistem ini akan sangat dekat dengan kemampuan menciptakan hal-hal benar-benar baru.
Menyelesaikan satu masalah Hadiah Milenium sudah luar biasa. Tetapi yang lebih sulit adalah, apakah mungkin mengusulkan satu set masalah Hadiah Milenium baru yang dianggap oleh matematikawan terkemuka sama mendalam dan layak untuk diteliti seumur hidup.

Saran startup teknologi mendalam

Menanyakan pertanyaan sulit atau pertanyaan mudah, sebenarnya hampir sama, hanya cara kesulitannya yang berbeda. Hidup ini singkat, lebih baik habiskan energi untuk hal-hal yang jika tidak kamu lakukan, benar-benar tidak ada yang akan melakukannya.

Jalur pencapaian AGI

Gary Tan: Anda telah memikirkan AGI lebih lama daripada hampir semua orang. Melihat paradigma saat ini, menurut Anda seberapa besar arsitektur akhir AGI yang sudah kita miliki? Apa yang secara mendasar masih hilang sekarang?

Demis Hassabis: Pelatihan pra-terbesar, RLHF, rantai pemikiran, dan sebagainya—saya sangat yakin bahwa semuanya akan menjadi bagian dari arsitektur akhir AGI. Teknologi-teknologi ini telah membuktikan begitu banyak hal hingga saat ini. Saya sulit membayangkan bahwa dalam dua tahun ke depan kita akan menemukan bahwa ini adalah jalan buntu; itu tidak masuk akal bagi saya. Namun, di atas hal-hal yang sudah ada, mungkin masih kurang satu atau dua hal. Pembelajaran berkelanjutan (continual learning), penalaran jangka panjang (long-term reasoning), beberapa aspek memori, dan beberapa masalah belum terpecahkan. AGI memerlukan semuanya untuk diselesaikan. Mungkin teknologi yang ada ditambah beberapa inovasi progresif dapat diperluas hingga mencapai tingkat itu, tetapi mungkin masih tersisa satu atau dua poin kunci besar yang perlu ditembus. Saya tidak merasa akan lebih dari satu atau dua. Secara pribadi, saya memperkirakan kemungkinan adanya poin kunci yang belum terpecahkan ini sekitar 50-50. Oleh karena itu, di Google DeepMind, kami mendorong kedua jalur tersebut secara bersamaan.

Gary Tan: Saya berurusan dengan banyak sistem Agen, yang paling mengejutkan saya adalah bahwa di tingkat dasar, semuanya hanya berputar-putar pada bobot yang sama. Jadi konsep pembelajaran berkelanjutan sangat menarik, karena sekarang kita pada dasarnya hanya menggunakan plester sementara, seperti halnya 'siklus mimpi malam' dan sejenisnya.

Demis Hassabis: Ya, siklus mimpi itu cukup keren. Kami sebelumnya sudah memikirkan masalah integrasi memori kontekstual. Penelitian doktoral saya adalah bagaimana hipokampus mengintegrasikan pengetahuan baru secara elegan ke dalam sistem pengetahuan yang sudah ada. Otak melakukan hal ini dengan sangat baik. Proses ini terjadi selama tidur, terutama selama tidur REM (rapid eye movement), ketika pengalaman penting diputar ulang untuk dipelajari. Program Atari pertama kami, DQN (Deep Q-Network yang diterbitkan DeepMind pada 2013, pertama kali mencapai tingkat manusia dalam game Atari menggunakan deep reinforcement learning), mampu menguasai game Atari, dan salah satu metode kuncinya adalah experience replay. Ini diambil dari ilmu saraf, di mana jalur sukses diputar ulang berulang-ulang. Itu terjadi pada tahun 2013, yang dianggap zaman purba dalam bidang AI, tetapi pada saat itu sangat krusial.

Saya setuju dengan Anda, sekarang kita memang menggunakan selotip untuk menempelkan semuanya ke dalam jendela konteks. Rasanya tidak tepat. Bahkan jika yang kita buat adalah mesin, bukan otak biologis, secara teoritis kita bisa memiliki jendela konteks dengan jutaan atau bahkan puluhan juta token, dan ingatan bisa sempurna, tetapi biaya pencarian dan pengambilan tetap ada. Pada saat ini, ketika kita membutuhkan keputusan spesifik, menemukan informasi yang benar-benar relevan tidaklah mudah, meskipun Anda bisa menyimpan semuanya. Jadi saya merasa ada ruang besar untuk inovasi di bidang memori.

Gary Tan: Sejujurnya, jendela konteks jutaan token sudah jauh lebih besar dari yang saya perkirakan, bisa melakukan banyak hal.

Demis Hassabis: Untuk sebagian besar skenario penggunaannya, ukuran ini sudah cukup. Tetapi bayangkan, jendela konteks kira-kira setara dengan memori kerja. Memori kerja manusia rata-rata hanya mampu menahan tujuh angka, sementara kita memiliki jendela konteks dalam jutaan bahkan puluhan juta. Masalahnya adalah kita memasukkan segala sesuatu ke dalamnya, termasuk informasi yang tidak penting atau bahkan salah, dan saat ini pendekatannya masih sangat kasar. Selain itu, jika Anda ingin memproses aliran video real-time dan secara naif merekam semua token, satu juta token sebenarnya hanya cukup untuk sekitar 20 menit. Namun, jika Anda ingin sistem memahami kehidupan Anda selama satu atau dua bulan terakhir, itu masih jauh dari cukup.

Gary Tan: DeepMind selalu sangat berkomitmen terhadap pembelajaran penguatan dan pencarian; filosofi ini telah tertanam seberapa dalam dalam proses pengembangan Gemini saat ini? Apakah pembelajaran penguatan masih diremehkan?

Demis Hassabis: Mungkin memang diremehkan. Perhatian terhadap bidang ini naik turun. Kami telah bekerja pada sistem Agent sejak hari pertama berdirinya DeepMind. Semua pekerjaan di Atari dan AlphaGo pada dasarnya adalah sistem Agent pembelajaran penguatan, yang mampu mencapai tujuan secara mandiri, membuat keputusan, dan merencanakan. Tentu saja, kami memilih bidang game karena kompleksitasnya terkendali, lalu secara bertahap beralih ke game yang lebih kompleks, seperti setelah AlphaGo kami membuat AlphaStar—pada dasarnya, kami telah melakukan semua game yang mungkin.

Masalah berikutnya adalah, apakah model-model ini dapat digeneralisasi menjadi model dunia atau model bahasa, bukan hanya model game. Selama beberapa tahun terakhir, kami telah melakukan hal ini. Pola berpikir dan penalaran rantai pemikiran pada semua model terkemuka saat ini pada dasarnya adalah kembalinya hal-hal yang diperkenalkan oleh AlphaGo pada masanya. Saya merasa banyak pekerjaan yang kami lakukan pada waktu itu sangat relevan dengan saat ini; kami sedang meninjau kembali ide-ide lama tersebut dengan skala yang lebih besar dan cara yang lebih umum, termasuk berbagai metode pembelajaran penguatan seperti Monte Carlo tree search. Gagasan-gagasan dari AlphaGo dan AlphaZero sangat relevan dengan model dasar saat ini, dan saya percaya sebagian besar kemajuan dalam beberapa tahun ke depan akan berasal dari sini.

Distilasi dan model kecil

Gary Tan: Sekarang untuk menjadi lebih cerdas, diperlukan model yang lebih besar, tetapi teknik distilasi juga terus berkembang, sehingga model kecil bisa menjadi sangat cepat. Model Flash Anda sangat kuat, pada dasarnya mampu mencapai 95% kinerja model terdepan, tetapi harganya hanya sepertiga. Benar?

Demis Hassabis: Saya merasa ini salah satu keunggulan inti kami. Anda harus membangun model terbesar terlebih dahulu untuk mendapatkan kemampuan terdepan. Salah satu keunggulan utama kami adalah kemampuan untuk dengan cepat mendistilasi dan mengompresi kemampuan-kemampuan tersebut ke dalam model yang semakin kecil. Metode distilasi ini sebenarnya kami ciptakan, dan hingga kini kami tetap menjadi yang terdepan di dunia. Selain itu, kami memiliki dorongan bisnis yang kuat untuk melakukannya. Kami kemungkinan besar adalah platform aplikasi AI terbesar di dunia. Dengan memiliki AI Overviews dan AI Mode, serta Gemini, setiap produk Google—termasuk Maps dan YouTube—sekarang sedang mengintegrasikan Gemini atau teknologi terkait. Ini melibatkan miliaran pengguna, serta selusin produk dengan pengguna miliaran. Produk-produk ini harus sangat cepat, sangat efisien, biaya sangat rendah, dan latensi sangat rendah. Hal ini memberi kami dorongan besar untuk membuat model Flash dan Flash-Lite yang lebih kecil menjadi seefisien mungkin, dan saya berharap pada akhirnya ini juga dapat melayani berbagai kebutuhan kerja pengguna.

Gary Tan: Saya penasaran seberapa pintar model-model kecil ini sebenarnya. Apakah ada batas dalam distilasi? Bisakah model berukuran 50B atau 400B secerdas model terdepan terbesar saat ini?

Demis Hassabis: Saya tidak merasa kita telah mencapai batas teori informasi, setidaknya sampai sekarang belum ada yang tahu apakah kita sudah mencapainya. Mungkin suatu hari nanti kita akan menemukan batas kepadatan informasi tertentu, tetapi saat ini asumsi kita adalah bahwa setelah model Pro mutakhir dirilis, dalam waktu enam bulan hingga satu tahun, kemampuannya dapat dikompresi menjadi model yang sangat kecil, hampir dapat dijalankan di perangkat edge. Anda juga dapat melihat hal ini pada model Gemma; model Gemma 4 kami menunjukkan kinerja sangat kuat pada ukuran yang sama. Ini semua memanfaatkan teknik distilasi besar-besaran dan optimasi efisiensi model kecil. Jadi saya benar-benar tidak melihat batas teoretis apa pun; menurut saya kita masih sangat jauh dari batas itu.

Gary Tan: Saat ini ada fenomena yang sangat aneh, yaitu jumlah pekerjaan yang dapat dilakukan oleh insinyur sekitar 500 hingga 1000 kali lebih banyak dibanding enam bulan lalu. Beberapa orang di ruangan ini mungkin sedang melakukan jumlah pekerjaan yang setara dengan 1000 kali pekerjaan seorang insinyur Google pada tahun 2000-an. Steve Yegge pernah membahas hal ini.

Demis Hassabis: Saya merasa sangat bersemangat. Model kecil memiliki banyak kegunaan. Salah satunya adalah biaya rendah dan kecepatan tinggi yang juga membawa manfaat. Dalam menulis kode atau tugas lainnya, Anda dapat beriterasi lebih cepat, terutama saat bekerja sama dengan sistem. Sistem yang cepat, meskipun bukan yang paling mutakhir, misalnya hanya 90% hingga 95% dari yang paling mutakhir, tetapi itu sudah cukup, dan keuntungan yang Anda dapatkan dari kecepatan iterasi jauh melebihi 10% tersebut.

Arah besar lainnya adalah menjalankan model-model ini di perangkat edge, bukan hanya demi efisiensi, tetapi juga demi privasi dan keamanan. Bayangkan berbagai perangkat yang memproses informasi sangat pribadi, serta robot—untuk robot di rumah Anda, Anda ingin menjalankan model yang efisien dan kuat secara lokal, hanya menyerahkan tugas tertentu ke model besar di cloud. Aliran audio dan video diproses secara lokal, data tetap di lokasi. Saya bisa membayangkan ini sebagai keadaan akhir yang sangat baik.

Memori dan penalaran

Gary Tan: Kembali ke konteks dan memori. Model saat ini bersifat stateless, bagaimana pengalaman pengembang jika memiliki kemampuan pembelajaran berkelanjutan? Bagaimana Anda membimbing model semacam itu?

Demis Hassabis: Pertanyaan ini sangat menarik. Kurangnya pembelajaran berkelanjutan merupakan hambatan utama yang mencegah Agent saat ini menyelesaikan tugas secara utuh. Agent saat ini sangat berguna untuk bagian-bagian lokal tugas, Anda bisa menyusunnya untuk melakukan hal-hal keren, tetapi mereka tidak dapat beradaptasi dengan baik dengan lingkungan spesifik Anda. Inilah alasan mengapa mereka belum benar-benar dapat "dilepaskan setelah diluncurkan"; mereka perlu mampu mempelajari konteks spesifik Anda. Untuk mencapai kecerdasan umum penuh, masalah ini harus diatasi.

Gary Tan: Kemajuan dalam penalaran sejauh mana? Model saat ini memiliki rantai pemikiran yang kuat, tetapi tetap saja membuat kesalahan yang tidak akan dilakukan oleh mahasiswa sarjana yang cerdas. Apa yang perlu diubah secara spesifik? Apa perkiraan Anda mengenai kemajuan dalam penalaran?

Demis Hassabis: Masih banyak ruang untuk inovasi dalam paradigma berpikir. Hal yang kami lakukan masih cukup kasar dan cukup brutal. Ada banyak arah perbaikan, misalnya memantau proses rantai pemikiran dan melakukan intervensi di tengah proses berpikir. Saya sering merasa, baik sistem kami maupun sistem pesaing, pada tingkat tertentu cenderung terlalu banyak berpikir dan terjebak dalam siklus.

Saya terkadang suka mengamati permainan catur di Gemini. Menarik bahwa semua model dasar terkemuka sebenarnya cukup buruk dalam bermain catur. Melihat jejak pemikiran mereka sangat berharga, karena catur adalah bidang yang sudah dipahami dengan baik, sehingga saya bisa dengan cepat menilai apakah langkahnya menyimpang atau penalarannya efektif. Yang kami lihat adalah, terkadang mereka mempertimbangkan satu langkah, menyadari itu langkah buruk, tetapi tidak bisa menemukan langkah yang lebih baik, akhirnya berputar-putar dan tetap memilih langkah buruk itu. Sistem penalaran yang akurat seharusnya tidak mengalami situasi seperti ini.

Kesenjangan besar ini masih ada, tetapi memperbaikinya mungkin hanya memerlukan satu atau dua penyesuaian. Inilah mengapa Anda melihat apa yang disebut "kecerdasan bergerigi" (jagged intelligence), yang di satu sisi mampu menyelesaikan soal setara medali emas IMO, tetapi di sisi lain justru membuat kesalahan matematika dasar ketika pertanyaannya diajukan dengan cara berbeda. Sepertinya masih kurang sesuatu dalam refleksi terhadap proses berpikirnya sendiri.

Kemampuan sebenarnya dari Agen

Gary Tan: Agent adalah topik besar. Ada yang mengatakan itu hanya hype. Secara pribadi, saya merasa ini baru saja dimulai. Apa sebenarnya penilaian internal DeepMind terhadap kemampuan Agent, dan seberapa besar perbedaannya dengan promosi di luar sana?

Demis Hassabis: Saya setuju dengan Anda, kita baru saja memulai. Untuk mencapai AGI, Anda harus memiliki sistem yang secara aktif dapat menyelesaikan masalah untuk Anda. Ini selalu jelas bagi kami. Agent adalah jalannya, dan menurut saya kita baru saja memulai. Semua orang sedang mencoba mencari cara agar Agent bekerja lebih baik bersama, dan kami telah melakukan banyak eksperimen pribadi, dan banyak dari Anda di sini juga mungkin melakukannya. Bagaimana cara mengintegrasikan Agent ke dalam alur kerja, sehingga bukan hanya sebagai tambahan, tetapi benar-benar melakukan hal-hal mendasar. Saat ini kita masih dalam tahap eksperimen. Mungkin baru dalam dua atau tiga bulan terakhir kita mulai menemukan skenario yang sangat bernilai. Teknologinya kira-kira baru sampai pada titik itu, bukan lagi sekadar demonstrasi main-main, tetapi benar-benar memberikan nilai nyata terhadap waktu dan efisiensi Anda.

Saya sering melihat orang memulai puluhan Agent agar berjalan selama puluhan jam, tetapi saya masih belum yakin apakah hasilnya sebanding dengan investasi tersebut.

Kami belum pernah melihat seseorang membuat game AAA yang menduduki puncak daftar aplikasi dengan vibe coding. Saya sendiri pernah menulisnya, dan banyak dari Anda juga pernah membuat demo kecil yang bagus. Sekarang saya bisa membuat prototipe Theme Park dalam waktu setengah jam, sedangkan saya dulu membutuhkan enam bulan saat berusia 17 tahun. Saya merasa, jika Anda menghabiskan sepanjang musim panas untuk melakukannya, Anda bisa menciptakan sesuatu yang benar-benar luar biasa. Namun, tetap dibutuhkan keahlian dan jiwa serta selera manusia; Anda harus memastikan membawa semua hal itu ke dalam setiap produk yang Anda bangun. Faktanya, sampai sekarang belum ada anak muda yang membuat game laris terjual sepuluh juta copy, padahal dengan alat-alat saat ini, seharusnya itu mungkin terjadi. Jadi, masih ada sesuatu yang kurang, mungkin terkait proses atau alatnya. Saya memperkirakan dalam 6 hingga 12 bulan ke depan kita akan melihat hasil semacam itu.

Gary Tan: Seberapa besar sebagian dari itu akan otomatis penuh? Saya rasa tidak akan langsung otomatis penuh dari awal. Jalur yang lebih mungkin adalah orang-orang di sini terlebih dahulu mencapai efisiensi 1000 kali lipat, lalu muncul seseorang yang menggunakan alat-alat ini untuk menciptakan aplikasi atau game laris, setelah itu lebih banyak tahapan akan diotomatisasi.

Demis Hassabis: Ya, inilah yang seharusnya kamu lihat terlebih dahulu.

Gary Tan: Juga ada sebagian alasan karena beberapa orang memang melakukannya, tetapi mereka tidak mau mengungkapkan seberapa besar bantuan yang diberikan oleh Agent.

Demis Hassabis: Mungkin. Tapi saya ingin membahas masalah kreativitas. Saya sering menggunakan contoh AlphaGo, semua orang tahu langkah ke-37 pada pertandingan kedua. Bagi saya, saya terus menunggu momen seperti itu muncul, dan setelah itu baru saya memulai proyek ilmiah seperti AlphaFold. Kami mulai mengerjakan AlphaFold pada hari berikutnya setelah kembali dari Seoul, itu sepuluh tahun lalu. Saya pergi ke Korea kali ini untuk merayakan ulang tahun ke-10 AlphaGo.

Namun, hanya keluar dari Move 37 tidak cukup. Itu keren dan berguna. Tetapi apakah sistem ini bisa menciptakan go itu sendiri? Jika Anda memberinya deskripsi tingkat tinggi, seperti "sebuah permainan yang aturannya bisa dipelajari dalam lima menit, tetapi sulit dikuasai seumur hidup, secara estetis elegan, dan satu pertandingan bisa selesai dalam satu sore", lalu sistem mengembalikan hasilnya berupa go. Sistem saat ini tidak bisa melakukan hal ini. Pertanyaannya adalah mengapa?

Gary Tan: Mungkin ada di antara orang-orang di sini yang bisa melakukannya.

Demis Hassabis: Jika seseorang berhasil melakukannya, maka bukan sistemnya yang kurang, melainkan cara kita menggunakan sistemnya yang bermasalah. Mungkin itulah jawaban yang benar. Mungkin sistem saat ini sudah memiliki kemampuan tersebut, hanya perlu seorang pencipta yang cukup brilian untuk menggerakkannya, memberikan jiwa pada proyek tersebut, sekaligus orang tersebut harus sangat terintegrasi dengan alatnya, hampir menyatu dengan alat tersebut. Jika Anda menghabiskan waktu siang dan malam dengan alat-alat ini dan memiliki kreativitas mendalam, mungkin Anda bisa menciptakan sesuatu yang melampaui bayangan.

Open source dan model multimodal

Gary Tan: Mari kita beralih ke topik lain, yaitu open source. Baru-baru ini, peluncuran Gemma memungkinkan model yang sangat kuat dijalankan secara lokal. Bagaimana pendapat Anda? Apakah AI akan menjadi sesuatu yang dikuasai oleh pengguna sendiri, bukan lagi terutama tersedia di cloud? Apakah ini akan mengubah siapa saja yang dapat menggunakan model-model ini untuk membangun produk?

Demis Hassabis: Kami adalah pendukung kuat dari sumber terbuka dan ilmu pengetahuan terbuka. AlphaFold yang Anda sebutkan, kami seluruhnya membukanya secara gratis. Pekerjaan ilmiah kami hingga kini tetap dipublikasikan di jurnal-jurnal terkemuka. Mengenai Gemma, kami ingin menciptakan model terkemuka di dunia dengan ukuran yang setara. Saat ini, unduhan Gemma telah mencapai sekitar 40 juta kali, dan baru dirilis selama dua setengah minggu.

Saya juga percaya pentingnya keberadaan stack teknologi Barat di bidang open source. Model open source Tiongkok sangat unggul dan saat ini memimpin di bidang open source, tetapi kami percaya Gemma sangat kompetitif dalam ukuran yang sama.

Kami juga menghadapi masalah sumber daya; tidak ada yang memiliki kapasitas komputasi berlebih untuk menjalankan dua model canggih ukuran penuh. Oleh karena itu, keputusan kami saat ini adalah: model tepi digunakan untuk Android, kacamata, robot, dll., dan sebaiknya dibuat terbuka, karena setelah dideploy ke perangkat, model tersebut sudah terpapar—lebih baik dibuka sepenuhnya. Kami telah menyatukan strategi terbuka di tingkat nano, yang juga masuk akal secara strategis.

Gary Tan: Sebelum naik ke panggung, saya menunjukkan sistem operasi AI yang saya buat; saya bisa berinteraksi langsung dengan Gemini melalui suara. Saya cukup gugup saat memperagakannya, tetapi ternyata berhasil berjalan. Gemini sejak awal dibangun sebagai model multimodal. Saya telah menggunakan banyak model, tetapi hingga kini tidak ada model lain yang bisa menandingi kemampuan interaksi suara langsung ke model, integrasi pemanggilan alat, serta pemahaman konteks mendalam yang dimiliki Gemini.

Demis Hassabis: Ya. Salah satu keunggulan Gemini yang belum sepenuhnya diakui adalah bahwa kami membangunnya sejak awal sebagai model multimodal. Ini membuat tahap awal lebih sulit dibandingkan hanya fokus pada teks, tetapi kami percaya bahwa dalam jangka panjang kami akan mendapat manfaat darinya, dan sekarang manfaat itu mulai terwujud. Misalnya, dalam hal model dunia, kami membangun Genie (model lingkungan generatif interaktif yang dikembangkan oleh DeepMind) di atas Gemini. Di bidang robotika pun demikian, Gemini Robotics akan dibangun di atas model dasar multimodal, dan keunggulan kami dalam multimodal akan menjadi keuntungan kompetitif. Kami juga semakin banyak menggunakan Gemini di Waymo (perusahaan otomotif otonom milik Alphabet).

Bayangkan asisten digital yang mengikuti Anda ke dunia nyata, mungkin di ponsel atau kacamata Anda, yang perlu memahami dunia fisik dan lingkungan di sekitar Anda. Sistem kami sangat kuat dalam hal ini. Kami akan terus berinvestasi di arah ini, dan saya percaya keunggulan kami dalam masalah semacam ini sangat besar.

Gary Tan: Biaya inferensi turun dengan cepat. Ketika inferensi hampir gratis, apa yang menjadi mungkin? Apakah arah optimasi tim Anda akan berubah karena hal ini?

Demis Hassabis: Saya tidak yakin penalaran akan benar-benar gratis, karena paradoks Jevons ada di sana. Saya merasa semua orang pada akhirnya akan menggunakan seluruh daya komputasi yang tersedia. Bayangkan jutaan agen bekerja sama, atau sekelompok kecil agen yang berpikir secara simultan di beberapa arah lalu melakukan integrasi. Kami semua sedang mengeksplorasi arah-arah ini, dan semua ini akan menghabiskan sumber daya penalaran yang tersedia.

Dalam hal energi, jika kita menyelesaikan beberapa masalah seperti fusi nuklir terkendali, superkonduktivitas suhu ruang, dan baterai optimal—saya percaya kita akan mencapainya melalui ilmu material—biaya energi bisa mendekati nol. Namun, tahapan seperti manufaktur fisik chip masih menghadapi hambatan, setidaknya selama beberapa dekade ke depan. Oleh karena itu, inferensi masih akan memiliki batasan kuota dan tetap memerlukan penggunaan yang efisien.

Berikutnya terobosan ilmiah

Gary Tan: Untungnya, model kecil semakin cerdas. Di sini ada banyak pendiri di bidang biologi dan bioteknologi. AlphaFold 3 telah melampaui protein dan diperluas ke molekul biologis yang lebih luas. Seberapa jauh kita dari pemodelan sistem sel lengkap? Apakah ini masalah dengan tingkat kesulitan yang sama sekali berbeda?

Demis Hassabis: Kemajuan Isomorphic Labs sangat baik. AlphaFold hanyalah satu tahap dalam proses penemuan obat; kami sedang melakukan penelitian biokimia terkait, merancang senyawa dengan sifat yang tepat, dan segera akan ada pengumuman besar.

Tujuan akhir kami adalah menciptakan sel virtual lengkap, sebuah simulator sel fungsional penuh yang dapat Anda beri gangguan, dengan output yang cukup dekat dengan hasil eksperimen dan memiliki manfaat nyata. Anda dapat melewati banyak langkah pencarian, menghasilkan sejumlah besar data sintetis untuk melatih model lain agar memprediksi perilaku sel nyata.

Saya perkirakan masih ada sekitar sepuluh tahun lagi sebelum mencapai sel virtual lengkap. Di sisi ilmiah DeepMind, kami mulai dari inti sel virtual, karena inti sel relatif mandiri. Kunci masalah semacam ini adalah apakah kita bisa memotong potongan dengan tingkat kompleksitas yang tepat, yang cukup mandiri, sehingga kita bisa secara masuk akal mengaproksimasi input dan outputnya, lalu fokus pada sub-sistem ini. Dari sudut pandang ini, inti sel sangat cocok.

Masalah lain adalah data yang tidak cukup. Saya telah berbicara dengan para ilmuwan terkemuka yang bekerja dengan mikroskop elektron dan teknik pencitraan lainnya. Jika kita bisa mencitrakan sel hidup tanpa membunuhnya, itu akan revolusioner. Karena itu akan mengubahnya menjadi masalah visual, dan kita sudah tahu cara menyelesaikan masalah visual. Namun, menurut pemahaman saya, saat ini belum ada teknologi yang dapat mencitrakan sel dinamis yang hidup dengan resolusi nanometer tanpa merusaknya. Anda bisa mengambil gambar statis pada resolusi itu, dan itu sudah sangat halus—sangat menarik—tetapi belum cukup untuk langsung mengubahnya menjadi masalah visual.

Jadi ada dua jalur: satu adalah pendekatan yang didorong oleh perangkat keras dan data; yang lain adalah membangun simulator yang dapat belajar lebih baik untuk mensimulasikan sistem dinamis ini.

Gary Tan: Anda tidak hanya melihat biologi. Ilmu material, penemuan obat, pemodelan iklim, matematika, jika harus diurutkan, bidang ilmiah mana yang akan paling terubah dalam lima tahun mendatang?

Demis Hassabis: Setiap bidang sangat menarik, dan itulah mengapa ini selalu menjadi semangat terbesar saya, serta alasan mengapa saya telah berkecimpung di bidang AI selama lebih dari 30 tahun. Saya selalu percaya bahwa AI akan menjadi alat paling mendasar bagi ilmu pengetahuan untuk memajukan pemahaman ilmiah, penemuan ilmiah, kedokteran, dan pemahaman kita terhadap alam semesta.

Cara awal kami menyampaikan misi kami adalah dalam dua langkah. Langkah pertama, menyelesaikan kecerdasan, yaitu membangun AGI; langkah kedua, menggunakannya untuk menyelesaikan semua masalah lainnya. Kemudian kami harus menyesuaikan rumusan karena ada yang bertanya, "Apakah kalian benar-benar berarti menyelesaikan semua masalah?" Ya, itulah yang kami maksud. Sekarang orang mulai memahami apa artinya itu. Secara khusus, saya merujuk pada bidang ilmiah yang saya sebut sebagai "masalah akar", yaitu bidang-bidang yang, setelah terobosan, akan membuka cabang-cabang penemuan baru. AlphaFold adalah prototipe dari apa yang ingin kami capai. Lebih dari tiga juta peneliti di seluruh dunia, hampir semua peneliti biologi sekarang menggunakan AlphaFold. Saya mendengar dari beberapa teman eksekutif perusahaan farmasi bahwa hampir semua obat yang ditemukan di masa depan akan menggunakan AlphaFold di salah satu tahap proses penemuan obat. Kami bangga atas hal ini, dan ini adalah dampak yang ingin kami lihat dari AI. Tapi saya rasa ini baru permulaan.

Saya tidak bisa memikirkan bidang ilmiah atau teknik mana pun yang tidak bisa dibantu oleh AI. Bidang-bidang yang Anda sebutkan menurut saya saat ini berada di titik “AlphaFold 1”, di mana hasilnya sudah sangat menjanjikan, tetapi belum benar-benar menyelesaikan tantangan utama di bidang tersebut. Dalam dua tahun ke depan, kita akan memiliki banyak kemajuan untuk dibahas di semua bidang ini, mulai dari ilmu material hingga matematika.

Gary Tan: Rasanya seperti prometheus, memberikan manusia kemampuan baru yang sama sekali berbeda.

Demis Hassabis: Benar. Tentu saja, seperti makna cerita Prometheus, kita juga harus berhati-hati terhadap bagaimana kemampuan ini digunakan, di mana digunakan, serta risiko penyalahgunaan alat yang sama.

Pengalaman sukses

Gary Tan: Banyak di antara Anda yang mencoba mendirikan perusahaan yang menerapkan AI untuk ilmu pengetahuan. Menurut Anda, apa perbedaan antara perusahaan startup yang benar-benar mendorong batas-batas terdepan dengan perusahaan yang hanya menambahkan API ke model dasar, lalu menyebut diri mereka "AI for Science"?

Demis Hassabis: Saya berpikir, jika hari ini saya duduk di posisi kalian, meninjau proyek di Y Combinator, apa yang akan saya lakukan. Satu hal adalah Anda harus memprediksi arah perkembangan teknologi AI, yang memang sulit. Namun saya benar-benar percaya bahwa menggabungkan arah perkembangan AI dengan bidang teknologi dalam lainnya memiliki peluang besar. Titik persilangan ini, baik itu material, kedokteran, atau bidang ilmiah sulit lainnya, terutama yang melibatkan dunia atom, tidak akan memiliki jalan pintas dalam jangka waktu yang dapat diprediksi. Bidang-bidang ini tidak akan dilenyapkan oleh pembaruan model dasar berikutnya. Tetapi jika Anda mencari arah yang memiliki daya tahan tinggi, ini adalah yang akan saya rekomendasikan.

Saya selalu menyukai teknologi mendalam. Hal-hal yang benar-benar berkelanjutan dan bernilai tidak pernah mudah. Saya selalu tertarik pada teknologi mendalam. Pada tahun 2010 saat kami memulai, AI adalah teknologi mendalam—investor berkata kepada saya, “Kami sudah tahu ini tidak akan berhasil,” dan akademisi juga menganggapnya sebagai arah niche yang pernah dicoba di tahun 90-an dan gagal. Tetapi jika Anda percaya pada ide Anda—mengapa kali ini berbeda, kombinasi latar belakang Anda apa yang unik—idealnya Anda sendiri adalah ahli di bidang pembelajaran mesin dan aplikasi, atau Anda dapat membentuk tim pendiri semacam itu—di sana ada potensi dampak dan nilai besar yang dapat diciptakan.

Gary Tan: Informasi ini sangat penting. Sesuatu yang sudah selesai terlihat seperti hal yang wajar, tetapi sebelum berhasil, semua orang akan menentangmu.

Demis Hassabis: Tentu, jadi Anda harus melakukan hal yang benar-benar Anda sukai. Bagi saya, apa pun yang terjadi, saya akan tetap melakukannya di bidang AI. Saya sudah memutuskan sejak kecil bahwa ini adalah hal paling berdampak yang bisa saya bayangkan. Faktanya memang membuktikan hal itu, tetapi mungkin juga tidak, mungkin kita terlalu maju 50 tahun. Dan ini juga merupakan hal paling menarik yang bisa saya bayangkan. Bahkan jika hari ini kita masih berada di dalam garasi kecil dan AI belum terwujud, saya tetap akan mencari cara untuk terus melanjutkannya. Mungkin saya akan kembali ke dunia akademis, tetapi saya akan menemukan cara tertentu untuk terus melangkah.

Gary Tan: AlphaFold adalah contoh di mana Anda mengejar satu arah dan berhasil menebak dengan benar. Apa yang membuat suatu bidang ilmiah cocok untuk menghasilkan terobosan sejenis AlphaFold? Apakah ada pola, seperti fungsi tujuan tertentu?

Demis Hassabis: Saya memang seharusnya menyempatkan waktu untuk menuliskan ini. Pelajaran yang saya pelajari dari semua proyek Alpha seperti AlphaGo dan AlphaFold adalah bahwa teknologi kami saat ini paling efektif dalam kondisi berikut: Pertama, masalah memiliki ruang pencarian kombinatorial yang sangat besar, semakin besar semakin baik, hingga tidak ada metode brute-force atau algoritma khusus yang bisa menyelesaikannya. Ruang langkah dalam go dan ruang konfigurasi protein jauh melebihi jumlah atom di alam semesta. Kedua, Anda dapat mendefinisikan fungsi tujuan dengan jelas, seperti minimisasi energi bebas protein, atau kemenangan dalam permainan go, sehingga sistem dapat melakukan gradient ascent. Ketiga, tersedia cukup banyak data, atau ada simulator yang dapat menghasilkan sejumlah besar data sintetis yang terdistribusi.

Jika ketiga kondisi ini terpenuhi, maka metode hari ini sudah cukup jauh untuk menemukan "jarum di tumpukan jerami" yang Anda cari. Penemuan obat juga mengikuti logika yang sama: ada senyawa tertentu yang dapat mengobati penyakit ini tanpa efek samping; selama hukum fisika memungkinkan keberadaannya, satu-satunya masalah adalah bagaimana menemukannya secara efisien dan feasible. Saya percaya AlphaFold membuktikan untuk pertama kalinya bahwa sistem semacam ini mampu menemukan jarum ini di ruang pencarian yang sangat luas.

Gary Tan: Saya ingin naik ke tingkat yang lebih tinggi. Kita membahas bagaimana manusia menggunakan metode-metode ini untuk menciptakan AlphaFold, tetapi ada juga tingkat meta di mana manusia menggunakan AI untuk mengeksplorasi ruang hipotesis yang mungkin. Seberapa jauh kita dari sistem AI yang mampu melakukan penalaran ilmiah sejati (bukan hanya pencocokan pola pada data)?

Demis Hassabis: Saya merasa sudah sangat dekat. Kami sedang mengembangkan sistem umum semacam ini. Kami memiliki sistem yang disebut AI co-scientist, serta algoritma seperti AlphaEvolve, yang mampu melakukan hal-hal yang melampaui Gemini dasar. Semua laboratorium terdepan sedang mengeksplorasi arah ini.

Namun sejauh ini, saya pribadi belum melihat satu pun temuan ilmiah nyata dan signifikan yang dihasilkan oleh sistem-sistem ini. Saya merasa itu sebentar lagi akan datang. Ini mungkin terkait dengan kreativitas yang kita bahas sebelumnya, yaitu tembus batas-batas yang sudah diketahui. Pada tingkat itu, ini bukan lagi pencocokan pola, karena tidak ada pola yang bisa dicocokkan. Bukan pula semata-mata ekstrapolasi, melainkan semacam penalaran analogis (analogical reasoning), yang menurut saya sistem-sistem ini belum memiliki, atau kita belum menggunakannya dengan cara yang tepat.

Salah satu standar yang sering saya sampaikan dalam bidang ilmiah adalah apakah itu dapat mengajukan sebuah hipotesis yang benar-benar menarik, bukan hanya menguji satu hipotesis. Karena menguji sebuah hipotesis sendiri juga bisa menjadi pencapaian besar, seperti membuktikan dugaan Riemann atau menyelesaikan salah satu masalah Hadiah Milenium, tetapi mungkin kita hanya tinggal beberapa tahun lagi dari mencapai langkah itu.

Yang lebih sulit lagi adalah, apakah kita bisa mengajukan satu set masalah Hadiah Milenium baru yang dianggap oleh matematikawan terkemuka sama mendalam dan layak untuk diteliti seumur hidup. Saya rasa ini lebih sulit satu tingkat lagi, dan kita saat ini belum tahu cara melakukannya. Tapi saya tidak percaya ini adalah sihir; saya yakin sistem-sistem ini pada akhirnya akan bisa melakukannya, mungkin hanya kurang satu atau dua hal lagi.

Cara yang bisa kita gunakan untuk menguji ini adalah, saya kadang menyebutnya sebagai "uji Einstein", yaitu apakah Anda bisa melatih sistem dengan pengetahuan tahun 1901, lalu membiarkannya secara mandiri menyimpulkan pencapaian Einstein tahun 1905, termasuk relativitas khusus dan makalah-makalah lainnya yang ia buat pada tahun itu. Saya merasa kita benar-benar harus menjalankan uji ini, mencoba berulang-ulang, dan melihat kapan kita bisa melakukannya. Sekali kita mampu melakukannya, sistem-sistem tersebut akan sangat dekat dengan kemampuan untuk benar-benar menciptakan hal-hal baru.

Saran kewirausahaan

Gary Tan: Pertanyaan terakhir. Banyak di antara hadirin yang memiliki latar belakang teknis mendalam dan ingin melakukan hal-hal seukuran Anda, salah satu organisasi penelitian AI terbesar di dunia. Anda telah berada di garis depan penelitian AGI, apa satu hal yang sekarang Anda ketahui, tetapi berharap sudah tahu saat berusia 25 tahun?

Demis Hassabis: Kami sebenarnya sudah membahas sebagian darinya. Anda akan menemukan bahwa mengejar masalah sulit dan mengejar masalah sederhana sebenarnya tingkat kesulitannya hampir sama, hanya saja caranya berbeda. Hal-hal berbeda memiliki tantangan berbeda. Tetapi hidup singkat, energi terbatas, lebih baik Anda curahkan seluruh energi Anda pada hal-hal yang jika Anda tidak melakukannya, benar-benar tidak ada yang akan melakukannya. Gunakan standar ini untuk memilih.

Selain itu, saya merasa dalam beberapa tahun ke depan, kombinasi lintas bidang akan menjadi lebih umum, dan AI akan membuat lintas bidang menjadi lebih mudah.

Poin terakhir tergantung pada garis waktu AGI Anda. Saya memperkirakan sekitar tahun 2030. Jika Anda memulai proyek deep tech hari ini, biasanya berarti perjalanan sepuluh tahun. Maka Anda harus mempertimbangkan kemungkinan AGI muncul di tengah jalan. Apa artinya ini? Tidak selalu buruk, tetapi Anda harus mempertimbangkannya. Apakah proyek Anda dapat memanfaatkan AGI? Bagaimana sistem AGI akan berinteraksi dengan proyek Anda?

Kembali ke pembahasan sebelumnya tentang hubungan antara AlphaFold dan sistem AI umum, saya membayangkan satu skenario di mana sistem umum seperti Gemini, Claude, atau yang serupa akan memanggil sistem khusus seperti AlphaFold sebagai alat. Saya tidak percaya kita akan memasukkan semua hal ke dalam satu "otak" besar yang tunggal; jika semua data protein dimasukkan ke dalam Gemini, itu tidak masuk akal, karena Gemini tidak perlu melakukan pelipatan protein. Kembali ke yang Anda katakan tentang efisiensi informasi, data protein pasti akan menghambat kemampuan bahasanya. Cara yang lebih baik adalah memiliki model penggunaan alat umum yang sangat kuat, yang dapat memanggil bahkan melatih alat-alat khusus tersebut, tetapi alat-alat khusus tetap merupakan sistem yang terpisah.

Gagasan ini layak dipikirkan mendalam, dampaknya terhadap apa yang akan Anda bangun hari ini, termasuk pabrik seperti apa dan sistem keuangan seperti apa yang akan Anda bangun. Anda perlu memperlakukan jadwal AGI dengan serius, membayangkan seperti apa dunia itu, lalu membangun sesuatu yang tetap berguna ketika dunia itu tiba.