Thinking Machines Lab, yang didirikan oleh Mira Murati, mantan Chief Technology Officer OpenAI, mengumumkan pratinjau penelitian bernama "Interactive Model" yang berusaha mengubah cara kerja AI suara saat ini yang hanya menjawab satu pertanyaan sekaligus. Perusahaan menyatakan bahwa model semacam ini dapat menghasilkan respons sambil menerima input pengguna, membuat percakapan lebih mirip dengan panggilan telepon daripada saling mengirim pesan bergiliran.
Cara respons diubah menjadi sinkron
Sebagian besar model AI saat ini memiliki cara interaksi yang cukup tetap: pengguna selesai berbicara, baru model mulai memproses dan menjawab. Thinking Machines ingin menggabungkan proses "mendengar" dan "berbicara" menjadi satu, sehingga model dapat terus memahami konteks dan mempersiapkan respons selama percakapan belum selesai.
Perusahaan menggambarkan teknologi ini sebagai "full-duplex". Menurut mereka, model penelitian pertama, TML-Interaction-Small, memiliki waktu respons sekitar 0,40 detik, mendekati kecepatan percakapan manusia alami, serta lebih cepat daripada sebagian model sejenis OpenAI dan Google yang disebutkan dalam artikel.
Masih dalam versi preview penelitian
Namun, kemampuan ini saat ini belum merupakan produk resmi yang tersedia untuk umum. Thinking Machines menyatakan bahwa versi yang dirilis saat ini adalah pra-pandangan penelitian, dan belum tersedia untuk penggunaan publik.
Menurut jadwal yang diungkapkan perusahaan, dalam beberapa bulan mendatang akan diluncurkan versi preview penelitian terbatas, kemudian berusaha memperluas cakupannya pada akhir tahun ini.
Pengalaman nyata masih perlu diverifikasi
Dari informasi yang telah diungkapkan, fokus arah ini bukan hanya memperpendek latensi, tetapi juga mengintegrasikan kemampuan interaktif langsung ke dalam model, bukan menambahkan proses pemrosesan suara di luar model. Jika pendekatan ini valid, cara penggunaan asisten suara, kolaborasi real-time, dan produk AI dialogis kemungkinan akan berubah.
Namun, pada tahap ini, yang masih dapat dilihat oleh pihak luar terutama adalah deskripsi teknis dan hasil benchmark yang diberikan perusahaan. Karena produk belum tersedia, stabilitas dalam skenario nyata, efektivitas penanganan gangguan, serta pengalaman percakapan keseluruhan masih perlu dinilai lebih lanjut setelah pengguna melakukan pengujian aktual.
