Thinking Machines Lab, do Mira Murati, cựu giám đốc công nghệ của OpenAI, sáng lập, đã công bố bản xem trước nghiên cứu về một mô hình được gọi là “tương tác”, nhằm thay đổi cách thức hoạt động hiện tại của AI giọng nói theo kiểu hỏi-đáp. Công ty cho biết các mô hình này có thể tạo phản hồi đồng thời khi nhận đầu vào từ người dùng, giúp cuộc hội thoại trở nên giống như cuộc gọi điện thoại hơn là gửi tin nhắn theo lượt.
Thay đổi phương thức phản hồi thành thực hiện đồng bộ
Hiện nay, cách tương tác của đa số mô hình AI khá cố định: người dùng nói xong, mô hình mới bắt đầu xử lý và đưa ra câu trả lời. Thinking Machines muốn kết hợp quá trình “nghe” và “nói” thành một, giúp mô hình liên tục hiểu ngữ cảnh và chuẩn bị phản hồi ngay khi cuộc hội thoại chưa kết thúc.
Công ty mô tả công nghệ này là “toàn song công”. Theo họ, mô hình nghiên cứu đầu tiên, TML-Interaction-Small, có thời gian phản hồi khoảng 0,40 giây, gần với tốc độ hội thoại tự nhiên của con người và nhanh hơn một số mô hình tương tự của OpenAI và Google được đề cập trong bài viết.
Hiện vẫn là bản xem trước nghiên cứu
Tuy nhiên, khả năng này hiện chưa phải là sản phẩm chính thức dành cho công chúng. Thinking Machines cho biết, phiên bản hiện tại là bản xem trước nghiên cứu và chưa cung cấp để sử dụng công khai.
Theo lịch trình công bố của công ty, trong vài tháng tới sẽ triển khai bản xem trước nghiên cứu với phạm vi hạn chế, sau đó nhằm mở rộng phạm vi vào cuối năm nay.
Trải nghiệm thực tế vẫn cần được xác minh
Từ các thông tin đã được tiết lộ, trọng tâm của hướng đi này không chỉ là giảm độ trễ, mà còn là tích hợp trực tiếp khả năng tương tác vào chính mô hình, thay vì thêm các quy trình xử lý âm thanh bên ngoài mô hình. Nếu tư tưởng này được xác thực, cách sử dụng các sản phẩm trợ lý giọng nói, hợp tác thời gian thực và AI đối thoại đều có thể thay đổi.
Tuy nhiên, hiện tại những gì bên ngoài có thể thấy chủ yếu là các mô tả kỹ thuật và kết quả chuẩn do công ty cung cấp. Do sản phẩm chưa được mở rộng, tính ổn định trong môi trường thực tế, hiệu quả xử lý gián đoạn và trải nghiệm hội thoại tổng thể vẫn cần được đánh giá thêm sau khi người dùng thực tế tiến hành kiểm tra.
