Google ra mắt Gemini 3.5 Flash, Spark Agent và các công cụ video mới

Google đang triển khai một cập nhật lớn cho ứng dụng Gemini, giới thiệu các tính năng agentic mới, giao diện được thiết kế lại và các công cụ tạo video mở rộng, khi công ty thúc đẩy Gemini vượt ra ngoài một chatbot để trở thành một trợ lý AI chủ động hơn.

Bản cập nhật này được đưa ra khi Gemini đạt hơn 900 triệu người dùng hàng tháng tại 230 quốc gia và hơn 70 ngôn ngữ, tăng từ 400 triệu người dùng vào năm ngoái, theo thông báo của Google. Công ty cho biết bản phát hành mới bao gồm Gemini 3.5 Flash, Gemini Omni, Daily Brief, Gemini Spark, một ứng dụng macOS mới và giao diện được thiết kế lại gọi là Neural Expressive.

Gemini Spark là sự thay đổi lớn nhất trong bản cập nhật. Google mô tả Spark là một đại lý AI cá nhân 24/7 có thể hoạt động nền trong Gmail, Docs, Slides và các công cụ Workspace khác, ngay cả khi người dùng đóng máy tính xách tay hoặc khóa điện thoại. Đại lý này có thể xử lý các tác vụ lặp lại, tổ chức thông tin từ email, tạo tài liệu dự án và soạn thảo các tin nhắn theo dõi theo hướng dẫn của người dùng.

Spark được thiết kế để chuyển đổi Gemini từ một trợ lý phản ứng thành một tác nhân luôn hoạt động, có thể tiếp tục làm việc ở nền, với quyền truy cập beta dự kiến dành cho các thuê bao Google AI Ultra tại Hoa Kỳ vào tuần tới.

Quảng cáo

Google cũng giới thiệu Daily Brief, bản tóm tắt buổi sáng cá nhân hóa lấy dữ liệu từ các ứng dụng được kết nối như Gmail và Calendar. Tính năng này được thiết kế để hiển thị các cập nhật khẩn cấp, các sự kiện sắp tới và các bước tiếp theo được đề xuất, với người dùng có thể tinh chỉnh bản tóm tắt theo thời gian thông qua phản hồi. Daily Brief bắt đầu được triển khai cho các thuê bao Google AI Plus, Pro và Ultra tại Mỹ.

Công ty cũng ra mắt Gemini Omni, một mô hình chuyển đổi các lời nhắc văn bản, hình ảnh và video thành đầu ra video chất lượng cao. Google cho biết Omni có thể hỗ trợ chỉnh sửa video hội thoại, thay đổi nền, zoom điện ảnh, mẫu và avatar AI tùy chỉnh. Mô hình này bắt đầu được triển khai toàn cầu cho các thuê bao Google AI Plus, Pro và Ultra.

Gemini Omni là một phần trong nỗ lực rộng lớn hơn của Google nhằm làm cho Gemini trở nên đa phương tiện hơn, với việc tạo video, các định dạng phản hồi phong phú hơn và tích hợp sâu hơn vào ứng dụng trở thành trọng tâm của sản phẩm.

Google cũng đang thiết kế lại Gemini thông qua Neural Expressive, một hệ thống giao diện mới với các hoạt ảnh mượt mà, hình ảnh sáng hơn, phông chữ được cập nhật, phản hồi xúc giác và tích hợp sâu hơn vào Gemini Live.

Công ty cho biết người dùng sẽ dễ dàng chuyển đổi giữa văn bản và cuộc trò chuyện giọng nói trực tiếp, đồng thời các phản hồi của Gemini sẽ trở nên trực quan hơn thông qua hình ảnh, dòng thời gian, video có lời dẫn và đồ họa động.

Bản cập nhật cũng mở rộng tham vọng của Gemini trên máy tính để bàn. Google cho biết ứng dụng macOS của họ đã có sẵn, với tích hợp Spark và các tính năng giọng nói mới dự kiến ra mắt vào mùa hè này. Những bản cập nhật đó sẽ cho phép Gemini hỗ trợ với các tệp cục bộ, tự động hóa các quy trình làm việc trên máy tính để bàn và chuyển đổi lời nói tự do thành các bản nháp sạch hơn bằng cách sử dụng ngữ cảnh màn hình.

Việc triển khai này nhấn mạnh nỗ lực rộng rãi hơn của Google nhằm biến Gemini thành một trợ lý phổ quát có thể hoạt động xuyên suốt các ứng dụng, tệp tin, phương tiện và quy trình hàng ngày. Spark sẽ được triển khai đầu tiên cho các người dùng thử nghiệm đáng tin cậy trong tuần này, trong khi phiên bản beta dành cho người đăng ký Google AI Ultra tại Mỹ dự kiến sẽ ra mắt vào tuần tới.