Trong nhiều năm, các mô hình ngôn ngữ lớn đã hoạt động như một người đánh máy cực nhanh: một từ một từ, từ trái sang phải, không quay lại xem lại. DiffusionGemma vứt bỏ hoàn toàn kế hoạch đó. Mô hình mở này sử dụng các kỹ thuật khuếch tán để tạo ra các khối văn bản đầy đủ đồng thời, đạt tốc độ sinh văn bản nhanh gấp bốn lần so với các mô hình tự hồi quy truyền thống.
DiffusionGemma hoạt động như thế nào
Các mô hình ngôn ngữ truyền thống tạo văn bản theo trình tự. Mỗi token (khoảng một từ hoặc một phần từ) được tạo ra lần lượt, với mỗi token mới phụ thuộc vào tất cả những gì đã xuất hiện trước đó.
DiffusionGemma vay mượn từ cùng một gia đình các kỹ thuật đã cách mạng hóa việc tạo hình ảnh. Các mô hình khuếch tán hoạt động bằng cách bắt đầu với nhiễu và tinh chỉnh dần dần để tạo ra đầu ra mạch lạc. Áp dụng cho văn bản, điều này có nghĩa là mô hình có thể xử lý nhiều phần của câu trả lời cùng lúc thay vì chờ mỗi từ được hoàn tất trước khi chuyển sang từ tiếp theo.
Trong các đánh giá, DiffusionGemma đạt tốc độ lấy mẫu khoảng 1.479 token mỗi giây. Sự cải thiện tốc độ 4 lần này không phải là ngưỡng lý thuyết. Đó là một tiêu chuẩn đã được đo lường.
Vì các mô hình khuếch tán tinh chỉnh đầu ra từng bước thay vì cố định từng token vĩnh viễn, DiffusionGemma có thể điều chỉnh và sửa lỗi trong chính quá trình tạo ra nội dung. Các mô hình truyền thống không có ưu điểm đó. Một khi một từ đã được tạo ra, nó sẽ được cố định, và mọi lỗi downstream sẽ lan truyền về phía trước.
Góc độ phần cứng và mối liên hệ với Google DeepMind
DiffusionGemma lấy cảm hứng từ Gemini Diffusion của Google DeepMind, người tiên phong trong các phương pháp dựa trên khuếch tán để tạo văn bản hiệu quả.
DiffusionGemma được tối ưu hóa đặc biệt cho các nền tảng NVIDIA, bao gồm các hệ thống RTX PRO và DGX, giúp các nhà phát triển có thể chạy mô hình này tại địa phương với hiệu suất được tăng tốc thay vì phụ thuộc hoàn toàn vào các API đám mây.
Các đánh giá chuẩn cho thấy DiffusionGemma hoạt động tương đương với các mô hình lớn hơn trong khi vẫn duy trì lợi thế về tốc độ. Để tham khảo, Gemini Diffusion đạt 30,9% so với 28,5% của Gemini 2.0 Flash-Lite trên các bài kiểm tra đánh giá.
Điều này có nghĩa gì đối với bức tranh AI và các nhà đầu tư
Đối với các doanh nghiệp phụ thuộc vào việc tạo văn bản nhanh chóng, những hệ quả là rõ ràng. Các quy trình tạo nội dung, tự động hóa dịch vụ khách hàng, công cụ tạo mã và bất kỳ ứng dụng nào mà độ trễ là yếu tố quan trọng đều có thể hưởng lợi từ việc tăng tốc 4 lần. Việc suy luận nhanh hơn cũng có nghĩa là chi phí tính toán trên mỗi truy vấn giảm xuống,直接影响 đến kinh tế khi triển khai AI quy mô lớn.
Rủi ro chính là mức độ áp dụng. Một mô hình có thể cho kết quả đánh giá tốt trong các bài kiểm tra kiểm soát nhưng vẫn gặp khó khăn trước những yêu cầu hỗn loạn và không thể dự đoán được khi triển khai thực tế. Việc nó là mã nguồn mở và được tối ưu hóa cho phần cứng NVIDIA phổ biến ít nhất đã loại bỏ hai rào cản phổ biến để tìm hiểu.
