Google công bố khả năng suy luận AI tại chỗ nhanh hơn 3 lần mà không cần phần cứng mới

CoinMarketCap báo cáo:

Việc chạy mô hình trí tuệ nhân tạo trên máy tính cá nhân của bạn thật tuyệt vời—nhưng không phải lúc nào cũng vậy.

Cam kết bảo vệ quyền riêng tư, không thu phí đăng ký và dữ liệu không rời khỏi thiết bị của bạn. Nhưng đối với hầu hết mọi người, thực tế là giữa các câu, con trỏ sẽ nhấp nháy năm giây.

Nút thắt này có một cái tên: tốc độ suy luận. Nó không liên quan đến mức độ thông minh của mô hình, mà là một vấn đề phần cứng. Các mô hình AI tiêu chuẩn tạo ra từng từ nhỏ (gọi là “token”), và phần cứng phải truyền hàng tỷ tham số từ bộ nhớ đến đơn vị tính toán để tạo ra mỗi token. Thiết kế này vốn dĩ rất chậm. Trên phần cứng tiêu dùng, điều này thật sự không thể chịu nổi.

Phương pháp bù đắp mà đa số người dùng áp dụng là chạy các mô hình có quy mô nhỏ hơn và hiệu năng yếu hơn, hoặc chạy phiên bản được nén mạnh, gọi là quantized models. Cả hai giải pháp này đều không hoàn hảo, vì chúng đều đánh đổi một phần chất lượng để đổi lấy tốc độ. Mặc dù đều có thể chạy được, nhưng chúng không phải là loại mô hình bạn thực sự mong muốn.

Hiện tại, Google đã đưa ra một giải pháp khác. Công ty vừa công bố bản nháp Multi-Token Prediction (MTP) cho công nghệ mô hình mở Gemma 4 Family — công nghệ này có thể tăng tốc độ lên tới 3 lần mà hoàn toàn không ảnh hưởng đến chất lượng mô hình hay khả năng suy luận.

Phương pháp này được gọi là speculative decoding, và khái niệm này đã tồn tại nhiều năm. Các nhà nghiên cứu của Google đã công bố bài báo nền tảng từ năm 2022. Cho đến nay, ý tưởng này mới dần được chấp nhận rộng rãi vì nó yêu cầu kiến trúc phù hợp để vận hành quy mô lớn.

Nói một cách đơn giản, nguyên lý hoạt động như sau: thay vì để mô hình lớn mạnh thực hiện toàn bộ công việc, nó được kết hợp với một mô hình “bộ dự đoán” nhỏ hơn. Bộ dự đoán nhanh và chi phí thấp — nó có thể dự đoán nhiều token cùng lúc trong thời gian ngắn hơn cả thời gian mô hình chính tạo ra một token. Sau đó, mô hình lớn chỉ cần một lần duyệt để kiểm tra tất cả các dự đoán này. Nếu dự đoán chính xác, toàn bộ chuỗi sẽ được tạo ra với chi phí chỉ bằng một lần tiến triển.

According to Google "If the target model agrees with the draft, it accepts the entire sequence in a single forward pass—even generating its own additional tokens in the process."

Không có tổn thất nào: Các mô hình lớn—ví dụ như phiên bản dày đặc 31 tỷ của Gemma 4—vẫn sẽ xác thực từng token, và chất lượng đầu ra hoàn toàn giống nhau. Bạn chỉ đang tận dụng năng lực tính toán bị lãng phí trong các phần chạy chậm.

Google cho biết, mô hình phác thảo chia sẻ bộ đệm khóa-giá trị (KV cache) với mô hình mục tiêu, đây là một cấu trúc bộ nhớ lưu trữ ngữ cảnh đã xử lý, do đó chúng không lãng phí thời gian tính toán lại các thông tin mà mô hình lớn đã biết. Đối với các mô hình biên nhỏ được thiết kế riêng cho điện thoại và thiết bị Raspberry Pi, nhóm đã xây dựng một kỹ thuật phân cụm hiệu quả để giảm thêm thời gian tạo ra kết quả.

Đây không phải là nỗ lực duy nhất trong lĩnh vực trí tuệ nhân tạo nhằm song song hóa việc sinh văn bản. Các mô hình ngôn ngữ dựa trên khuếch tán—ví dụ như Mercury của Inception Labs—sử dụng một phương pháp hoàn toàn khác: thay vì dự đoán từng token một, chúng bắt đầu từ nhiễu và tối ưu hóa toàn bộ đầu ra một cách lặp đi lặp lại. Về mặt lý thuyết, chúng rất nhanh, nhưng các mô hình ngôn ngữ khuếch tán khó có thể sánh ngang về chất lượng với các mô hình Transformer truyền thống, do đó chúng chủ yếu được xem như đối tượng nghiên cứu hơn là công cụ thực dụng.

Giải mã suy luận khác biệt vì nó hoàn toàn không thay đổi mô hình nền tảng. Đó là một tối ưu hóa dịch vụ, chứ không phải thay thế kiến trúc. Phiên bản Gemma 4 mà bạn đang chạy sẽ nhanh hơn.

Hiệu quả thực tế thực sự đáng kể. Theo các bài kiểm tra chuẩn của chính Google, khi kích hoạt bản nháp MTP trên chip Gemma 4 26B với GPU桌面 Nvidia RTX Pro 6000, số lượng token xử lý mỗi giây tăng khoảng gấp đôi. Trên chip Apple Silicon, kích thước lô từ 4 đến 8 yêu cầu mang lại tốc độ tăng khoảng 2,2 lần. Mặc dù không phải tất cả các tình huống đều đạt được giới hạn 3 lần, nhưng đây vẫn là sự khác biệt rõ rệt giữa “chỉ vừa dùng được” và “nhanh đủ để sử dụng thực tế”.

Bối cảnh ở đây rất quan trọng. Khi mô hình Trung Quốc DeepSeek đã làm chấn động thị trường vào tháng 1 năm 2025. —— khiến giá trị thị trường của NVIDIA sụt giảm 600 tỷ USD trong một ngày —— bài học cốt lõi là: việc nâng cao hiệu suất có tác động lớn hơn so với việc chỉ tăng cường năng lực tính toán. Cách vận hành thông minh hơn vượt trội hơn so với việc chỉ đầu tư thêm phần cứng. Công cụ biểu đồ MTP của Google là một bước tiến nữa hướng tới mục tiêu này, chỉ khác ở chỗ đối tượng khách hàng mục tiêu của nó rõ ràng là người tiêu dùng.

Toàn bộ ngành trí tuệ nhân tạo hiện nay giống như một tam giác, bao gồm ba phần: suy luận, đào tạo và bộ nhớ. Bất kỳ sự đột phá nào trong một lĩnh vực đều sẽ tạo ra tác động thúc đẩy hoặc gây xáo trộn cho toàn bộ hệ sinh thái. Phương pháp đào tạo của DeepSeek (xây dựng mô hình mạnh mẽ bằng phần cứng giá rẻ) là một ví dụ, trong khi của Google... TurboQuant (làm thế nào để thu nhỏ bộ nhớ AI mà không làm giảm chất lượng) là một bài báo khác. Cả hai bài báo này đều dẫn đến sự sụp đổ thị trường, vì các công ty đang nỗ lực tìm cách ứng phó.

Google cho biết công cụ vẽ này có thể “tăng tốc độ phản hồi: giảm đáng kể độ trễ cho các ứng dụng trò chuyện gần như thời gian thực, ứng dụng âm thanh chìm và quy trình làm việc của đại lý” — những nhiệm vụ này cần độ trễ thấp để thực sự phát huy tác dụng.

Ứng dụng nhanh chóng và rõ ràng: một trợ lý mã địa phương không bị trễ; một giao diện giọng nói phản hồi ngay trước khi bạn kịp quên mình đã hỏi gì; một quy trình làm việc thông minh hoàn thành từng bước mà không cần chờ ba giây. Tất cả những điều này đều có thể thực hiện được trên phần cứng bạn đang có.

Bản nháp MTP hiện đã上线拥抱脸 Chúng tương thích với giấy phép Apache 2.0, Kaggle và Ollama. Chúng sẵn sàng sử dụng ngay, hỗ trợ vLLM, MLX, SGLang và Hugging Face Transformers.