Inception Labs ra mắt Mercury 2, mô hình LLM khuếch tán tốc độ cao dành cho dapp tiền điện tử

Tuần này, Inception Labs đã làm thay đổi cuộc đua AI với Mercury 2, một mô hình ngôn ngữ “khuếch tán” mới mà công ty quảng bá là LLM lập luận nhanh nhất thế giới. Trong các bài kiểm tra hiệu năng và thử nghiệm của khách hàng, điểm nổi bật của Mercury 2 là khả năng thông lượng thô: khoảng 1.000 token/giây, so với khoảng 89 token/giây của Claude Haiku 4.5 Reasoning của Anthropic và 71 token/giây của GPT-5 Mini của OpenAI. Điều này đặt nó vào cùng nhóm tốc độ cao mà Google sau đó cũng gắn với DiffusionGemma của riêng mình — chào mừng bạn đến với thời kỳ khuếch tán của các mô hình ngôn ngữ lớn. Điều gì làm khác biệt các mô hình khuếch tán: - Các chatbot truyền thống tạo văn bản từng token một, kiểm tra từng bước khi tiến hành. Các mô hình khuếch tán thay vào đó khởi tạo một khối văn bản với các token đại diện đầy nhiễu và tinh chỉnh khối đó qua nhiều lần xử lý song song cho đến khi xuất hiện câu trả lời cuối cùng — một kỹ thuật được vay mượn từ các trình tạo hình ảnh như Stable Diffusion. - Kết quả là thông lượng song song cao hơn nhiều và “dòng chảy” mượt mà hơn trong các phiên dài: tự động hoàn thành tức thì, lặp lại nhanh hơn với mã hoặc kế hoạch, và các subagent có thể thực hiện nhiều lệnh tiện ích nhanh mà không làm chậm toàn bộ hệ thống. Các bài kiểm tra hiệu năng và so sánh trực tiếp: - Trên AIME 2026 (dựa trên các bài toán thực tế từ kỳ thi Toán học Mỹ mời gọi, được chấm theo tỷ lệ giải được), Mercury 2 đạt 90%. DiffusionGemma của Google đạt 69,1% trên cùng bài kiểm tra, trong khi Gemma 4 tiêu chuẩn (không khuếch tán) đạt 88,3%. - Trên GPQA, bài kiểm tra khoa học cấp tiến sĩ, khoảng cách thu hẹp lại: Mercury 2 đạt 77% so với 73,2% của DiffusionGemma. Hướng dẫn nội bộ của Google vẫn khuyến nghị sử dụng Gemma 4 tiêu chuẩn cho các ứng dụng đòi hỏi chất lượng cao nhất, lưu ý rằng DiffusionGemma thua kém nó ở mọi chỉ số. Hiệu năng thực tế và chi phí: - Các tuyên bố về tốc độ của Mercury 2 không chỉ là con số trong phòng thí nghiệm. Augment Code, một công ty AI chuyên về agent lập trình, đã thay thế Claude Opus 4.7 của Anthropic bằng Mercury 2 trên một subagent nén ngữ cảnh và báo cáo giảm 82% độ trễ và giảm 90% chi phí, đồng thời duy trì chất lượng đầu ra tương đương (theo một nghiên cứu trường hợp chung). Nguồn gốc và tài trợ: - Cách tiếp cận của Inception dựa trên nghiên cứu khuếch tán do người sáng lập Stefano Ermon — giáo sư tại Stanford, đồng tác giả các công trình đầu tiên về khuếch tán dựa trên điểm số được sử dụng trong tạo hình ảnh — thực hiện. Công ty khởi nghiệp đã huy động được vòng gọi vốn 50 triệu USD với sự hỗ trợ từ quỹ đầu tư của Nvidia và các nhà đầu tư cá nhân Andrew Ng và Andrej Karpathy. Hiện tại Mercury 2 có sẵn qua API/cloud — trọng số mô hình chưa được công khai. Cảnh báo thực tế và kiến trúc mới: - Các LLM khuếch tán tỏ ra xuất sắc trong các tình huống cần độ trễ thấp và thông lượng cao (chỉnh sửa thời gian thực, nhiều lệnh tiện ích nhỏ, giao diện giọng nói, v.v.), nhưng chúng không nhất thiết là lựa chọn tốt nhất cho các nhiệm vụ lập luận khó nhất, nơi các mô hình tự hồi quy lớn hơn có thể vẫn giữ lợi thế. - Về mặt kiến trúc, sự thay đổi lớn là hướng tới các “dàn nhạc” gồm nhiều subagent chuyên biệt (người lập luận, tóm tắt, định tuyến, kiểm tra). Các mô hình truyền thống xử lý từng token theo chuỗi khiến nhiều lệnh tiện ích trở nên chậm và tốn kém; các mô hình khuếch tán song song làm cho những lệnh này trở nên rẻ đến mức có thể sử dụng tự do. - Hệ sinh thái vẫn đang bắt kịp: các runtime cục bộ, khung agent và hạ tầng khác cần phát triển thêm để làm cho các mô hình khuếch tán hoạt động liền mạch ở mọi nơi. Tại sao điều này quan trọng với crypto và web3: - Các LLM nhanh hơn, rẻ hơn làm giảm ma sát cho các dịch vụ trên-chain và off-chain nhạy cảm với độ trễ: - Công cụ phát triển thời gian thực cho lập trình hợp đồng thông minh và “vibe coding” theo kịp các chỉnh sửa; - Hệ thống hỗ trợ multi-agent và bot cho DAO cần nhiều lệnh phụ nhanh; - Giao diện giọng nói hoặc trò chuyện độ trễ thấp cho ví, dapp hoặc người vận hành nút mạng trực tuyến; - Giảm chi phí suy luận cho các đường ống tiền xử lý oracle, giám sát và cảnh báo. - Ở quy mô lớn, thông lượng cao hơn trên GPU phổ thông có thể chuyển thành tiết kiệm chi phí và năng lượng đáng kể cho các dự án thực hiện nhiều lời gọi AI. Tóm lại: Mercury 2 đưa các LLM khuếch tán vào vùng “nhanh và tốt”, mang lại cải thiện đáng kể về độ trễ và chi phí cho các tác vụ đòi hỏi thông lượng cao, đồng thời duy trì chất lượng cạnh tranh. Nó sẽ không thay thế mọi loại mô hình, nhưng đối với các nhà phát triển crypto và những người tập trung vào tốc độ, phản hồi và hệ thống multi-agent, các mô hình khuếch tán như Mercury 2 mở ra những khả năng thực tế mới — miễn là công cụ và runtime xung quanh bắt kịp.