Các tối ưu hóa kỹ thuật của Zhipu AI thúc đẩy hiệu quả chi phí và sự tự tin của thị trường

Ngày giao dịch đầu tiên sau kỳ nghỉ lễ 1/5, ZhiPu và MiniMax đều tăng mạnh.

Ngày 4 tháng 5, ZhiPu tăng hơn 10%, giá cổ phiếu lần nữa tiến gần ngưỡng 1.000 nhân dân tệ, MiniMax tăng 12,62%, đóng cửa ở mức 803 đô la Hồng Kông.

Theo báo cáo của Morgan Stanley, nguyên nhân khiến giá cổ phiếu tăng mạnh là do câu chuyện “tính năng vượt trội về giá” độc đáo của AI Trung Quốc.

Trong báo cáo “China’s AI Path: More Bang For The Buck”, Morgan Stanley cho biết, trong điều kiện năng lực tính toán bị hạn chế, trình độ trí tuệ của các mô hình hàng đầu Trung Quốc và Mỹ đang nhanh chóng thu hẹp khoảng cách, hiện đã giảm xuống còn 3 đến 6 tháng.

Đồng thời, báo cáo chỉ ra rằng điểm nổi bật thực sự của các mô hình Trung Quốc là có thể đạt được mức trí tuệ gần tương đương với các đối tác Mỹ, với chi phí suy luận chỉ bằng 15% đến 20%.

Câu này thực sự rất dễ hiểu. Mọi người không nhất thiết phải dùng mô hình mạnh nhất, nhưng phần lớn đều muốn dùng mô hình rẻ hơn.

Thị trường không mua một câu chuyện đơn giản về “thay thế trong nước”, mà là AI Trung Quốc đang chuyển hóa lợi thế về giá thành thành lượng truy cập thực tế, doanh thu thực tế và độ co giãn định giá thực tế.

Nhưng vấn đề cũng theo đó mà phát sinh, mức độ giá trị này đến từ đâu?

Nếu chỉ nhằm thu hút khách hàng với giá thấp, thì sớm muộn gì nó cũng sẽ trở thành cuộc chiến giá cả.

Nếu chỉ là tinh luyện mô hình, nhưng hiện nay các công ty như Anthropic, OpenAI đã đóng cửa các kênh tinh luyện, vậy thì xếp hạng lẽ ra không nên giảm sao, tại sao lại tăng lên?

Thực tế, điều khiến câu chuyện này trở nên thuyết phục hơn chính là bài viết kỹ thuật mà Zhipu phát hành trước lễ五一, có tựa đề “Scaling Pain: Thực hành suy luận cho Agent Lập trình quy mô siêu lớn”.

Bài blog này không nói về tầm nhìn AGI vĩ mô, mà phơi bày các yếu tố kỹ thuật cơ bản như KV Cache, thông lượng, lập lịch và đầu ra bất thường cho thị trường.

Điều quan trọng nhất là nó đã “lật mở” bí mật đằng sau khả năng chi phí - hiệu quả của AI Trung Quốc.

01

Trong bài blog này, Zhipu đã nói sơ qua về cách tối ưu bộ nhớ đệm, lập lịch và giám sát ngoại lệ để cho cùng một GPU thực hiện được nhiều việc hơn và ít lỗi hơn.

ZhiPu phát hiện rằng AI không sử dụng tốt không nhất thiết do mô hình không thông minh, mà có thể do hệ thống nền chạy quá lộn xộn. Nó đã sửa vấn đề dữ liệu bộ nhớ đệm bị lẫn lộn, tối ưu hóa việc lập lịch GPU và tái sử dụng bộ nhớ đệm, đồng thời thêm một bộ cảnh báo có thể phát hiện sớm các đầu ra bất thường.

Kết quả là, cùng một mô hình và cùng một GPU, có thể phục vụ nhiều người dùng hơn và tỷ lệ lỗi thấp hơn. Do đó, câu chuyện về “tính hiệu quả về chi phí” của nó không chỉ đơn thuần là giảm giá, mà là thông qua tối ưu hóa kỹ thuật, khai thác tối đa lượng tính toán ổn định và có thể sử dụng từ mỗi GPU.

Sau khi tối ưu kỹ thuật nền tảng, thông lượng hệ thống của chuỗi GLM-5 trong cảnh ứng dụng Coding Agent đã tăng tối đa 132%, tỷ lệ đầu ra bất thường của hệ thống giảm từ khoảng 10 trên 10.000 xuống còn 3 trên 10.000.

Ví dụ, trước đây một GPU có thể xử lý 100 nhiệm vụ mỗi giờ, giờ đây sau khi được tối ưu hóa, nó có thể xử lý lên đến 232 nhiệm vụ.

Từng yếu tố riêng lẻ đều không đủ để quyết định thắng thua. Nhưng khi kết hợp lại, chúng mang lại gấp đôi thông lượng so với cùng một công suất tính toán, cùng với mức tăng ổn định vượt quá một cấp độ.

Mô hình không thay đổi. Điều thay đổi là cách mô hình được “áp dụng”.

Cụ thể, kể từ tháng 3, Zhipu đã quan sát thấy ba hiện tượng bất thường trong việc giám sát trực tuyến và phản hồi người dùng đối với GLM-5: mã lỗi, lặp lại, và ký tự hiếm. Những hiện tượng này về bề ngoài giống với hiện tượng “giảm trí tuệ” thường gặp trong các tình huống ngữ cảnh dài.

Tuy nhiên, đội ngũ ZhiPu chưa triển khai bất kỳ tối ưu nào làm giảm độ chính xác của mô hình. Vậy sự bất thường này xuất phát từ chính mô hình hay từ chuỗi suy luận?

Sau khi phân tích và suy luận kỹ lưỡng các nhật ký, họ đã tìm ra một điểm tiếp cận bất ngờ: chỉ số mẫu đầu cơ có thể được sử dụng như tín hiệu tham chiếu để phát hiện bất thường.

Sampling với dự đoán là một kỹ thuật tối ưu hiệu suất ban đầu. Trước tiên, mô hình nháp tạo ra các token ứng cử, sau đó mô hình mục tiêu kiểm tra và quyết định có chấp nhận hay không, nhằm tăng hiệu quả giải mã mà không làm thay đổi phân phối đầu ra cuối cùng.

Chỉ cần để mô hình nhỏ tạo nhanh một loạt câu trả lời, sau đó mô hình lớn chọn ra câu trả lời đúng, như vậy vừa nhanh vừa chính xác.

Đội ngũ ZhiPu phát hiện rằng khi xảy ra bất thường, hai chỉ số của mẫu phỏng đoán sẽ hiển thị mô hình ổn định. Do đó, họ đã mở rộng mẫu phỏng đoán từ việc chỉ là tối ưu hiệu suất sang tín hiệu giám sát thời gian thực về chất lượng đầu ra.

Khi spec_accept_length liên tục dưới 1,4 và độ dài được tạo đã vượt quá 128 token, hoặc spec_accept_rate vượt quá 0,96, hệ thống sẽ tự động dừng quá trình tạo hiện tại và chuyển yêu cầu cho bộ cân bằng tải để thử lại.

Hai con số này giống như các chỉ số sức khỏe, khi có dấu hiệu bất thường cho thấy mô hình đang “bệnh”, cần khởi động lại để điều trị.

Người dùng không cảm nhận được quá trình này, nhưng phía sau hậu trường đã thực hiện một lần khởi động lại như vậy.

Nguyên nhân gốc của sự cố là xung đột tái sử dụng KV Cache.

Điều này giống như nhà bếp, vào giờ cao điểm bữa ăn, rất nhiều người cùng lúc đến đặt món.

Hệ thống cần tạm lưu ngữ cảnh của từng người dùng, tức là KV Cache. Khách bàn này vừa gọi gì, có muốn giảm ớt hay không dùng rau răm không. Một hai khách thì còn đỡ, nhưng khi khách đông lên, phục vụ dễ nhớ nhầm.

MiniMax

Khi có lưu lượng cao, một số bộ nhớ đệm bị thu hồi, tái sử dụng và đọc theo thứ tự hỗn loạn. Kết quả là mô hình lấy nhầm ngữ cảnh, có thể đầu ra là mã rác, lặp lại hoặc ký tự hiếm.

Trong kiến trúc tách biệt PD của động cơ suy luận, có sự không nhất quán giữa chu kỳ sống của yêu cầu và thời gian thu hồi cũng như tái sử dụng KV Cache. Khi áp lực đồng thời tăng lên, xung đột sẽ được khuếch đại, thể hiện ở phía người dùng dưới dạng mã lỗi và lặp lại.

Do đó, nhiều yêu cầu đồng thời tranh giành một vùng bộ nhớ, dẫn đến dữ liệu bị hỗn loạn, người dùng nhìn thấy là mã lỗi.

The Zhipu team identified this bug and fixed it.

Ngoài ra, họ còn phát hiện và sửa lỗi thiếu thứ tự tải trong module HiCache ở cấp mã nguồn của khung推理 mở nguồn phổ biến SGLang, tức là lỗi read-before-ready.

Giải pháp sửa chữa đã được gửi đến cộng đồng SGLang qua Pull Request #22811 và đã được chấp nhận.

SGLang là một dự án mã nguồn mở, tên đầy đủ có thể hiểu là một khung推理/dịch vụ dành cho các mô hình ngôn ngữ lớn. Nó không phải là một mô hình lớn, cũng không phải là một công ty AI, mà là một bộ phần mềm nền tảng giúp các mô hình lớn hoạt động hiệu quả.

ZhiPu đã phát hiện ra một lỗi bộ nhớ đệm khi sử dụng khung推理 mở nguồn SGLang.

Nó không chỉ tự sửa trong nội bộ, Zhipu còn gửi mã sửa lỗi đến dự án mã nguồn mở SGLang.

Sau khi người duy trì dự án xem xét và chấp nhận hợp nhất, bản sửa lỗi này đã được đưa vào phiên bản công khai, cho phép các nhà phát triển và công ty khác sử dụng SGLang sau này cũng có thể sử dụng.

What does this mean?

Nếu một đường dẫn triển khai của Qwen sử dụng SGLang+HiCache, thì Alibaba cũng sẽ hưởng lợi từ việc Zhipu phát hiện và sửa chữa vấn đề này.

Vẫn là câu vừa nói, mô hình không thay đổi, nhưng thông qua tối ưu hóa kỹ thuật, nó trở nên thông minh hơn khi sử dụng.

02

Bài blog của ZhiPu thực sự làm lộ ra một cấp độ sâu hơn.

Sự tiết kiệm trong thời đại chatbot phần lớn đến từ chi phí huấn luyện thấp, với một phần bộ dữ liệu huấn luyện được lấy từ quá trình tinh luyện các mô hình hàng đầu.

Trong thời đại Agent, chiêu này không còn hiệu quả nữa.

Từ đầu năm đến nay, Anthropic và OpenAI lần lượt đóng các lối vào tinh luyện, rõ ràng cấm sử dụng đầu ra từ các mô hình của họ để huấn luyện các mô hình cạnh tranh. Con đường lấy lợi thế thông qua tinh luyện ngày càng trở nên hẹp lại.

Nhưng câu chuyện về tính hiệu quả chi phí của các công ty AI Trung Quốc vẫn không suy yếu, mà thị trường đang càng củng cố câu chuyện này.

Lý do là vì định nghĩa về mức độ giá trị so với chi phí đã thay đổi.

Thời đại chatbot, ngữ cảnh trung bình 55K tokens, một lần hội thoại, lưu lượng thấp.

Thời đại Agent, trung bình ngữ cảnh hơn 70K tokens, nhiệm vụ kéo dài (cấp độ 8 giờ), độ song song cao, tái sử dụng tiền tố cao.

Trong thời đại chatbot, đơn vị đo lường hiệu quả chi phí của AI rất đơn giản: cùng một câu hỏi, mô hình nào rẻ hơn và câu trả lời của nó gần mức độ hàng đầu hơn thì đó là lựa chọn tốt hơn.

Ngành công nghiệp đang thảo luận về giá mỗi triệu token, kích thước tham số mô hình và thành tích trên bảng xếp hạng cao hay không.

Trong thời đại Agent, không ai hỏi điều này nữa, bộ thuật toán này đã không còn hiệu lực.

Người dùng không mua một câu trả lời. Họ mua kết quả hoàn thành một nhiệm vụ toàn diện.

Một Coding Agent cần đọc mã, hiểu ngữ cảnh, lên kế hoạch các bước, gọi công cụ, chỉnh sửa tệp, chạy kiểm thử và thử lại khi thất bại. Số token nó tiêu thụ không phải là lượng tăng thêm của một lần hỏi đáp, mà là tổng chi phí của một quy trình làm việc.

OpenRouter là nền tảng gọi lớn nhất toàn cầu, tổng lượng token được xử lý mỗi tuần đã tăng từ 6,4 nghìn tỷ vào tuần đầu tiên của tháng 1 năm 2026 lên 13 nghìn tỷ vào tuần ngày 9 tháng 2, tăng gấp đôi trong một tháng.

The official statement from OpenRouter is that the incremental call demand in the 100K to 1M long text range is a typical consumption scenario for agent workflows.

Cách mọi người sử dụng AI đã chuyển từ mô hình “hội thoại” sang mô hình “quy trình”. Do đó, đơn vị hiệu quả chi phí của AI cũng đã thay đổi từ “giá mỗi token” thành “giá mỗi nhiệm vụ”.

Điều này dẫn đến việc, một số mô hình có token rẻ, nhưng do hiệu năng mô hình kém, thường thất bại trong quá trình thực hiện nhiệm vụ hoặc kết quả nhiệm vụ không đạt yêu cầu, khiến giá của agent này không hề rẻ.

Ví dụ, một nhiệm vụ mã hóa cấp độ 8 giờ, chỉ cần bị lỗi mã hóa một lần, toàn bộ quy trình làm việc có thể phải bắt đầu lại. Số token tiết kiệm được không bù đắp được thời gian lãng phí.

Câu chuyện về giá trị chi phí của AI Trung Quốc đang được nâng cấp.

Trước đây nói là “đưa ra câu trả lời có chất lượng tương đương, nhưng tôi rẻ hơn”. Bây giờ nói là “với cùng một nhiệm vụ phức tạp, tôi có thể hoàn thành với chi phí thấp hơn”.

Cơ sở hạ tầng mã nguồn mở cũng đang trở thành hào phòng thủ mới cho AI của Trung Quốc.

Như đã đề cập ở phần trước, SGLang chính là như vậy. Năng lực kỹ thuật của AI Trung Quốc bắt đầu lan tỏa đến cộng đồng upstream.

Giá trị của việc này không chỉ nằm ở việc Zhipu đã sửa một lỗi, mà còn ở chỗ các công ty AI Trung Quốc đang ngược dòng tích lũy các khả năng xử lý các vấn đề như lưu lượng cao, ngữ cảnh dài và gọi agent trong các ứng dụng thực tế thành năng lực cơ sở hạ tầng chung.

Như đã đề cập ở phần trước, khi một bản sửa lỗi được đưa vào các khung mã nguồn mở như SGLang, nó không còn chỉ phục vụ các mô hình riêng của Zhipu nữa. Tất cả các nhóm sử dụng khung này để triển khai các mô hình lớn đều có cơ hội nhận được bộ nhớ đệm ổn định hơn, chi phí suy luận thấp hơn và trải nghiệm agent tốt hơn.

Khả năng mô hình có thể bị đuổi kịp, giá cả có thể bị ép xuống, nhưng hạ tầng một khi đã thâm nhập vào hệ sinh thái mã nguồn mở sẽ trở thành tiêu chuẩn, giao diện và thói quen phát triển.

Người nào sớm ghi lại kinh nghiệm kỹ thuật của mình vào những hệ thống nền tảng này sẽ dễ dàng chiếm được vị thế trong làn sóng bùng nổ ứng dụng AI tiếp theo.

03

Trở lại thị trường vốn.

Các cổ phiếu liên quan đến mô hình AI lớn đều tăng mạnh, liệu资本 có sẵn sàng định giá lại các công ty AI? Thị trường đang mua gì thực sự?

Câu trả lời là thị trường vốn đang trả tiền cho câu chuyện rằng “các công ty AI Trung Quốc có thể tạo ra trí tuệ gần ngang hàng với các đối thủ hàng đầu với chi phí suy luận thấp hơn”.

Vẫn lấy dữ liệu từ OpenRouter làm ví dụ.

Tỷ lệ tiêu thụ token của các công ty AI hàng đầu Trung Quốc đã tăng nhanh từ 5% vào tháng 4 năm 2025 lên 32% vào tháng 3 năm 2026. Tỷ lệ của các mô hình hàng đầu Mỹ đã giảm mạnh từ 58% xuống còn 19%.

Lượng token sử dụng của MiniMax, ZhiPu và Alibaba đã tăng 4-6 lần trong tháng 2-3 năm 2026 so với tháng 12 năm ngoái.

Ngoài việc gọi token, AI Trung Quốc đang hình thành một logic tăng trưởng hoàn toàn khác biệt so với các ông lớn nước ngoài.

Các mô hình hàng đầu ở nước ngoài đang bán “phần bù năng lực”.

Mô hình càng mạnh, chi phí mỗi lần gọi càng cao, người dùng trả tiền cho trí tuệ mạnh nhất. Claude, GPT-5 và Gemini đều đang đi theo hướng này.

Trung Quốc đang bán “kỹ thuật” AI.

Khả năng mô hình gần bằng các mô hình hàng đầu, nhưng có giá thấp hơn, độ trễ thấp hơn và ngưỡng gọi thấp hơn, phù hợp hơn với nhu cầu của hầu hết các kịch bản giao dịch tần suất cao.

Báo cáo của Morgan Stanley cho biết, giá đầu vào của mô hình Trung Quốc vào khoảng 0,3 USD/million token, trong khi giá của một số sản phẩm tương tự ở nước ngoài khoảng 5 USD. Sự chênh lệch này là hơn mười lần.

Khi AI chuyển từ công cụ trải nghiệm ban đầu thành công cụ năng suất, khả năng chi phí - hiệu quả sẽ trực tiếp quyết định tần suất gọi.

Mô hình càng rẻ, doanh nghiệp càng dám giao nhiều nhiệm vụ hơn cho nó như dịch vụ khách hàng, mã nguồn, tiếp thị và phân tích dữ liệu. Càng nhiều nhiệm vụ được thực hiện, lượng token tiêu thụ càng lớn, giúp nền tảng phân bổ chi phí cơ sở hạ tầng hiệu quả hơn.

MiniMax

Tôi cho rằng trong giai đoạn này, nó có khả năng tạo thành một vòng quay tăng tốc.

Vòng đầu tiên, nhằm thu hút các nhà phát triển và doanh nghiệp bằng giá API thấp hơn và khả năng tiếp cận gần với cấp độ hàng đầu.

Vòng thứ hai, lượng gọi cao hơn sẽ mang lại nhiều kịch bản thực tế hơn, buộc mô hình và hệ thống suy luận tiếp tục được tối ưu hóa.

Vòng thứ ba, như bài viết kỹ thuật của Zhipu đề cập, sử dụng tối ưu hóa kỹ thuật để giảm chi phí trên mỗi token và mỗi nhiệm vụ, giúp các nhà sản xuất có khả năng tiếp tục giảm giá, tăng khối lượng, hoặc tăng giá trong các kịch bản có giá trị cao.

Vòng thứ tư, khi việc tiêu thụ token trở thành lưu lượng mới trong thời đại AI, ai có thể gánh vác nhiều token hơn với chi phí thấp hơn, người đó sẽ tiến gần hơn đến giai đoạn tiếp theo của một công ty nền tảng.

Nếu chỉ có việc giảm giá mô hình, thị trường sẽ lo ngại rằng đây là trợ cấp và chiến tranh giá, ngày càng tốn kém, và cuối cùng sẽ có người không còn đủ tiền để tiếp tục.

Hơn nữa, chiến tranh giá không thể duy trì định giá cao.

Nhưng nếu việc giảm giá đi kèm với việc tăng thông lượng, tái sử dụng bộ nhớ đệm, giảm tỷ lệ lỗi và cải thiện hiệu suất lập lịch, thì mức giá thấp không phải là hy sinh lợi nhuận để đổi lấy tăng trưởng, mà là không gian chi phí được giải phóng nhờ năng lực kỹ thuật.

Kết quả của cuộc chiến giá cả và tối ưu hóa kỹ thuật này, dù đều giúp giảm chi phí mô hình và có vẻ tương tự trên báo cáo tài chính, lại khác biệt rất lớn trong mô hình định giá.

Cái trước là trợ cấp, thị trường sẽ định giá thấp hơn. Cái sau là rào cản kỹ thuật, thị trường sẽ định giá cao hơn.

Cuối cùng có thể đưa ra một phán đoán.

Trước đây, định giá các công ty AI dựa trên khả năng tối đa của mô hình và ai tiến gần hơn đến AGI. Lúc đó, thị trường đang trả tiền cho “trí thông minh mạnh nhất”, và định nghĩa về trí thông minh mạnh nhất ngày càng mơ hồ, chi phí mỗi lần gọi trở nên đắt hơn.

Trong thời đại agent hiện nay, định giá vẫn phải xem xét ngưỡng chi phí thấp nhất. Hãy xem ai có thể giao hàng thông minh, ổn định, giá rẻ và quy mô lớn.

Đối với những người theo đuổi “trí tuệ” tiên tiến nhất, đây có thể không phải là thế mạnh của AI Trung Quốc.

Tuy nhiên, AI của Trung Quốc là khả năng cao nhất sẽ biến hai chữ “trí tuệ” thành cơ sở hạ tầng mà mọi người và doanh nghiệp đều có thể tiếp cận.

Và thị trường chỉ sẵn sàng trả tiền cho những công ty có thể giải thích rõ ràng logic của mình.

Bài viết này đến từ tài khoản chính thức WeChat “Mã Tự Bảng” (ID: wujicaijing), tác giả: Miêu Chính