Tensordyne, một startup có văn phòng tại Sunnyvale và Munich, đã công bố bộ xử lý suy luận AI Napier (TDN) vào ngày 15 tháng Sáu, tuyên bố hệ thống quy mô kệ TDN72 của họ cung cấp thông lượng cao hơn 13 lần về số token mỗi giây và nhiều hơn 17 lần số token mỗi watt so với kệ Nvidia GB300 NVL72. Mức so sánh chuẩn: các tải công việc suy luận DeepSeek-R1.
Các con số đằng sau yêu cầu
Tensordyne cho biết một rack duy nhất chạy phần cứng của họ có thể tạo ra khoảng 363.000 token mỗi giây. Công ty ước tính rack tương đương của Nvidia ở mức khoảng 27.400 token mỗi giây trên cùng một tải công việc.
Bí quyết nằm ở một hệ thống số logarit, hay còn gọi là LNS, được thực thi trực tiếp trong phần cứng. Thay vì thực hiện phép toán theo cách các chip thông thường làm (nhân các số dấu phẩy động lớn với nhau), LNS chuyển đổi phép nhân thành phép cộng, điều này tiết kiệm đáng kể về số lượng transistor và năng lượng. Đây là một kỹ thuật đã được nghiên cứu trong học thuật suốt nhiều thập kỷ nhưng trước đây quá không thực tế để áp dụng vào chip sản xuất.
Tensordyne đã xây dựng chip Napier trên quy trình 3nm của TSMC, tích hợp cả bộ nhớ SRAM và HBM trên cùng một gói. Cấu hình toàn bộ kệ xếp chồng bốn cụm, mỗi cụm gồm 72 chip, tổng cộng 288 chip, với mức công suất mục tiêu khoảng 120 kW cho toàn bộ kệ. Đây là hệ thống làm mát bằng không khí, không phải làm mát bằng chất lỏng.
Công ty đã phát triển kết nối mở rộng tốc độ cao của mình cùng với Broadcom và HPE Juniper. Broadcom đóng góp chuyên môn về phát triển silicon, còn HPE Juniper cung cấp khả năng kết nối trung tâm dữ liệu.
Lịch trình sản xuất và tín hiệu nhu cầu
Tensordyne cho biết đã tích lũy hơn 200 triệu USD các thư ý định và đánh giá. Sản xuất hàng loạt nhắm đến giữa năm 2027, với các lô hàng đầu tiên dự kiến vào cuối năm 2026.
Lời hứa của công ty với khách hàng là mỗi kệ có thể tạo ra doanh thu hàng năm cao hơn hàng chục triệu đô la so với việc triển khai Nvidia tương đương.
Tại sao điều này lại quan trọng đối với thị trường phần cứng AI
Các công việc suy luận có thể dự đoán được tốt hơn so với đào tạo và có thể được tối ưu hóa cho các kiến trúc mô hình cụ thể. Bằng cách tập trung hoàn toàn vào suy luận thay vì cạnh tranh trên toàn bộ hệ thống đào tạo và suy luận, Tensordyne đã tránh được những lợi thế cạnh tranh mạnh nhất của Nvidia.
Việc lựa chọn quy trình 3nm của TSMC giúp Tensordyne nằm trên cùng nút mạng sản xuất với các chip sắp ra mắt của Nvidia, nghĩa là khoảng cách hiệu suất, nếu có thật, đến từ sự đổi mới kiến trúc chứ không phải lợi thế nút mạng sản xuất.
Các nhà đầu tư nên theo dõi xác thực chuẩn từ bên thứ ba, dự kiến sẽ xuất hiện vào thời điểm giao hàng ban đầu vào cuối năm 2026.
