Các thông số kỹ thuật của DeepSeek V4 đã được tiết lộ: 1,6T tham số, 384 chuyên gia kích hoạt 6

iconKuCoinFlash
Chia sẻ
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconTóm tắt

expand icon
Vào ngày 22 tháng 4 (UTC+8), sinh viên tiến sĩ Princeton Yifan Zhang đã chia sẻ các chỉ số kỹ thuật cho DeepSeek V4 trên X. Mô hình này có 1,6 nghìn tỷ tham số, 384 chuyên gia MoE với 6 chuyên gia được kích hoạt mỗi bước, và phiên bản V4-Lite với 285 tỷ tham số. Quá trình huấn luyện sử dụng bộ tối ưu Muon, độ dài ngữ cảnh tiền huấn luyện 32K và độ dài ngữ cảnh cuối cùng 1M. DeepSeek chưa đưa ra bình luận. Tâm lý thị trường vẫn còn hỗn hợp, với chỉ số nỗi sợ và tham lam cho thấy sự không chắc chắn ở mức trung bình.

Tin tức từ ME News, ngày 22 tháng 4 (UTC+8), theo giám sát của Beating, sinh viên tiến sĩ tại Đại học Princeton Yifan Zhang đã cập nhật chi tiết kỹ thuật của DeepSeek V4 trên X. Vào ngày 19 tháng 4, anh ấy đã dự báo “V4 vào tuần tới” và liệt kê ba thành phần kiến trúc,今晚 đã công bố bảng tham số đầy đủ, đồng thời lần đầu tiên tiết lộ sự tồn tại của phiên bản nhẹ V4-Lite với 285B tham số. Tổng tham số của V4 là 1,6T. Cơ chế chú ý là DSA2, kết hợp hai phương án chú ý thưa thớt đã được DeepSeek sử dụng trong V3.2 (DSA – DeepSeek Sparse Attention) và phương án NSA (Native Sparse Attention) được đề xuất trong bài báo đầu năm nay, head-dim 512, kết hợp với Sparse MQA và SWA (Sliding Window Attention). Các lớp MoE gồm 384 chuyên gia, mỗi lần kích hoạt 6 chuyên gia, sử dụng Fused MoE Mega-Kernel. Kết nối dư thừa vẫn giữ Hyper-Connections. Các chi tiết lần đầu tiên tiết lộ về quá trình huấn luyện bao gồm: bộ tối ưu hóa sử dụng Muon (một bộ tối ưu hóa ở cấp ma trận áp dụng chuẩn hóa Newton-Schulz vào cập nhật động lượng), độ dài ngữ cảnh tiền huấn luyện 32K, giai đoạn học tăng cường sử dụng GRPO và thêm hiệu chỉnh KL divergence. Độ dài ngữ cảnh cuối cùng được mở rộng lên 1M. Chế độ là văn bản thuần túy. Zhang không làm việc tại DeepSeek, và DeepSeek chính thức chưa phản hồi về các thông tin trên. (Nguồn: BlockBeats)

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.