Tin Gate News, ngày 24 tháng 4 — DeepSeek V4-Pro và DeepSeek V4-Flash đã được phát hành chính thức và công bố mã nguồn mở vào ngày 24 tháng 4; độ dài xử lý theo ngữ cảnh được mở rộng đáng kể từ 128K lên 1M, tương đương mức tăng dung lượng gần gấp 10 lần. Huawei Computing cho biết các sản phẩm siêu điểm nút (supernode) Ascend của họ hỗ trợ đầy đủ các mô hình thuộc dòng DeepSeek V4 thông qua sự hợp tác chặt chẽ giữa công nghệ chip và công nghệ mô hình.
Huawei Ascend 950 đạt triển khai suy luận mô hình DeepSeek V4 với thông lượng cao và độ trễ thấp nhờ các kỹ thuật kernel hợp nhất (fused kernel) và song song đa luồng (multi-stream parallelism) nhằm giảm chi phí tính toán Attention và chi phí truy cập bộ nhớ. Đối với DeepSeek V4-Pro với đầu vào 8K, Ascend 950 đạt khoảng 20ms TPOT với thông lượng Decode 4,700 TPS trên một thẻ đơn; đối với DeepSeek V4-Flash với đầu vào dưới 8K, nó đạt khoảng 10ms TPOT với thông lượng 1,600 TPS. Dòng siêu điểm nút (supernode) Ascend A3 cũng đạt tương thích hoàn toàn, kèm theo các triển khai mã huấn luyện mẫu để tinh chỉnh nhanh. Dựa trên siêu điểm nút 64 thẻ Ascend A3 với chế độ EP lớn, DeepSeek V4-Flash đạt hơn 2,000 TPS thông lượng Decode trên một thẻ đơn trong các tình huống đầu vào/đầu ra 8K/1K bằng cách sử dụng công cụ suy luận vLLM. Toàn bộ các dòng sản phẩm Huawei Ascend A2, A3 và 950 đều hỗ trợ cả DeepSeek V4-Flash và V4-Pro.
Huawei Cloud công bố khả năng tương thích theo phương thức “đi trước” với DeepSeek V4, cung cấp cho nhà phát triển dịch vụ token API chỉ với một lần nhấp thông qua nền tảng MaaS của họ. Huawei Cloud đã tối ưu năng lực của lớp hệ thống (system layer), lớp toán tử (operator layer) và lớp cụm (cluster layer) để đảm bảo thích nghi nhanh mô hình và triển khai hiệu năng cao. Các doanh nghiệp bao gồm Kingsoft WPS và 360 đã tích hợp mô hình mới của DeepSeek thông qua Huawei Cloud.
Cambricon cũng công bố tương thích “Day 0” với DeepSeek V4-Flash và V4-Pro dựa trên khung suy luận vLLM, đồng thời mã thích nghi được công bố mã nguồn mở cho cộng đồng GitHub. Cambricon trước đó cũng đã đạt khả năng thích nghi theo phương thức “đi trước” khi DeepSeek V3.2 được phát hành vào năm ngoái, nhờ đã thực hiện tối ưu hóa hiệu năng sâu về phần mềm-hardware (phần mềm–phần cứng) đồng tác giữa các mô hình thuộc dòng DeepSeek.