Gate News mensagem, 24 de abril — O DeepSeek V4-Pro e o DeepSeek V4-Flash foram oficialmente lançados e open-source em 24 de abril, com o comprimento de contexto de processamento significativamente expandido de 128K para 1M, representando um aumento de capacidade de quase 10 vezes. A Huawei Computing anunciou que os seus produtos de supernó Ascend suportam totalmente os modelos da série DeepSeek V4 através de uma colaboração estreita entre tecnologias de chips e de modelos.
O Huawei Ascend 950 alcança uma implementação de inferência dos modelos DeepSeek V4 com elevada taxa de transferência e baixa latência através de técnicas de kernel fundido e paralelismo multi-stream para reduzir a sobrecarga de computação de Attention e acessos à memória. Para o DeepSeek V4-Pro com entrada de 8K, o Ascend 950 atinge aproximadamente 20ms de TPOT com 4,700 TPS de throughput Decode por cartão; para o DeepSeek V4-Flash com entrada inferior a 8K, atinge aproximadamente 10ms de TPOT com 1,600 TPS de throughput. A série de supernós Ascend A3 também alcança compatibilidade total, com implementações de referência de treino fornecidas para uma afinação rápida. Com base no supernó Ascend A3 de 64 cartões com modo EP grande, o DeepSeek V4-Flash atinge mais de 2,000 TPS de throughput Decode por cartão em cenários de entrada/saída 8K/1K utilizando o motor de inferência vLLM. As linhas completas de produtos Huawei Ascend A2, A3 e 950 suportam tanto o DeepSeek V4-Flash como o V4-Pro.
A Huawei Cloud anunciou compatibilidade de primeira-mão com o DeepSeek V4, fornecendo aos programadores serviços de token de API com um clique através da sua plataforma MaaS. A Huawei Cloud otimizou as capacidades da camada de sistema, da camada de operadores e da camada de cluster para garantir adaptação rápida do modelo e uma implementação de alto desempenho. Empresas incluindo Kingsoft WPS e 360 já integraram o novo modelo da DeepSeek via a Huawei Cloud.
A Cambricon também anunciou compatibilidade Day 0 com o DeepSeek V4-Flash e o V4-Pro baseada no framework de inferência vLLM, com código de adaptação open-source para a comunidade GitHub. A Cambricon tinha anteriormente alcançado adaptação de primeira-mão quando o DeepSeek V3.2 foi lançado no ano passado, após ter realizado uma optimização profunda de desempenho colaborativa entre software e hardware nos modelos da série DeepSeek.