DeepSeek, uma empresa de inteligência artificial sediada em Hangzhou, adicionou recursos de reconhecimento de imagens e vídeos ao seu chatbot principal por meio de uma nova funcionalidade chamada “modo de reconhecimento de imagem”, colocando-o em linha com outros principais chatbots de IA. O lançamento coincidiu com um marco significativo na cadeia de suprimentos de chips da China, já que quatro empresas domésticas de semicondutores — Huawei Ascend, Cambricon, Hygon Information e Moore Threads — confirmaram suporte no mesmo dia para o mais novo modelo carro-chefe da DeepSeek, o DeepSeek-V4, sinalizando uma mudança em relação aos períodos anteriores de adaptação que costumavam durar vários meses fora do ecossistema da Nvidia.
A DeepSeek lançou discretamente o modo de reconhecimento de imagem junto com outros dois modos lançados anteriormente no mês: “expert” e “flash”. De acordo com Chen Xiaokang, que lidera a equipe multimodal da DeepSeek, a ferramenta foi testada pela primeira vez com um pequeno grupo de usuários tanto no site quanto no aplicativo móvel. Chen Deli, pesquisador sênior da empresa, celebrou o lançamento com uma postagem fazendo referência ao logotipo da companhia: “A pequena baleia agora pode ver.”
O recurso de imagem e vídeo chegou apenas alguns dias depois de a DeepSeek ter lançado uma prévia do DeepSeek-V4 e disponibilizado os pesos do modelo para download e uso públicos. O V4 é estruturado como dois modelos distintos: DeepSeek-V4-Pro, com 1,6 trilhão de parâmetros, projetado para raciocínio complexo e fluxos de trabalho automatizados de múltiplas etapas, e DeepSeek-V4-Flash, otimizado para lidar com grandes volumes de solicitações a um custo menor. Ambos os modelos suportam uma janela de contexto de um milhão de tokens e empregam um design de atenção híbrida que a empresa afirma reduzir os requisitos de poder computacional e memória durante a inferência.
O que chamou a atenção da indústria não foi apenas o próprio modelo, mas o suporte coordenado de hardware demonstrado no dia do lançamento do V4. A Huawei Ascend confirmou compatibilidade com seus chips A2, A3 e 950, com o Ascend 950 usando processos de computação fundida e fluxos de processamento paralelos para acelerar a inferência tanto para o V4-Pro quanto para o V4-Flash. A Cambricon concluiu sua adaptação usando o framework de inferência vLLM de código aberto e publicou seu código no GitHub. A Hygon Information realizou otimizações profundas de modelos em sua plataforma DCU para permitir uma transição suave do lançamento do modelo para a implantação. A Moore Threads fez parceria com a Beijing Academy of Artificial Intelligence para rodar o V4 em seu cartão MTT S5000 usando a pilha de software FlagOS.
Esse suporte no mesmo dia em múltiplos chipsets representa uma ruptura com padrões históricos. Anteriormente, hardware fora do ecossistema da Nvidia normalmente precisava de meses para passar a suportar grandes novos modelos. Observadores da indústria destacam que alcançar compatibilidade em quatro chipsets domésticos diferentes no dia do lançamento sinaliza uma mudança real na maturidade da infraestrutura de semicondutores e de IA da China.
O significado mais amplo do lançamento da DeepSeek vai além de conquistas técnicas individuais. Ao permitir que o V4 seja executado de forma nativa em múltiplos chips chineses simultaneamente, a DeepSeek reduz o risco de dependência de restrições de exportação que historicamente bloquearam empresas chinesas de acessar os processadores americanos mais avançados. A eficiência de custos permanece central na estratégia da DeepSeek — a empresa priorizou manter os custos de operação do modelo baixos, possibilitando que empresas construam sistemas automatizados sem despesas computacionais proibitivas.
Observadores da indústria descrevem este lançamento como reflexo de toda uma cadeia de suprimentos amadurecendo, e não de uma única ruptura tecnológica. A coordenação entre a DeepSeek, fabricantes de chips e frameworks de software demonstra o desenvolvimento integrado de um ecossistema. Essa trajetória sugere que o cenário competitivo em IA está mudando: de um foco na sofisticação de modelos individuais para a capacidade de manter sistemas completos, econômicos e independentes no longo prazo.
Que novas capacidades a DeepSeek adicionou ao seu chatbot?
A DeepSeek adicionou um “modo de reconhecimento de imagem” que permite que seu chatbot entenda fotos e vídeos, não apenas texto. Esse recurso foi testado pela primeira vez com um pequeno grupo de usuários tanto no site quanto no aplicativo móvel, alinhando as capacidades da DeepSeek com as de outros principais chatbots de IA que oferecem habilidades semelhantes.
Quais empresas chinesas de chips deram suporte ao DeepSeek-V4 no dia do lançamento?
Quatro empresas chinesas de chips confirmaram suporte no mesmo dia ao DeepSeek-V4: Huawei Ascend (com os chips A2, A3 e 950), Cambricon, Hygon Information e Moore Threads. Essa compatibilidade no mesmo dia entre múltiplos chipsets era anteriormente rara fora do ecossistema da Nvidia, normalmente exigindo meses de trabalho de adaptação.
Quais são as duas versões do DeepSeek-V4 e como elas diferem?
O DeepSeek-V4-Pro traz 1,6 trilhão de parâmetros e é projetado para raciocínio complexo e fluxos de trabalho automatizados de múltiplas etapas, enquanto o DeepSeek-V4-Flash é otimizado para lidar com grandes volumes de solicitações a um custo menor. Ambos suportam uma janela de contexto de um milhão de tokens e usam um design de atenção híbrida para reduzir os requisitos de poder computacional e de memória.