DeepSeek, uma empresa de inteligência artificial sediada em Hangzhou, adicionou recursos de reconhecimento de imagens e vídeos ao seu chatbot principal por meio de uma nova funcionalidade chamada “modo de reconhecimento de imagem”, colocando-o em linha com outros principais chatbots de IA. O lançamento coincidiu com um marco significativo na cadeia de suprimentos de chips da China, já que quatro empresas domésticas de semicondutores — Huawei Ascend, Cambricon, Hygon Information e Moore Threads — confirmaram suporte no mesmo dia para o mais novo modelo carro-chefe da DeepSeek, o DeepSeek-V4, sinalizando uma mudança em relação aos períodos anteriores de adaptação que costumavam durar vários meses fora do ecossistema da Nvidia.

Visão da DeepSeek e Expansão do Modelo

A DeepSeek lançou discretamente o modo de reconhecimento de imagem junto com outros dois modos lançados anteriormente no mês: “expert” e “flash”. De acordo com Chen Xiaokang, que lidera a equipe multimodal da DeepSeek, a ferramenta foi testada pela primeira vez com um pequeno grupo de usuários tanto no site quanto no aplicativo móvel. Chen Deli, pesquisador sênior da empresa, celebrou o lançamento com uma postagem fazendo referência ao logotipo da companhia: “A pequena baleia agora pode ver.”

O recurso de imagem e vídeo chegou apenas alguns dias depois de a DeepSeek ter lançado uma prévia do DeepSeek-V4 e disponibilizado os pesos do modelo para download e uso públicos. O V4 é estruturado como dois modelos distintos: DeepSeek-V4-Pro, com 1,6 trilhão de parâmetros, projetado para raciocínio complexo e fluxos de trabalho automatizados de múltiplas etapas, e DeepSeek-V4-Flash, otimizado para lidar com grandes volumes de solicitações a um custo menor. Ambos os modelos suportam uma janela de contexto de um milhão de tokens e empregam um design de atenção híbrida que a empresa afirma reduzir os requisitos de poder computacional e memória durante a inferência.

Fabricantes Chineses de Chips Conquistam Suporte no Mesmo Dia

O que chamou a atenção da indústria não foi apenas o próprio modelo, mas o suporte coordenado de hardware demonstrado no dia do lançamento do V4. A Huawei Ascend confirmou compatibilidade com seus chips A2, A3 e 950, com o Ascend 950 usando processos de computação fundida e fluxos de processamento paralelos para acelerar a inferência tanto para o V4-Pro quanto para o V4-Flash. A Cambricon concluiu sua adaptação usando o framework de inferência vLLM de código aberto e publicou seu código no GitHub. A Hygon Information realizou otimizações profundas de modelos em sua plataforma DCU para permitir uma transição suave do lançamento do modelo para a implantação. A Moore Threads fez parceria com a Beijing Academy of Artificial Intelligence para rodar o V4 em seu cartão MTT S5000 usando a pilha de software FlagOS.

Esse suporte no mesmo dia em múltiplos chipsets representa uma ruptura com padrões históricos. Anteriormente, hardware fora do ecossistema da Nvidia normalmente precisava de meses para passar a suportar grandes novos modelos. Observadores da indústria destacam que alcançar compatibilidade em quatro chipsets domésticos diferentes no dia do lançamento sinaliza uma mudança real na maturidade da infraestrutura de semicondutores e de IA da China.

Implicações Estratégicas: Custos e Independência da Cadeia de Suprimentos

O significado mais amplo do lançamento da DeepSeek vai além de conquistas técnicas individuais. Ao permitir que o V4 seja executado de forma nativa em múltiplos chips chineses simultaneamente, a DeepSeek reduz o risco de dependência de restrições de exportação que historicamente bloquearam empresas chinesas de acessar os processadores americanos mais avançados. A eficiência de custos permanece central na estratégia da DeepSeek — a empresa priorizou manter os custos de operação do modelo baixos, possibilitando que empresas construam sistemas automatizados sem despesas computacionais proibitivas.

Observadores da indústria descrevem este lançamento como reflexo de toda uma cadeia de suprimentos amadurecendo, e não de uma única ruptura tecnológica. A coordenação entre a DeepSeek, fabricantes de chips e frameworks de software demonstra o desenvolvimento integrado de um ecossistema. Essa trajetória sugere que o cenário competitivo em IA está mudando: de um foco na sofisticação de modelos individuais para a capacidade de manter sistemas completos, econômicos e independentes no longo prazo.

FAQ

Que novas capacidades a DeepSeek adicionou ao seu chatbot?
A DeepSeek adicionou um “modo de reconhecimento de imagem” que permite que seu chatbot entenda fotos e vídeos, não apenas texto. Esse recurso foi testado pela primeira vez com um pequeno grupo de usuários tanto no site quanto no aplicativo móvel, alinhando as capacidades da DeepSeek com as de outros principais chatbots de IA que oferecem habilidades semelhantes.

Quais empresas chinesas de chips deram suporte ao DeepSeek-V4 no dia do lançamento?
Quatro empresas chinesas de chips confirmaram suporte no mesmo dia ao DeepSeek-V4: Huawei Ascend (com os chips A2, A3 e 950), Cambricon, Hygon Information e Moore Threads. Essa compatibilidade no mesmo dia entre múltiplos chipsets era anteriormente rara fora do ecossistema da Nvidia, normalmente exigindo meses de trabalho de adaptação.

Quais são as duas versões do DeepSeek-V4 e como elas diferem?
O DeepSeek-V4-Pro traz 1,6 trilhão de parâmetros e é projetado para raciocínio complexo e fluxos de trabalho automatizados de múltiplas etapas, enquanto o DeepSeek-V4-Flash é otimizado para lidar com grandes volumes de solicitações a um custo menor. Ambos suportam uma janela de contexto de um milhão de tokens e usam um design de atenção híbrida para reduzir os requisitos de poder computacional e de memória.

Ver fonte

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Comentário

0/400

RugProofRita

· 31m atrás

Acabei de testar o reconhecimento de imagens, a compreensão do chinês realmente é melhor do que a de uma determinada empresa.

Ver originalResponder0

ybaser

· 1h atrás

Aguente firme HODL💎 Aguente firme HODL💎

Ver originalResponder0

GateUser-0b71fc11

· 2h atrás

De texto simples a multimodal, um semestre para percorrer o caminho de dois anos de outros

Ver originalResponder0

MirrorBallGazingAtTheSky

· 2h atrás

Não apenas elogie, o problema de alucinação do RAG foi resolvido?

Ver originalResponder0

GateUser-ced0257a

· 2h atrás

Reconhecimento de vídeo? Quero testar a estabilidade em cenários complexos

Ver originalResponder0

GateUser-8f9ccfec

· 2h atrás

Essa data de lançamento foi ótima, exatamente para aproveitar o hype de chips.

Ver originalResponder0

GateUser-cb789e81

· 2h atrás

Reduzir os custos é que é habilidade de verdade, aguarde o preço da API

Ver originalResponder0

GasFeeAnxiety

· 2h atrás

Última pergunta: Quando será aberto para usuários gratuitos?

Ver originalResponder0

GateUser-f78f1f3e

· 2h atrás

Marco importante do chip + atualização de funcionalidades, duas boas notícias ao mesmo tempo?

Ver originalResponder0

GateUser-06596f3b

· 2h atrás

A pista de múltiplos modos atualmente não possui essa funcionalidade, desculpe, não pode sair.

Ver originalResponder0

Ver projetos