DeepSeek Introduz o método de Primitivos Visuais para aprimorar o raciocínio multimodal em 30 de abril

De acordo com o relatório técnico da DeepSeek, em 30 de abril, a empresa introduziu o Visual Primitives, um método que incorpora unidades visuais básicas, como pontos e caixas delimitadoras, em cadeias de raciocínio para resolver o problema da Reference Gap em tarefas multimodais. A abordagem reduz o consumo de tokens de imagem por meio de compressão do KV cache.

Em benchmarks de contagem e raciocínio espacial, a estratégia se iguala ao desempenho do GPT-5.4, Claude-Sonnet-4.6 e Gemini-3-Flash em dimensões selecionadas. A DeepSeek afirmou que vai disponibilizar em open-source partes dos benchmarks e dos conjuntos de dados, com os pesos do modelo a serem liberados após a integração.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Forefront Tech conclui o $100M IPO com preço, listagem na Nasdaq sob o código FTHAU

De acordo com a ChainCatcher, a empresa de aquisição de propósito específico Forefront Tech concluiu a precificação de uma IPO de US$ 100 milhões em 30 de abril e será listada na Nasdaq sob o ticker FTHAU. A empresa planeja usar os recursos para buscar oportunidades de fusões e aquisições em blockchain, fintech, inteligência artificial e

GateNews16m atrás

O código da Anthropic Claude cobrou demais um usuário em US$ 200,98 devido a um bug de cobrança, inicialmente negando o reembolso antes de compensar integralmente

De acordo com o monitoramento da Beating, um bug de faturamento no serviço Claude Code da Anthropic fez com que um assinante Max tivesse sido cobrado em excesso em US$ 200,98 por taxas de uso adicionais, apesar de usar apenas 13% do limite mensal. O bug foi acionado quando o histórico de commits de um repositório git de um usuário continha a letra maiúscula

GateNews45m atrás

A NVIDIA lança os pesos do modelo flagship Cosmos-Reason2-32B e expande a janela de contexto para 256K tokens

Segundo Beating, a NVIDIA lançou os pesos do Cosmos-Reason2-32B, a versão principal da sua visão de raciocínio em IA física para linguagem visual (VLM, na sigla em inglês) — projetada para ajudar robôs e sistemas de condução autônoma a entenderem princípios espaciais, temporais e físicos. O modelo de 32 bilhões de parâmetros,

GateNews1h atrás

OpenAI revela por que o Codex não pode falar sobre “goblins”: a recompensa por personalidade “nerd” saiu do controle

A OpenAI, no blog oficial, explicou que o Codex não deve falar sobre goblins e outras criaturas, devido a uma preferência por sinais de recompensa em treinamento de personalidade de “nerds”, que usava metáforas com criaturas, causando contaminação entre personalidades e desorientação no RLHF. O episódio veio à tona depois que Barron Roth revelou uma instrução do sistema, e a OpenAI adotou duas estratégias: codificação rígida no curto prazo e eliminação de sinais de recompensa no longo prazo. O caso alerta sobre a fragilidade do design de recompensas, e que auditorias pós-treinamento precisam ser mais detalhadas.

ChainNewsAbmedia1h atrás

A Alibaba abre código do módulo de interpretabilidade Qwen-Scope do Qwen, cobrindo 7 modelos, em 30 de abril

De acordo com a PANews, em 30 de abril, a Qwen, da Alibaba, anunciou a disponibilização em open source do Qwen-Scope, um módulo de interpretabilidade treinado nos modelos das séries Qwen3 e Qwen3.5. O lançamento inclui 7 modelos de linguagem de grande porte em variantes densas e mixture-of-experts, com 14 conjuntos de sparse autoencoder

GateNews2h atrás

Servidores de IA Nvidia B300 batem US$ 1 milhão na China em meio a aperto de oferta

De acordo com a Reuters, os servidores de IA B300 da Nvidia agora são vendidos por aproximadamente 7 milhões de yuans (US$ 1 milhão) na China, impulsionados por uma repressão às redes de contrabando e pela demanda contínua das empresas locais de tecnologia. O preço disparou em relação aos cerca de 4 milhões de yuans (US$ 585.000) no fim de 2025, significativamente

GateNews2h atrás
Comentário
0/400
Sem comentários